Datum: 10. november 2025
Čas branja: 2 min
Slovenski jezik ni le sredstvo za sporazumevanje, ampak je temelj narodne identitete. Stoletja je kljuboval različnim oblastem in vplivom, tehnološki razvoj pa ga postavlja pred nove izzive. Da bi slovenščina obdržala svoj prostor v digitalni prihodnosti, strokovnjaki s Centra za jezikovne vire in tehnologije Univerze v Ljubljani gradijo generativni model za slovenščino oziroma GaMS, slovensko različico velikih jezikovnih modelov, kot sta ChatGPT in Claude.
Kako delujejo veliki jezikovni modeli?
Veliki jezikovni modeli so vrsta umetne inteligence, ki se uči jezika na velikanskih zbirkah podatkov, na ogromnih količinah besedil, kot so spletne strani, knjige, članki in drugi zapisi. Algoritmi modela med učenjem odkrivajo vzorce, kako se besede in stavki povezujejo, kakšna je struktura jezika in kako ljudje izražamo misli. Ko jim postavimo vprašanje ali jim damo nalogo, odgovore ustvarijo na podlagi naučenih vzorcev. Ključ do uspeha pa je v kakovosti in obsegu učnih podatkov. Več kakovostnih besedil ko ima model na voljo za učenje, bolje razume jezik, kulturo in kontekst.
GaMS odpira vrata tehnološki prihodnosti
Veliki jezikovni modeli spreminjajo način komuniciranja, dostop do informacij in uporabo spleta. Ker so naučeni predvsem na podlagi besedil v angleščini in drugih velikih svetovnih jezikih, v slovenščini delujejo slabše. Razvitim jezikovnim modelom manjkajo kulturne posebnosti slovenskega jezika, kar pomeni, da ne upoštevajo kulturnega ozadja, zgodovine in navad.
»Res je, katera koli korporacija lahko s spleta pobere besedila v slovenščini in jih uporabi, toda če takšen jezikovni model naredimo sami, smo neodvisni od njihovih samovoljnih odločitev. Sami lahko odločamo, komu bo na voljo, ga ciljno in pregledno razvijamo ter nadzorujemo kakovost vhodnih besedil,« pojasni dr. Špela Arhar Holdt, koordinatorka zbiralne akcije besedil ter raziskovalka na ljubljanski Fakulteti za računalništvo in informatiko.
Kar 40 milijard besed za prihodnost slovenščine
Model, ki ga bodo v okviru raziskovalnega programa Prilagodljiva obdelava naravnega jezika s pomočjo velikih jezikovnih modelov (PoVeJMo) razvili za slovenščino, prinaša številne prednosti. Bolj bo jezikovno pristen in natančen, upošteval bo lokalne kulturne posebnosti ter zagotavljal ustrezno in učinkovito komuniciranje.
Slovenski veliki jezikovni model bo odprto dostopen za raznovrstno uporabo, na primer v medicini in industriji, poleg tega bodo novi jezikovni viri in tehnologije za pisni in govorjeni slovenski jezik spodbudili nadaljnji razvoj in konkurenčnost orodij in storitev v slovenskem jeziku.
Za uspešno delovanje modela GaMS raziskovalci potrebujejo ogromno količino učnih besedil – skupno 40 milijard besed. Zato so organizirali zbiralno akcijo pisnih in govorjenih besedil v slovenščini, v kateri lahko sodeluje vsak.
K sodelovanju so povabili tudi medije, knjižnice in druge velike ustanove. Besedila so lahko različna, od vsakdanjih zapisov in elektronskih sporočil do strokovnih člankov, lahko so lektorirana ali nelektorirana. Pomembno je le, da imajo avtorji zanje ustrezne avtorske pravice.
Besedila zbirajo na spletni strani Povejmo.si, kjer lahko tudi preizkusite delovanje modela.
Slovenski raziskovalci s projektom GaMS dokazujejo, da tudi manjši jeziki lahko držijo korak s tehnološkim napredkom. Razvijajo odprt, varen in kakovosten model, ki bo dostopen vsem pod enakimi pogoji ter ga bo mogoče uporabiti kot temeljno jezikovno infrastrukturo za prihodnje generacije.