Slovenščina v času umetne inteligence

Avtor: Petra Prešeren Golob

Datum: 10. november 2025

Čas branja: 2 min

Slovenski jezik ni le sredstvo za sporazumevanje, ampak je temelj narodne identitete. Stoletja je kljuboval različnim oblastem in vplivom, tehnološki razvoj pa ga postavlja pred nove izzive. Da bi slovenščina obdržala svoj prostor v digitalni prihodnosti, strokovnjaki s Centra za jezikovne vire in tehnologije Univerze v Ljubljani gradijo generativni model za slovenščino oziroma GaMS, slovensko različico velikih jezikovnih modelov, kot sta ChatGPT in Claude.

Kako delujejo veliki jezikovni modeli?

Veliki jezikovni modeli so vrsta umetne inteligence, ki se uči jezika na velikanskih zbirkah podatkov, na ogromnih količinah besedil, kot so spletne strani, knjige, članki in drugi zapisi. Algoritmi modela med učenjem odkrivajo vzorce, kako se besede in stavki povezujejo, kakšna je struktura jezika in kako ljudje izražamo misli. Ko jim postavimo vprašanje ali jim damo nalogo, odgovore ustvarijo na podlagi naučenih vzorcev. Ključ do uspeha pa je v kakovosti in obsegu učnih podatkov. Več kakovostnih besedil ko ima model na voljo za učenje, bolje razume jezik, kulturo in kontekst.

Veliki jezikovni modeli se učijo na trilijonih besed iz knjig, spletnih strani, znanstvenih člankov, kode in celo razprav na spletnih forumih. Foto: Depositphotos

GaMS odpira vrata tehnološki prihodnosti

Veliki jezikovni modeli spreminjajo način komuniciranja, dostop do informacij in uporabo spleta. Ker so naučeni predvsem na podlagi besedil v angleščini in drugih velikih svetovnih jezikih, v slovenščini delujejo slabše. Razvitim jezikovnim modelom manjkajo kulturne posebnosti slovenskega jezika, kar pomeni, da ne upoštevajo kulturnega ozadja, zgodovine in navad.

Strokovnjaki z Univerze v Ljubljani razvijajo GaMS, slovenski generativni jezikovni model. Foto: PoVeJMo
V programu bodo razvili več računsko učinkovitih odprtodostopnih velikih jezikovnih modelov. Foto: PoVeJMo

1 / 2

»Res je, katera koli korporacija lahko s spleta pobere besedila v slovenščini in jih uporabi, toda če takšen jezikovni model naredimo sami, smo neodvisni od njihovih samovoljnih odločitev. Sami lahko odločamo, komu bo na voljo, ga ciljno in pregledno razvijamo ter nadzorujemo kakovost vhodnih besedil,« pojasni dr. Špela Arhar Holdt, koordinatorka zbiralne akcije besedil ter raziskovalka na ljubljanski Fakulteti za računalništvo in informatiko.

Kar 40 milijard besed za prihodnost slovenščine

Model, ki ga bodo v okviru raziskovalnega programa Prilagodljiva obdelava naravnega jezika s pomočjo velikih jezikovnih modelov (PoVeJMo) razvili za slovenščino, prinaša številne prednosti. Bolj bo jezikovno pristen in natančen, upošteval bo lokalne kulturne posebnosti ter zagotavljal ustrezno in učinkovito komuniciranje.

Slovenski veliki jezikovni model bo odprto dostopen za raznovrstno uporabo, na primer v medicini in industriji, poleg tega bodo novi jezikovni viri in tehnologije za pisni in govorjeni slovenski jezik spodbudili nadaljnji razvoj in konkurenčnost orodij in storitev v slovenskem jeziku.

Slovenski velik jezikovni model bo prosto dostopen različnim uporabnikom. Foto: Depositphotos
S svojim velikim jezikovnim modelom slovenski jezik stopa ob bok največjim svetovnim jezikom. Foto: Depositphotos

1 / 2

Za uspešno delovanje modela GaMS raziskovalci potrebujejo ogromno količino učnih besedil – skupno 40 milijard besed. Zato so organizirali zbiralno akcijo pisnih in govorjenih besedil v slovenščini, v kateri lahko sodeluje vsak.

K sodelovanju so povabili tudi medije, knjižnice in druge velike ustanove. Besedila so lahko različna, od vsakdanjih zapisov in elektronskih sporočil do strokovnih člankov, lahko so lektorirana ali nelektorirana. Pomembno je le, da imajo avtorji zanje ustrezne avtorske pravice.

Besedila zbirajo na spletni strani Povejmo.si, kjer lahko tudi preizkusite delovanje modela.

Več ko bo zbranih besedil, bolje bo jezikovni model deloval in večja bo njegova jezikovna zmogljivost. Foto: Depositphotos

Slovenski raziskovalci s projektom GaMS dokazujejo, da tudi manjši jeziki lahko držijo korak s tehnološkim napredkom. Razvijajo odprt, varen in kakovosten model, ki bo dostopen vsem pod enakimi pogoji ter ga bo mogoče uporabiti kot temeljno jezikovno infrastrukturo za prihodnje generacije.