Byggstenar för att stärka den språkliga infrastrukturen för svenskan i Finland

Svenska och finska motsvarigheter ur Stora finsk-svenska ordboken kopplades ihop med varandra i Wikidata tack vare projekt Fredrika.

Under 2025 kopplades nästan 2 000 finska och svenska ord i Wikidata ihop med pekare på Stora finsk-svenska ordboken. Detta gjordes på både existerande Wikidata-lexem, och även på över 1 000 nyskapade finska och hundratals svenska lexem. Insatsen gjordes av Projekt Fredrika, med målsättningen att erbjuda både AI och människor hjälp med översättning och kunskaper om svenskan i Finland.

AI använder öppna data

Artificiell intelligens möter oss i allt fler sammanhang. I de stora språkmodellerna*, som också kallas LLM:ar (large language models) är språket givetvis av central betydelse.

AI-bolagen använder öppna data som en central grund för hur de bygger upp sina språkmodeller.

Undersökningar har visat att Wikipedia har stor betydelse för LLM-träning, och därmed också Wikidata som en del av Wikipedia. Wikidatas detaljerade struktur och av användargemenskapen noggrant verifierade innehåll gör att datakvaliteten är hög och därmed en guldgruva för språkmodeller.

Små språk behöver medvetna insatser

Ju mindre ett språk är, desto mindre andel utgör det av de öppna data som språkmodellerna tränas med. Svenskan i sig är ett litet språk och den finlandssvenska andelen av de data som finns är ännu mindre. Detta kan leda till att automatisk översättning och andra språkteknologiska verktyg i alltför hög grad baseras på engelskspråkigt och sverigesvenskt material.

En rimlig slutsats av detta är att det krävs en insats för att språkmodellerna ska behärska god svenska.

En rimlig slutsats av detta är att det krävs en insats för att språkmodellerna ska behärska god svenska, även i Finland, där språkbruket och lagstiftningen avviker något från Sverige. Det arbete som i fjol gjordes av projekt Fredrika utifrån Stora finsk-svenska ordboken är ett sätt att med hjälp av Wikidata stärka den språkliga infrastrukturen för svenskan i Finland.

Genom att göra en del av innehållet i ordboken maskinläsbart och fritt tillgängligt har man gett dem som utvecklar AI-system tillgång till korrekta översättningar mellan finska och svenska utan att gå via engelskan. Ett fokus har legat på ett specifikt finlandssvenskt ordförråd, som de samhällstermer som skiljer sig från dem som används i Sverige.

Wikidata knyter samman de olika språkversionerna av Wikipedia

Man kan tänka på Wikidata som ett gemensamt bibliotek över begrepp och ord, där varje ord får en unik kod. Det gör att samma ord kan kännas igen i många system, även av AI-modeller.

Wikidata dokumenterar begrepp i så kallade Q-koder. Till exempel har ordet hund fått Q-koden Q144. Under Q144 förklaras via koder – i motsats till kompletta meningar, som på Wikipedia – att hundar är däggdjur, blir i snitt nio år gamla och huvudsakligen äter proteiner. Från Q-koden länkas till alla Wikipedia-artiklar om hundar, sådana finns på 278 språk.

Q-koden Q144(avautuu uuteen ikkunaan, siirryt toiseen palveluun)

Man kan tänka på Wikidata som ett gemensamt bibliotek över begrepp och ord, där varje ord får en unik kod.

Wikidata dokumenterar också lexem (L-koder). Det svenska ordet hund dokumenteras under lexemet L32379. Under L32379 förklaras att hund är ett substantiv i utrum, hör till andra deklinationsklassen och heter ”hundarnas” i genitiv plural, bestämd form.

Lexemet hund L32379(avautuu uuteen ikkunaan, siirryt toiseen palveluun)

Från lexemet hund L32379 finns direkta pekare till Svenska Akademiens ordlista, Svensk Ordbok, Svenska Akademiens ordbok och den finlandssvenska dialektordboken Ordbok över Finlands svenska folkmål. De utgör källor som påvisar att hund är just ett substantiv och ett utrum.

Ord som ofta blir uppslagna

För AI blir lexemen i Wikidata intressanta i och med att de utgör bryggor mellan språken. Begreppet hund (Q144) är kopplat till inte bara det svenska lexemet hund (L32379) utan även med det finska lexemet koira (L30602).

Lexemet koira L30602(avautuu uuteen ikkunaan, siirryt toiseen palveluun)

Projekt Fredrika har genom att anpassa utvalda finska uppslagsord samt deras svenska ekvivalenter ur Stora finsk-svenska ordboken till Wikidatas lexemmodell ökat antalet kopplingar mellan finska och svenska lexem.

Då arbetet inleddes fanns i Wikidata cirka 50 000 lexem på svenska och 500 på finska. Stora finsk-svenska ordboken innehåller drygt 110 000 finska uppslagsord. För att göra en rimlig begränsning av arbetet användes två listor som Språkinstitutets it-team tagit fram: en lista över ofta gjorda sökningar och en på de ordboksartiklar där någon av de svenska ekvivalenterna markerats som typiska för Finland.

Tio i topp bland de vanligaste sökningarna under de första tre månaderna 2025 var:

pitää (hålla, hålla i, behålla)
asia (sak, ärende)
olla (vara)
haluta (vilja)
liittyä (sammafogas, höra ihop, ansluta sig)
opiskelija (studerande)
ala (yta, område, bransch)
tapa (vana, sätt)
vaikuttaa (påverka)
tehdä (göra)

Utifrån listan över 500 ofta uppslagna ord i Stora finsk-svenska ordboken infördes 466 finska lexem i Wikidata, som kopplades till 656 svenska lexem. Detta beror dels på att de finska kan ha flera betydelser, dels på att det kan finnas flera svenska synonymer.

Att arbeta med de ord som många slår upp i ordboken är förstås särskilt meningsfullt. Men ibland är ett ord antagligen populärt just för att de är så svårt att översätta, och då är det kanske inte en lämplig kandidat för en rak koppling i Wikidata. Komplicerade semantiska förhållanden ledde därför i vissa fall till att ord lades åt sidan, trots att det fanns på listan över ofta uppslagna ord i ordboken.

Fokus på svenskan i Finland

Genom att föra över utvalda uppslagsord ur Stora finsk-svenska ordboken till Wikidatas lexemmodell har Projekt Fredrika möjliggjort ett steg mot AI- och språkverktyg som bättre speglar svenskan i det finländska samhället.

Enligt de här markeringarna förefaller Sverige sakna ofärdsår, lantdagsmän, skyddskårister och skogsgardister.

I ordboken är vissa av de svenska ekvivalenterna nämligen markerade som typiska för svenskan i Finland. Detta förekommer i drygt 2 000 ordboksartiklar. Dels används markeringen Suom för finländska samhällstermer, dels markeringen suomr för att ange att något är ett särdrag i finlandssvenskan. Enligt de här markeringarna förefaller Sverige sakna ofärdsår, lantdagsmän, skyddskårister, skogsgardister, bergsråd, befattningsofficerer, riksförlikningsmän, moderskapsförpackningar, musiklekskolor, sämjoval, Pekkanendagar – och rödstämplad ost.

Samhällstermerna lämpar sig ofta väl för IT-automatisering och införande i Wikidata, då de har en väldigt specifik betydelse och kan kopplas till ett finskt lexem.

De rikssvenska motsvarigheterna till relativt vanliga ord är ibland föga kända i Finland, som till exempel komminister för kaplan, centrallasarett för centralsjukhus, mönstringsålder för uppbådsålder, nationalinsamling för medborgarinsamling, föreningsbank för andelsbank och jordlegoavtal för arrendeavtal. Ur en finlandssvensk synvinkel är det därför av stor betydelse att språkmodeller känner till de finlandssvenska uttrycken.

Betydelsen för AI är svår att mäta

Resultatet av Projekt Fredrikas arbete under fjolåret syns i mängden lexem och kopplingar i Wikidata. Wikidata har utökats med nya svenska lexem samtidigt som antalet finska lexem fyrfaldigats från cirka 500 till 2 000.

Dessutom har vissa program byggts upp som gör det möjligt för andra att bygga vidare. Vi programmerade med AI-stöd, ibland kallat ’vibe coding’ och lade upp koden till allas användning på den mest kända plattformen för allmänt tillgänglig lagring av mjukvara, GitHub, under namnet projekt-fredrika/kotus-suru. Att andra kan bygga vidare på Projekt Fredrikas verktyg, och inte bara de slutliga ändringarna i Wikidata, är centralt för en hållbar resursanvändning – nästa steg kanske utförs av någon annan än Projekt Fredrika, och då behöver de inte återuppfinna våra hjulsnickeriverktyg.

Projekt Fredrika i GitHub(avautuu uuteen ikkunaan, siirryt toiseen palveluun)

De kopplingar som gjorts mellan svenska och finska lexem i Wikidata ger förutsättningar för AI att översätta korrekt och avspegla språkbruket i Finland.

De kopplingar som gjorts mellan svenska och finska lexem i Wikidata ger förutsättningar för AI att översätta korrekt och avspegla språkbruket i Finland. Samtidigt finns det tecken på att diskussionsforumet Reddit används i stor omfattning som träningsmaterial i moderna språkmodeller. De konversationer som förs på forumet är väl lämpade som träningsdata för språkmodeller, då AI-språkmodellerna uttryckligen bör vara bra på diskussioner. Wikipedia och Wikidata ligger genremässigt längre ifrån målet. Nästa steg för den som vill påverka språkmodellerna sker därför kanske via Reddit?

* En stor språkmodell (på engelska Large Language Model, LLM) är en typ av maskininlärningsmodell som är utformad för språkgenerering, och används till exempel i moderna AI‑chatbottar. Språkmodeller tränas på stora textmassor.