Svenska dialektkartor på sekunden

Traditionellt har man utforskat dialekter genom arbetskrävande fältarbete, men genom att automatiskt analysera text på Internet kan nu vem som helst skapa egna dialektkartor på bara en sekund.

"I Sverige har dialektforskning med största ifver och framgång länge bedrifvits och bedrifves fortfarande."

Citatet från Nordisk Familjebok (1913) är lika aktuellt nu, ett drygt sekel och en stavningsreform senare, men en och annan detalj har förstås förändrats. Då var Norden ännu till största delen ett samhälle av bönder som tillbringade större delen av sina liv i hembyn, och kommunicerade med andra från byn eller grannbyarna.

Vi har nu tillgång till ett underlag som gamla tiders dialektforskare inte hade kunnat drömma om.

En dialektforskare kring förra sekelskiftet som ville utforska, säg, dalmålens variation, fick helt enkelt masa sig iväg till Dalarna och fråga lokalborna hur de säger det ena eller det andra. Den typen av fältarbete utförs fortfarande, speciellt för språk som är mindre välutforskade än svenskan, men tekniken har öppnat helt nya möjligheter för länstolslingvister att samla in stora mängder språkdata utan att resa land och rike runt.

Mycket av vår kommunikation sker i dag i skrift, och är dessutom ofta allmänt tillgänglig via Internet. Det här är en guldgruva inte bara för reklamspridare och spionorganisationer, utan även för språkforskare. Via bloggar, Facebook, diskussionsforum och liknande kan vi få reda på varifrån en person kommer, och dessutom se ett prov på hans eller hennes skriftspråk. Eftersom vi med datorns hjälp kan göra den här insamlingen automatiskt för miljontals människor från världens alla hörn, har vi nu tillgång till ett underlag som gamla tiders dialektforskare inte hade kunnat drömma om. Materialet som används i den här artikeln omfattar till exempel ungefär 150 000 olika bloggar på svenska, med totalt över en miljard ord text.

Kvantitet och kvalitet

Det här låter alldeles underbart, i alla fall om det är mängden information man är intresserad av. Tyvärr har automatiseringen också en baksida. Även om vi kan suga upp enorma mängder information från nätet, är det omöjligt att borga för kvaliteten hos den information vi skaffar oss för varje enskild person. Om Lisa i Ystad använder ordet rälig (ett skånskt ord som betyder ’äcklig’) är den rimligaste förklaringen att det är så folk i Skåne säger, men vi skulle också kunna tänka oss att Lisa har tagit med sig ordet från Umeå där hon växte upp, eller att hon citerar sina kusiner från Åland och att ordet hör till finlandssvenskan. Kanske ljuger hon på sin blogg, och har i själva verket bott hela sitt liv i Stockholm. Eller är rälig helt enkelt en felskrivning av rolig?

Den enorma kvantitet data vi har skaffat oss har till viss del betalats genom att snåla på kvaliteten.

En gammaldags kringresande dialektforskare har naturligtvis inga problem att fråga Lisa var hon är född, huruvida hennes grannar i Ystad också använder rälig, och så vidare. Våra datorprogram har tyvärr inte den möjligheten, och den enorma kvantitet data vi har skaffat oss har till viss del betalats genom att snåla på kvaliteten.

Men om man inte kan lita på sina data, vad är den då värd? Trots att osäkerheten är stor om varje enskild persons ursprung och varje enskilt ords sammanhang, blir bilden en helt annan när man tittar på många personer samtidigt. Kartan visar användningen av ordet rälig, där färgen på varje kommun anger hur stor andel av bloggarna därifrån som någon gång använder rälig. Trots att det finns enstaka belägg från runt om i Sverige är det tydligt att det är i Skåne som de flesta användare finns.

Ännu tydligare blir det i nästa karta, där datorn har försökt beräkna andelen användare i varje kommun, baserat på antagandet att angränsande kommuner oftast har ungefär samma andel användare av ett visst ord. Det här motsvarar vår kunskap om att språkliga särdrag tenderar att förekomma inom geografiskt sammanhängande områden. Denna metod gör kartan mindre fläckig än den föregående, eftersom slumpeffekter i urvalet av bloggare tonas ner. Eftersom vi vet att rälig är ett regionalt ord för äcklig, kan vi också jämföra hur vanliga dessa två ord är i förhållande till varandra.

Ett annat exempel där det finns stor variation inom det svenska språkområdet är ordet för föräldrars kusiners barn. I södra Sverige kallas dessa nästkusiner, i Mellansverige sysslingar, i större delen av Norrland tremänningar, och i Finland samt en bit in på svenska sidan gränsen för småkusiner. På kartan kan vi se att även syssling förekommer till viss grad i Finland, men av programmet får vi inte veta om det är i den finlandssvenska betydelsen (alltså föräldrars småkusiners barn, se Södergård och Tjäru i Språkbruk 3/2007(avautuu uuteen ikkunaan)) eller i den rikssvenska.

Dialektkarta över nästkusin, tremänning, syssling och småkusin.

Nya möjligheter

Vi kan alltså automatisera det som dialektforskare har gjort i alla tider, från tidigare seklers äventyrsresande till de moderna lingvister som använder Internet som källmaterial för dialektstudier (se till exempel Mikael Parkvalls dialektkartor på Lingvistbloggen, Stockholms universitet, eller i Språktidningen 9/2012).

Men även om tiden för att skapa en karta har minskat från dagar eller månader till en sekund, så handlar det ändå bara om att upprepa det som redan har gjorts, med ord som är välkända för sin geografiska snedfördelning. Ännu mer spännande blir det när vi använder det här materialet för att hitta snedfördelade ord. Principen för det här är enkel: gå igenom svenskans vokabulär, ord för ord, och kasta bort de ord som verkar förekomma lika ofta i hela språkområdet. Det som finns kvar blir då ord som på något sätt är begränsade i sin utbredning.

På så sätt kan vi se att till exempel töla och tjåla är begränsade, och tittar vi på kartan ser vi att de förekommer på två närliggande områden i Värmland (töla) och Dalarna (tjåla). Men vad betyder de? För en modern datorlingvist som kännetecknas av lathet snarare än äventyrslusta finns även här ett effektivt tekniskt hjälpmedel: ordrumsmodeller. Det är matematiska modeller som placerar ord i en mångdimensionell rymd så att ord som används på ett liknande sätt hamnar nära varandra.

Med hjälp av en ordrumsmodell kan vi titta på vilka ord som används ungefär som ”tjåla”, och hittar till exempel: töla, tjöta (även skrivet tjôta, västgötskt ord för att småprata), mysprata, gossipa och snacka. Det verkar alltså klart att både tjåla och töla handlar om någon typ av avslappnad konversation.

Processen går även att utföra i omvänd ordning. Om man till exempel vill leta efter lokala ord som betyder småprata, så kan man först leta efter ord som ligger nära exempelvis småprata eller snacka i ordrummet, och sedan undersöka vilka av dessa som har en begränsad geografisk utbredning.

Från vaggan till graven

Framöver kommer vi att kunna studera språkets ständiga förändring i större detalj än vad som varit möjligt tidigare.

Bloggtexterna vi använder för våra undersökningar representerar en ganska kort tidsperiod, och trots att det handlar om över en miljard ord så är det bara en liten del av allt som skrivs på svenska. Det här ger oss en ögonblicksbild av vilka ord som är etablerade på olika håll i det svenska språkområdet just nu, men språket är i ständig förändring och framöver kommer vi även att kunna studera den här förändringen i större detalj än vad som varit möjligt tidigare. Vi kommer kunna se hur mängder av ord och uttryck myntas, hur de flesta tynar bort i glömska, men också hur några få överlevare får fäste, sprids, och blir en del av allmänspråket i något område. Forskare på olika håll gör redan det här i viss utsträckning, men med tillgång till hela mängden text som överförs via Internet kan det till och med gå att spåra tillbaka varje nytt ord till dess ursprung, om vi nu finner det lämpligt att ge upp hela vårt privatliv för den sakens skull.

----

Du kan själv skapa kartor med författarens verktyg, som finns på Stockholms universitets webbplats: http://www.ling.su.se/kartverktyg(avautuu uuteen ikkunaan, siirryt toiseen palveluun)