Korpusar behövs – men lita inte blint på dem!

En korpus (eller närmare preciserat textkorpus) är en samlad textmängd som t.ex. kan göras till föremål för vetenskapligt studium. I dag används ordet i praktiken bara om elektroniska korpusar, som ofta omfattar flera tiotal miljoner löpande ord. Korpusarna är vanligen uppbyggda så att de innehåller ett representativt urval texter från en viss tidsperiod. Av praktiska skäl dominerar ofta tidningsspråket.

I detta nummer av Språkbruk ingår en artikel av Sven-Göran Malmgren om den nya danska Korpus 2000. Den utmärks framför allt av effektiva sökmöjligheter som underlättar användningen och tolkningen av resultaten.

Mickel Gröönroos artikel om de svenska korpusarna i Språkbruken i Finland i förra numret av Språkbruk visade på både möjligheter och svagheter. Språkbanken i Finland innehåller finlandssvenska text på drygt 30 miljoner löpord och en sverigesvensk korpus nästan tjugo miljoner löpord. En ansenlig mängd, tycker man – men ändå visade det sig att en jämförelse gav vid handen att vissa vanliga svenska ord som t.ex. överflyga, överkänslig, överräcka, övernatta och övertidsjobb var ”finlandismer”, eftersom de förekom i den finlandssvenska men inte alls eller mycket mer sällan i den sverigesvenska korpusen. Det är med andra ord alldeles uppenbart att en sådan korpus inte räcker till för att ge en riktig bild av ordförrådet.

Den stora svenska Språkbanken i Göteborg är betydligt mer omfattande och därför också mer tillförlitlig än den sverigesvenska textkorpus som finns lagrad i Språkbanken i Finland. Ändå är det lätt att upptäcka brister när det gäller ordförrådet. I en recension har jag tidigare påtalat att ordet årsverke (som rekommenderas i stället för det föråldrade månar) saknas i Svenska Akademiens ordlista. Mycket riktigt finns det inte heller mer än ett belägg i hela Språkbanken. Däremot representeras månar av sex belägg och har fått komma med i SAOL. En betydligt bättre bild får man när man med hjälp av en sökmaskin letar på hela webben, där den sortens ord har en helt annan frekvens än i tidningstext och romaner. Där finns över tusen exempel på årsverken, och ungefär hälften så många på månar.

I höst har jag haft anledning att titta närmare på ord på -tillfälle, som diskussionstillfälle, informationstillfälle, kurstillfälle, mötestillfälle och utbildningstillfälle – alla utom kurstillfälle traditionellt stämplade som finlandismer som inte bör användas. Sådana ord saknas så gott som helt i Språkbanken i Sverige. Där finns ett belägg på diskussionstillfälle, ett på informationstillfälle och ett på kurstillfällen, mer inte fler. Språkbanken stöder alltså uppfattningen att sådana ord är så gott som enbart finlandssvenska (jfr fi. tilaisuus).

Men går man ut på webben igen blir bilden en annan. Där finns över 25 000 belägg på kurstillfälle(n) (som visserligen aldrig har betecknats som en finlandism), ca 4 000 utbildningstillfälle(n), inemot 2 000 informationstillfälle(n), över 500 mötestillfälle(n) och ca 250 diskussionstillfälle(n). Allt på sverigesvenska webbplatser. Vi får alltså en helt annan bild än den vi fick av Språkbanken.

Men även om vi hittar orden på webben kan vi inte titta enbart på förekomsten, vi måste också se på kontexten och av den dra slutsatser om betydelsen. Det går inte att göra med datorns hjälp, utan behövs mänsklig språkkunskap och förmåga att dra logiska slutsatser. Till exempel når det gälle olika ”tillafällen” visar det sig att lösningen inte är så enkel som att bara konstatera att ord som utbildningstillfälle och informationstillfälle används i Sverige och därför inte längre betraktas som finlandismer. Dels är de nämligen mindre frekventa i sverigesvenskan än i finlandssvenskan, dels används de på ett lite annat sätt än i finlandssvenskan. Att förklara den skillnaden blir en utmaning för finlandssvenska språkvårdare.

Vi kan ta ett helt annat exempel som inget har med finlandssvenska att göra. Är påslakan ett vanligt eller ett ovanligt ord i svenskan? Och tandborste? Jag tror de flesta är beredda att svara att de hör till det centrala ordförrådet hos en människa med svenska som modersmål. Men använder man t.ex. Språkbanken som källa hamnar båda långt ner på frekvensskalan. Ett ord som arbetsmarknad(en) har omkring tvåhundra gånger fler belägg än påslakan och trettio gånger fler belägg än tandborste. Det beror naturligtvis på att tidningarna inte särskilt ofta har anledning att skriva om påslakan och tandborstar – det är sådant som man mest bara pratar om hemma.

Nu ska detta inte tas som argument för att vi inte behöver textkorpusar. Tvärtom – tillgången till en korpussamlingar som språkbankerna i Sverige och Finland har inneburit en helt ny dimension för språkforskningen och därmed också för språkvården. Det som tidigare bara byggde på intuition kan nu kontrolleras mot levande autentiskt språkbruk. Vi som dagligen arbetar med språkvård och lexikografi skulle i dag inte kunna tänka oss att arbeta utan hjälp av textkorpusar och all den ytterlige information som man hittar på webben. Inte minst för kontroll av konstruktioner och ordkombinationer är de ovärderliga.

När det gäller ordförrådet i stort, och inte minst i fråga om ordfrekvenser i ett vidare perspektiv, räcker emellertid inte ens de största korpusarna till. Den världsvida väven ger oss naturligtvis riligt med tilläggsinformation, men inte heller den kan man lita på utan att noga kontrollera källorna. De frekvenssiffor vi får fram ger oss en oersättlig utgångspunkt, men de måste tolkas med omdöme och språkkänsla.