När jag var tio år fick skolan jag gick i besök av en präst som undrade om vi elever visste vilket ord som var ”det vanligaste av alla”. Av någon besynnerlig orsak hade denne präst fått för sig att detta vanligaste ord var förlåt, ett ord som jag mycket väl insåg att prästen ville höra när jag räckte upp handen och utropade och!
Det var länge sedan jag var denne lille förnumstige kille. Men nu för tiden vet jag med säkerhet att och faktiskt hör till de tre mest frekventa svenska graforden av i dag i de flesta skriftspråksgenrer – varför inte också i det klerikala språket?
Vad vill jag bevisa med denna anekdot? Kanske inget. Eller kanske bara det att man kan behöva hjälp från ovan när man börjar intressera sig för de stora sambanden. De som en korpus visar oss.
Vad är en korpus?
I denna artikel kommer jag att behandla maskinläsbara korpusar avsedda för lingvistiska ändamål, men det är självklart att korpuslingvistikens anor sträcker sig längre tillbaka i tiden än till konstruerandet av den första datorn. Jag nöjer mig med att definiera en korpus som en stor samling texter, som kan anses vara representativa för ett språk, eller en eller fler mindre domäner inom ett språk, och som dessutom kan bearbetas med komputationella metoder med mål att ta fram korrekta lingvistiska data.
En korpus kan bestå av allt från en miljon (t.ex. Brown Corpus) till flera hundratals miljoner ord (Bank of English). I själva verket kan en samling texter på bara några hundra tusen ord också kallas en korpus. Då handlar det speciellt om korpusar som består av texter från väl avgränsade domäner eller om korpusar som är avsedda för specifika ändamål, till exempel syntaktisk analys e.d. I det stora hela är det nämligen svårt att dra en gräns för när en textsamling är tillräckligt stor för att kunna kallas en korpus. Snarare handlar det om hur representativt materialet kan anses vara. Detta återkommer jag till längre ner i artikeln.
Målet man sätter upp när man börjar bygga upp en korpus kan vara att representera språket inom en viss genre (t.ex. en korpus med EU-texter), texttyp (t.ex. en talspråkskorpus) eller att – åtminstone i teorin – försöka vara heltäckande med avseende på ett språk (t.ex. British National Corpus, BNC, och Bank of English, BoE).
Vad innebär representativitet?
Definitionen ovan innehåller ett problem; hur ska vi kunna vara säkra på att de texter som står till vårt förfogande faktiskt är representativa för det språkbruk vi ämnar beskriva?
I det stora hela kan man tala om två olika synsätt på detta: På den ena ytterkanten har vi de som talar för att det är korpusens storlek som är det avgörande – med ett tillräckligt stort material ska det inte spela en så stor roll om man inte har full kontroll över vilka texter som ingår i korpusen. Fördelarna med det stora materialet vinner över nackdelarna med att man inte kan vara säker på att materialet faktiskt är fullt så representativt. Detta kunde kallas den opportunistiska skolan och det är närmare den här sidan som till exempel Bank of English med sina över 320 miljoner ord står. De ansvariga på BoE anser nämligen att ett material på några hundra miljoner engelska ord fortfarande är alldeles för litet, i synnerhet om man jämför med den enorma ström av engelska som genereras dagligen. Därför är det viktigare att nya texter från nya källor läggs till korpusen, än att de relativa proportionerna mellan texter från olika genrer hålls konstant enligt någon viss representativitetsformel. En nackdel med dessa riktigt stora korpusar är dock att det i det stora hela är omöjligt att söka efter enskilda högfrekventa ordtecken i dem (t.ex. ord som and, I, och that för BoE:s del).
På den andra ytterkanten har vi de som talar för att man med yttersta precision ska välja vilka texter som ska få ingå i en korpus. Bara på detta sätt kan man bygga upp en korpus som är pålitlig och representativ. Kort sagt: Endast så kan man få fram en korpus som är balanserad med tanke på det språkbruk som man vill representera. Det viktiga är inte nödvändigtvis storleken på korpusen, utan urvalsprinciperna. I dessa mindre korpusar kan användaren även söka efter högfrekventa ordtecken, eftersom antalet träffar inte blir okontrollerbart stort då materialet är litet. Däremot missar hon av naturliga skäl lätt skillnaden i frekvens hos mindre vanliga ord. För att denna skillnad ska kunna tas fram och belysas representativt måste korpusen vara stor – ju ovanligare ordet är, desto större måste korpusen vara.
Varför vill vi ha korpusar?
La langue et la parole, competence and performance. Ferdinand de Saussure och Noam Chomsky är inte de enda, men kanske de mest kända, som på olika sätt har visat på skillnaden mellan språket som abstrakt system – det vi kan uttrycka – och språket så som vi faktiskt använder det – det vi uttrycker. Hur ska man gå till väga för att sammanföra dessa två? För det måste väl vara en förutsättning att de möts någonstans, eller kan man på ett rättvist sätt beskriva språket, utan att se till språkbruket?
Korpuslingvistiken ger oss möjligheten att tack vare stora textsamlingar med autentiskt språkmaterial se hur man faktiskt använder språket i den domän eller de genrer som korpusen är avsedd att representera. Men därtill behövs teoretisk kunskap om vi vill kunna dra riktiga och väsentliga slutsatser av våra material. Med ett flertal miljoner ord ur annonstext i en dagstidning kan vi – om vi vet hur – dra långtgående slutsatser om hurdant annonsspråket i tidningar är. Har vi ett stort material med transkriberade nyhetsuppläsningar på radio kan vi säga något om nyhetsspråket i etern.
En korpus kan också avses – och måste med tiden anses – så länge språket lever – spegla språket inom en viss domän under en viss tid. Har vi två korpusar som representerar samma genre, men härstammar från olika decennier kan vi tydligt se hur språket i den representerade genren har förändrats. Många nyord i tidningssvenskan kan till exempel upptäckas om man jämför de två svenska dagstidningskorpusarna Press 65 och Press 97 i Språkbanken i Göteborg med varandra.
Av denna utläggning framgår att det knappast är fel att påstå att korpusen innehåller kärnan i språkbruket – om korpusmaterialet är representativt för den genre det är tänkt att korpusen ska innehålla, förstås. Ju mer material, desto större kärna, kan man också säga.
Korpusar kan användas till mycket: ordböcker, grammatiska beskrivningar av alla de slag, språkstatistik, översättningshjälp, språkvård, genre- och texttypskategorisering, många slags jämförande språkforskning (både i tid och rum), ja, i stort sett till allt som har med studiet av texter – skrivna och talade – att göra.
Låt oss ta ordboksarbetet som exempel. Inom lexikografin har man alltid varit beroende av autentiska texter, men det material som gårdagens ordboksredaktörer excerperade för hand väger lätt i jämförelse med dagens maskinläsbara korpusar. I en maskinläsbar korpus kan man utan större ansträngning och på ett fåtal sekunder ta fram exempel på hur till exempel ett uttryck som ”spela teater” används i verkligheten. I en så kallad konkordans kan ordboksredaktören ta fram alla belägg på teckensträngen ”spela teater” jämte kontext, för att då kunna se hur ofta, i vilket slags lingvistiska kontext och i vilken genre eller texttyp uttrycket förekommer. I en korpus med kulturartiklar som har ingått i dagstidningar kan man förvänta sig att uttrycket ”spela teater” vore mer frekvent än det skulle vara i en korpus bestående av sportartiklar (se exempel 1 nedan).
Allt detta är viktig information för ordboks-redaktören som ska bestämma om ett ord eller uttryck alls ska få ingå i ett lexikon, om det ska förses med någon speciell beteckning för stil (av typen ”vardaglig”, ”provinsiell” e.d.) och vilka olika eller besläktade betydelser som uttrycket ska anses beteckna (jämför ”På Nationalteatern kan de spela teater” med ”Du ska inte tro honom; han är expert på att spela teater”).
Därtill får ordboksredaktören ju en hel drös autentiska exempel att plocka språkprov ur, så han slipper hitta på dem så som jag har gjort ovan.
Taggning – vad är det?
Hittills har jag bara på ett generellt plan talat om nyttan med korpusar och i mina exempel har endast teckensträngar tagits upp som sökkriterier. Man kan fråga sig om det inte är bortkastat arbete att ha en stor korpus som man bara kan söka i med strängar av tecken. Går man inte miste om en hel del information då?
Mycket arbete har lagts ner på olika sorter av taggning av korpusmaterial. Med taggning menar man att man ser förbi teckensträngarna och tar fram sådan information som trots allt finns i materialet. Man gör det implicita explicit och vinner ökad sökbarhet i och användbarhet av korpusen.
Enklast är det att tagga eller märka upp bibliografiska faktorer, till exempel så att varje text i en korpus förses med information om källans namn och när materialet har tillkommit. I en korpus uppmärkt på detta sätt är det ingen konst att ta fram och söka i subkorpusar av olika slag. En sociolingvist kanske vill jämföra dagstidningsledare ur ett könsperspektiv, en grammatiker kanske vill jämföra användningen av maskulina adjektiv i olika texttyper och en ordboksredaktör kanske vill ta reda på i vilka genrer ett visst uttryck är användbart.
Det är inte heller särdeles svårt att märka upp ortografiska kännetecken, till exempel diverse grafologiska signaler som olika slags citattecken, indentering, kursivering o.d. Men det finns mycket mer avancerad taggning än så. I talkorpusar kan man till exempel vid transkriberingen ta med fonetisk eller fonematisk information och likaså ta till vara prosodin (London-Lund Corpus of Spoken English). Därtill har man arbetat med automatisk syntaktisk analys (så kallade trädbanker, t.ex. The Penn Treebank) och i viss mån även med diskurstaggning, medan den semantiska taggningen i det stora hela fortfarande är en nöt för framtidens knäppare, om den alls kan anses vara praktiskt genomförbar.
Av alla sorters taggning är det ändå ordklasstaggningen som har fått mest uppmärksamhet hittills.
Ordklasstaggning och morfosyntaktisk taggning
Med ordklasstaggning menar man att man förser varje ordtecken, i själva verket varje teckensträng som föregås och efterföljs av ett mellanslag, med information om vilken ordklass ordtecknet tillhör (interpunktion o.d. tilldelas också egna taggar, eftersom dessa symboler särskiljs från de graford de står invid). På svenska har forskare främst jobbat med morfosyntaktisk taggning (t.ex. SUC och svenska Parole). Med morfosyntaktisk taggning menar man att varje ordtecken inte bara förses med information om ordklasstillhörighet, utan också med information om till exempel genus, kasus, numerus, species, tempus etc.
Några banala exempel kunde vara graforden hundens, massmedierna, språklig och producerades som då skulle kunna förses med följande morfosyntaktiska information: ”substantiv, utrum, singularis, genitiv, bestämd form” för hundens, ”substantiv, neutrum, pluralis, nominativ, bestämd form,” för massmedierna, ”adjektiv, positiv, utrum, singularis, nominativ, obestämd form” för språklig, ”verb, preteritum, passiv” för producerades.
Fördelarna med morfosyntaktisk taggning är uppenbara, till exempel förenklas den enskilde korpusanvändarens sökmetoder avsevärt, i synnerhet om han har för avsikt att söka efter syntaktiska konstruktioner snarare än efter specifika ord. Det är ingen svårighet att ta fram alla verb i preteritum, alla presens particip följda av obe-stämda neutrer eller varför inte alla nominalfraser som innehåller en relativ bisats.
Ordklasstaggningen är förstås inte enbart till nytta för en mänsklig användare. Också automatisk syntaktisk analys (The Penn Treebank) och andra datalingvistiska tillämpningar kräver eller kan dra nytta av ordklasstaggade korpusar.
Det är också rätt självklart att taggarna inte ser ut som i de fyra exemplen ovan, även om de innehåller samma information. Olika taggscheman har dessutom använts för olika korpusprojekt, och det tvistas jämt och ständigt om hur många taggar som behövs för att materialet ska vara så användbart som möjligt. Om antalet taggar är litet anser många att också risken för feltaggning, inkonsistens och osäkerhet blir mindre, i synnerhet när det gäller automatisk taggning – och då förenklas eventuell manuell felsökning. Å andra sidan innebär ett litet taggset att sökningarna blir grövre, även om små taggset vid automatisk taggning kan vara en nödvändighet, eftersom processtiden då blir kortare.
Behovet av taggar varierar också från språk till språk och från genre/texttyp till genre/texttyp – det är till exempel ganska självklart att en talspråkskorpus till en viss grad kräver andra taggar än en skriftspråkskorpus, också i ordklassuppmärkningen. Därtill måste man vara på det klara med vilket syfte man har med korpusen; för vissa ändamål kanske det inte är viktigt att kunna sär-skilja mellan till exempel adverb/prepositioner och verbpartiklar.
Antalet taggar i ett taggschema kan alltså variera mycket. The Penn Treebank innehåller bara 36 ordklasstaggar och 12 övriga taggar, Brown Corpus 87 grundtaggar och 90 extra sammansatta taggar, Lancaster-Oslo/Bergen Corpus (LOB) 132 grundtaggar, London-Lund Corpus (med eng-elskt talspråk) 158 grundtaggar och 39 sammansatta samt Stockholm-Umeå Corpus (SUC) ungefär 180 taggar (se exempel 3 på sidan 19).
Hur och varför automatisk ordklasstaggning?
Fördelarna med ordklasstaggning är uppenbara, men att manuellt tagga en korpus på flera miljoner ord är ett tidskrävande – hopplöst kantänka – företag. Ett flertal automatiska ordklasstaggare (automatic part-of-speech taggers) har tagits fram och två metoder för automatisk taggning ska presenteras här: dels den stokastiska (statistiska), dels den transformationsregelbaserade taggningen. Men först ska några allmänna principer tas upp.
Automatisk ordklasstaggning skulle inte vara något problem om språket var entydigt både på den lexikala och syntaktiska nivån, dvs. om antalet graford var begränsat och ett graford alltid bara hade en betydelse som dessutom var densamma oberoende av kontexten. Verkligheten är ändå – gudskelov! – en annan. För även om man byggde upp ett lexikon med ett flertal miljoner uppslagsord, skulle något saknas, t.ex. 13.02-tåget eller Turbo-Hasse, graford som gott kunde tänkas ingå i en tågtidtabell eller ett seriealbum. Och även om man i sitt megalomaniska lexikon fann grafordet led skulle ett automatiskt ordklasstaggarsystem inte endast med lexikonets hjälp kunna veta om det är verbet som avses (och vilken betydelse i så fall) eller kanske något av substantiven (jfr, ett led–en led). Det hör till språkets natur att vara ambiguöst (mångtydigt), och det är denna mångtydighet som ett automatiskt ordklasstaggarsystem måste disambiguera (göra entydig) på ordnivå.
De flesta automatiska ordklasstaggarsystemen bygger dels på ett större eller mindre lexikon (och/eller någon form av morfologisk analys), dels på något slags regelsystem eller alternativt en uppställning sannolikhetsvärden. Med hjälp av dessa ska systemet nå målet att alla ordtecken (eller varje graford inklusive alla specialtecken) ska ha erhållit en och endast en tagg, dvs. den korrekta.
Många metoder för att nå målet har utvecklats. Det som de allra flesta har gemensamt är det som vi kunde kalla lexikondelen av arbetet. Vid ambiguösa fall förses ordtecknet av vissa system (t.ex. Eric Brills system som presenteras nedan) i detta initialskede endast med en tagg, som representerar den vanligaste, mest troliga, tolkningen. Andra system ger däremot i detta skede det flertydiga ordtecknet alla de tolkningar som anses möjliga. Enligt det första tillvägagångssättet (1) skulle till exempel sport endast förses med taggen ”substantiv, utrum, singularis, nominativ, obestämd form”, eftersom detta är den absolut vanligaste tolkningen, enligt det andra tillvägagångssättet både med denna tagg, samt med taggen ”verb, supinum, aktiv” och kanske till och med med taggen ”perfekt particip” (2).
(1) ”Är du intresserad av sport? frågade ishockeyspelaren.”
(2) ”På söndagen hade hon sport ishockeyspelaren om vägen till ishallen och han kände sig då som ett sport framtidshopp.”
Efter initialskedet, där lexikon har konsulterats och någonslags morfologisk analys genomförts, använder sig olika system av olika metoder för att de ordtecken som eventuellt ännu inte har blivit taggade ska erhålla sina respektive rätta taggar. På samma sätt får de mångtydiga ord som erhållit fler än en tagg bara behålla den – förhoppningsvis – rätta, tack vare olika metoder för disambiguering.
De ambiguösa orden är i själva verket inget litet problem; Sture Allén uppskattar antalet ambiguösa svenska ord till 64,5 procent, Fred Karlsson anser dem utgöra ungefär 57 procent av alla svenska ord (enligt en artikel av Eva Ejerhed). Under ordklasstaggningsarbetet på Stockholm-Umeå Corpus (SUC) rapporterar Gunnel Källgren att 51 procent av alla ordtecken hade tilldelats mer än en tagg under den lexikala och den morfologiska analysdelen av ordklasstaggningen.
Tre procent av mångtydighet
Olika system uppvisar lite olika korrekthetsprocenter, men i det stora hela ska det vara möjligt att nå en korrekthet på ungefär 97 procent. Till de resterande tre procenten hör sådana ordtecken som kanske inte kan disambigueras fullständigt (utan att man går till den person som ursprungligen har producerat texten och frågar vad han egentligen har ämnat med sitt yttrande – om ens då). Därmed kan inte ens en ”mänsklig lingvist” ge dessa ordtecken bara en korrekt tagg – om man med ”korrekt tagg” avser en tagg som accepteras av alla språkbrukare.
Gunnel Källgren tar i en artikel upp grafordet så som ett exempel, och tilldelar det fem olika betydelser, av vilka betydelserna som samordnande och underordnande konjunktion är de mest vanliga. Källgren frågar sig hur man då ska tagga så i en mening som ”Hon lyssnade så hon hörde att jag kom”. I detta fall är det omöjligt att avgöra om så är en samordnande (jfr ”Hon lyssnade så hon hörde inte att jag kom”) eller en underordnande (”Hon lyssnade så hon inte hörde att jag kom”) konjunktion – med andra ord kan den lexikala mångtydigheten inte disambigueras med hjälp av den lingvistiska kontexten, helt enkelt därför att den syntaktiska mångtydigheten fortfarande kvarstår.
Vad ska man då göra med dessa oklara fall? De ansvariga för olika projekt har kommit fram till olika lösningar. The Penn Treebank och BNC tillåter dubbla, så kallade portmanteau-taggar, medan SUC är ett exempel på den andra lösningen, som bara tillåter en tagg per ordtecken.
Stokastisk ordklasstaggning
Nu när vi har diskuterat de allmänna principerna kan vi börja granska de två olika metoder för ordklasstaggning som nämndes ovan, den stokastiska och den transformationsregelbaserade.
Vi börjar med att ta upp den stokastiska, eller statistiska, ordklasstaggningen som bygger på sannolikheter. Idén är att det är mer troligt att en specifik tagg föregås, alternativt efterföljs, av en viss annan tagg (eller två eller tre andra taggar) än av en annan och att man på detta sätt ska kunna räkna ut hur sannolikt det är att vissa taggar kollokerar med varandra. Det är till exempel mycket mer sannolikt att ett pronomen följs av ett verb än att det följs av ett annat pronomen.
En typisk statistisk taggare använder sig av ett lexikon, där undantag till de statistiska reglerna finns dokumenterade (t.ex. CLAWS). Många system gör ett slags affixkontroll för att om möjligt bestämma rätt tagg till så många ordtecken som möjligt. Först därefter tar systemet till de sannolikhetsregler som står till dess förfogande.
Dessa sannolikhetsregler kan systemet till exempel lära sig om det tränas på en presumptivt rättaggad korpus. Systemet registrerar regelbundenheter i taggningen av träningskorpusen och bygger på detta sätt upp sina egna sannolikhetsregler. Om ett ord o förekommer 100 gånger i träningskorpusen och har taggats som t i 75 av fallen antar den stokastiska ordklasstaggaren att den lexikala sannolikheten för att o ska vara av typen t är 0,75 när systemet appliceras på en otaggad korpus. På samma sätt kan en typisk stokastisk taggare lära sig hur ofta vissa kollokationer förekommer – om vi antar att ordet p följs av ordet q kan antalet belägg på dessa bigram delas med det totala antalet förekomster av p för att taggaren på detta sätt ska lära sig vilken sannolikheten för bigrammet p+q är.
Exempel på några stokastiska taggare är Churchs PARTS och DeRoses VOLSUNGA.
Transformationsregelbaserad ordklasstaggning
Den stokastiska ordklasstaggningen ansågs länge vara överlägsen de regelbaserade system som hade utvecklats tidigare (t.ex. Klein och Simmons från år 1963 och Green och Rubin från år 1971). År 1992 presenterade Eric Brill ett system som han kallade ”a simple rule-based part of speech tagger”. Denna enkla regelbaserade ordklasstaggare visade på lika höga resultat som de stokastiska taggarna hade gjort, och krävde dessutom, enligt Brill, betydligt mindre lagrad information, var lättare att förbättra och förändra samt enklare att implementera på ett annat språk eller med ett nytt taggset.
Brills taggare börjar med att ge varje ordtecken den tagg som är den mest troliga. Denna information får systemet av ett lexikon som har byggts upp automatiskt när systemet har tränats på en (stor) handtaggad korpus. Till sin hjälp i detta initialskede har Brills taggare två procedurer som den tar till när den stöter på ord som är ”okända” för den, dvs. som inte har funnits i träningskorpusen: dels antar systemet att okända ord med versal begynnelsebokstav är egennamn, dels kollar den på de okända ordens ändelser och ger orden den tagg som är vanligast för ord med samma ändelse. Brills exempel är blahblahous som systemet skulle tagga som ett adjektiv, eftersom engelska ord som slutar på ous brukar vara adjektiv.
Efter denna lexikondel fortsätter Brills taggare med att tillämpa en samling transformationsregler på texten som ska taggas. Dessa är kontextregler av typen ”om ett ord har taggats som ett verb och det ord som står strax framför är taggat som determinator ska verbtaggen bytas mot en substantivtagg”.
Transformationsreglerna formuleras ingalunda i en lingvists hjärna, utan de härleds automatiskt ur en träningskorpus. Systemet taggar träningskorpusen med den lexikonprocedur som beskrevs ovan (men tillämpar alltså inga transformationsregler, eftersom dessa inte har härletts än) och jämför därefter taggningsresultatet med hur taggningen ser ut i samma korpus som är korrekt taggad. Av de olikheter som systemet finner genereras en lista med taggningsfel. Av denna lista bygger systemet sedan upp ett antal transformationsregler och den regel som drar ner antalet feltaggningar maximalt – dvs. som till största möjliga del gör den feltaggade korpusens taggar lika den korrekttaggade korpusens – tillämpas på träningskorpusen och en ny lista av taggningsfel och nya transformationsregler genereras. På detta sätt fortsätter man – applicerar en regel, jämför resultatet, genererar en ny regel som i sin tur appliceras osv. – tills ingen förbättring av resultatet längre kan nås. Träningen av taggaren sägs vara feldriven, eftersom systemet på detta sätt lär sig tagga bättre av sina egna fel.
Fördelarna med Brills taggare är uppenbara. Eftersom både lexikon och regler härleds ur korpusar kan systemet tränas och appliceras på vilket språk och vilken genre som helst så länge man har en korpus att tillgå. Därtill kan vilket taggschema som helst användas.
Där språk möter språk
I denna artikel har jag försökt ge en kortfattad introduktion till det språkvetenskapliga område som kallas korpuslingvistik, men en stor del – om inte det mesta – kan med rätta påstås ha förblivit osagt. Korpuslingvistiken är nämligen ett vetenskapsområde som lever och där nya metoder och användningsmöjligheter i snabb takt kommer till.
På senare år har till exempel ett allt större intresse riktats mot flerspråkiga korpusar och i hög grad mot så kallade parallella texter, till exempel vid avdelningen för språkvetenskaplig databehandling (Språkdata) på Institutionen för svenska språket vid Göteborgs universitet. Dessa parallella texter består i sin allra enklaste form av en källtext och dess översättning (eller översättningar), måltexten (måltexterna). En samling av sådana här parallella texter kan sammanställas och behandlas enligt samma principer som enspråkiga korpusar och användningsområdena är många: allt från datorstödd språkinlärning till arbete med två- eller flerspråkiga terminologiska ordlistor, utveckling av maskinöversättningssystem och vanlig översättningshjälp för den mänsklige översättaren.
Flerspråkiga korpusar har inte tagits upp i denna artikel mer än här, men får tjäna som illustrerande exempel på att korpuslingvistiken är mycket mer än bara en metod att kunna bevisa att och är mer frekvent än förlåt i svenskan.
Länkar till webbplatser av intresse
Länkar till ett antal ingångssidor för korpuswebbplatser:
Språkbanken:
http://svenska.gu.se/
Stockholm-Umeå Corpus:
http://www.ling.su.se/forskning/SUC/Index.html
British National Corpus:
http://info.ox.ac.uk/bnc/
Bank of English:
http://titania.cobuild.collins.co.uk/boe_info.html
Parallella korpusar:
Pedant (Språkdata, Göteborgs universitet):
http://svenska.gu.se/pedant/
The Lingua Project:
http://www.loria.fr/equipes/dialogue/lingua/
På följande sidor kan du själv söka i en korpus:
Parole (Språkdata, Göteborgs universitet):
http://ldb20.svenska.gu.se/
British National Corpus:
http://thetis.bl.uk/lookup.html
Bank of English:
http://titania.cobuild.collins.co.uk/form.html
Länkar till några ordklasstaggarsystem:
QTAG (stokastisk taggare):
http://www-clg.bham.ac.uk/QTAG/description/
CLAWS (stokastisk taggare):
http://www.comp.lancs.ac.uk/ucrel/claws/
Testa själv några verktyg för morfologisk analys och ordklasstaggning:
SWETWOL (svenska, Lingsoft Ab):
http://www.lingsoft.fi/cgi-pub/swetwol
CLAWS (engelska):
http://www.comp.lancs.ac.uk/ucrel/claws/trial.html
Exempel 1.
Sökning med strängen ”spela teater” i Press 97 i Språkbanken vid Göteborgs universitet:
Och i och med att vi alla så gärna vill spela teater går vi till grunden DNFAM
n. Bomberna föll men folk fortsatte att spela teater. Och i Algeriet är SVDKUL
om att åka runt med en familjegrupp och spela teater på olika platser i F GPNÖJ
ger, att försöka hitta nya hörn för att spela teater, säger han möjligen SVDKUL
tals finnas ett större intresse för att spela teater, sätta upp egna pjä SVDKUL
g fick höra att jag var bra, bra på att spela teater. Tidigare trivdes ja GPAVE
Exempel 2.
Några illustrerande exempel på vad man kan göra med ett (morfosyntaktiskt) ordklasstaggat material ur en sökning med söksträngen [word=”att” & msd=”CSS”] [msd!=”V.*”]{0,4} [msd=”V.*”] ”inte” within S i Parole (Språkdata, Göteborgs universitet). Här söker man alltså inom en mening efter ett ”att” taggat som underordnande konjunktion följt av noll till fyra ordtecken som inte är taggade som verb, följt av ett verb och grafordet ”inte”.
Exempel 3.
Exempel på morfosyntaktiskt taggad text (ur Stockholm-Umeå Corpus, SUC).
ingenting/PI@NS0@S tyngde/V@IIAS ,/FI ingenting/PI@NS0@S alls/RG0S ./FE Alltså/RG0S måste/V@IIAS
jag/PF@USS@S flytta/V@N0AS !/FE Jag/PF@USS@S opponerar/V@IPAS mig/PF@USO@S tjurigt/RGPS
mot/SPS Seneca/NP00N@0S där/RH0S han/PF@USS@S ligger/V@IPAS på/SPS nattduksbordet/NCNSN@DS
och/CCS vill/V@IPAS få/V@N0AS in/QS i/SPS mitt/PS@NS0@S envisa/AQP0SNDS huvud/NCNSN@IS att/CSS
”/FP platsen/NCUSN@DS där/RH0S man/PI@USS@S lever/V@IPAS inte/RG0S kan/V@IPAS bidraga/V@N0AS