Maskinöversättningens mål och möjligheter

Sågvall Heins artikel baserar sig på hennes föredrag på Hugo Bergroth-sällskapets språkvårdsdag i maj 2004.

Maskinöversättning handlar om att få datorer att översätta från ett språk till ett annat. Erfarenheten visar, att det med varierande resultat är möjligt. Man kan förse datorer med språkkunskap i form av lexikon och grammatik och programmera dem till att använda kunskapen för att översätta. Den stora frågan är, hur bra det kan bli. Grovt kan vi säga, att ju mer språkkunskap översättningsprogrammet har till sitt förfogande, desto bättre blir översättningen. Men det handlar inte bara om kvantitet. Viktigt är också att lexikonet är anpassat till det aktuella ämnesområdet och grammatiken till den aktuella texttypen. I en text om exempelvis bilunderhåll kan man räkna med att finna tekniska termer av ett slag som inte finns med i ett allmänt lexikon, t.ex. axialspel. Vidare kan man kanske förvänta sig att åker i betydelsen åka finns med men inte i betydelsen odlingsyta. Ämnesanpassningen innebär sålunda komplettering av det allmänna lexikonet med ämnesspecifik terminologi men också gärna reducering av antalet betydelser knutna till flertydiga ord. Att skilja ut olika betydelser på formell grund är svårt, och ju färre alternativ lexikonet erbjuder desto bättre förutsättningar för rätt val i översättningen. Vanligen bygger man det ämnesanpassade lexikonet utifrån en ämnesspecifik korpus. Texterna i korpusen bör helst också representera aktuell texttyp, som t.ex. bruksanvisningar, kursplaner, väderleksrapporter. De olika texttyperna uttrycker olika stilar och ställer därigenom var och en särskilda krav på översättningssystemets grammatik.

Maskinöversättning inriktas som regel mot fack- och brukstext av olika slag. Skönlitterär översättning är en konst i sig, där datorn inte har mycket att erbjuda annat än tillgång till hjälpmedel i form av lexikon, korpusar och textprov av olika slag.

Hur bra behöver maskinöversättningen bli? När det gäller mänsklig översättning är kraven på kvalitet höga. Man förväntar sig vanligen samma språkliga kvalitet på den översatta texten som på källtexten, samt att målspråkstexten förmedlar innehållet i källtexten på ett riktigt sätt. När det gäller maskinöversättning är bilden mera varierad. Det handlar inte enbart om att få fram en översättning som håller samma, eller i det närmaste, samma kvalitet som en mänskligt översatt text, och som ska kunna publiceras, publiceringskvalitet. Det finns också andra, mindre ambitiösa syften med maskinöversättning. Ett kan vara att snabbt få fram en grovöversättning som ger en ungefärlig uppfattning om textens innehåll. Då kan man överse med språkliga brister, som t.ex. kongruensfel, otillfredsställande artikelbruk, felaktig ordföljd etc. Man kan då tala om begriplighetskvalitet (eng. browsing quality). Ett annat syfte med den maskinella översättningen kan vara att skapa en bas för datoriserad informationssökning i texter på olika språk. Sådan sökning inriktas som regel mot texternas innehållsord, och i det sammanhanget spelar grammatiska brister i de översatta texterna mindre roll. Begriplighetskvalitet är ett mycket ospecifikt begrepp. Om de fel som finns i översättningen inte är fler och mer allvarliga än att det lönar sig att redigera översättningen manuellt, så kan man tala om redigeringskvalitet. Även detta är ett vagt uttryck och olika översättare gör härvidlag olika bedömningar. I kommersiella sammanhang har man jämfört den tid det tar att redigera en maskinöversatt text jämfört med att översätta manuellt från grunden. Tillgängliga uppgifter pekar på att man gör en tidsvinst på mellan 50 % och 70 %.

Med språkligt avancerade översättningssystem, som är tränade för avgränsade ämnesområden och texttyper, domäner, kan man uppnå en redigeringskvalitet, som ligger mycket nära vad som krävs för publicering. Vad gäller allmänspråket, så kommer man inte lika långt. En avgörande skillnad i förutsättningarna är lexikonet, där man för allmänspråklig översättning inte kan reducera flertydighetsproblematiken på något systematiskt vis; alla teoretiskt tänkbara alternativ måste finnas med. Sammanfattningsvis kan man sålunda säga, att man vid översättning av allmänspråket som regel får nöja sig med begriplighetskvalitet medan man vid maskinöversättning av väl avgränsade subspråk kan komma nära publiceringskvalitet.

Olika utvärderingsmetoder

Mycket forsknings- och utvecklingsarbete läggs ned på att få fram metoder för att utvärdera översättningskvaliteten. Det handlar både om mänskliga bedömningar och metoder för att mäta kvaliteten automatiskt och exakt. Vid mänsklig utvärdering brukar man ta fasta på allmänna kriterier som gäller begriplighet och precision och låta en eller flera bedömare ta ställning till dem. Det är vanligen fråga om en graderad bedömning som till exempel: helt begriplig utan större fel, i huvudsak begriplig trots mindre fel, knappast begriplig på grund av väsentliga fel och obegriplig på grund av väsentliga fel. En kärnpunkt i bedömningen är givetvis hur de olika felen klassificeras som större och mindre.

Manuell utvärdering är tidskrävande och dyr och kan inte tillämpas storskaligt. Ett annat problem med den mänskliga utvärderingen är att olika bedömare ofta ger olika svar, som sedan måste vägas samman. Behovet av kompletterande metoder är sålunda stort.

De automatiska utvärderingsmetoderna går ut på att låta datorn jämföra den maskinöversatta texten med facit, dvs. med en eller flera referensöversättningar. Jämförelsen sker meningsvis, på ordbasis. Programmen jämför enstaka ord samt följder av två, tre eller fyra ord. Återkommande ord och ordsekvenser får poäng, som räknas samman för den enskilda meningen och för hela texten. Poängen omvandlas till ett mått som ligger mellan 0 och 1; identiska översättningar får värdet 1.

Ett principiellt problem med den automatiska utvärderingen är att det inte finns ett enda absolut facit; det kan finnas ett stort antal goda översättningar till en och samma text. De metoder man arbetar med medger i och för sig jämförelse med flera referensöversättningar; det problem man möter i det praktiska arbetet är att man som regel inte har tillgång till mer än en referensöversättning. Måtten är dock intressanta och har visat sig korrelera relativt väl med mänsklig utvärdering. Ändå bör de användas med försiktighet. Särskilt värdefulla är de när man tränare upp ett översättningssystem för en viss tillämpning. Det sker på en träningskorpus som består av källtexter med referensöversättningar. Man tränar systemet tills ett visst kvalitetsmått uppnås och testar det sedan på nya texter utanför träningskorpusen. Testresultaten visar om fortsatt utveckling av systemet behövs. I detta som i många andra språkteknologiska sammanhang är en kombination av manuella och automatiska metoder det bästa alternativet.

Hur går det till att maskinöversätta? Det finns olika metoder, som grovt sett kan grupperas i direktöversättning, transferöversättning och statistisk översättning. Direktöversättning är den enklaste och äldsta metoden. Översättningen sker ord för ord eller fras för fras med hjälp av ett översättningslexikon. Språkskillnader som yttrar sig som översättningsproblem hanteras med hjälp av specifika regler. Olika direktöversättningssystem kan uppvisa mycket olika resultat beroende på omfång och kvalitet på lexikonet samt på hur väl översättningsreglerna täcker de aktuella översättningsproblemen. De kan ha att göra med ordföljd, böjning, lexikala val, prepositionsbruk och tempusskillnader. Ett avancerat direktöversättningssystem har sålunda också viss grammatisk kompetens.

Det kommersiellt mest använda översättningssystemet i dag är SYSTRAN, som närmast kan betraktas som ett avancerat direktöversättningssystem. SYSTRAN står för SYStem TRANslation. Det kom i en första version för översättning mellan ryska och engelska redan 1969. I dag omfattar systemet mer än 40 språkpar. Det finns i en kommersiell version, som i huvudsak är inriktad på översättning av allmänspråk, men till vilken man kan köpa särskilda ämneslexikon. Man kan prova denna version på (http://babelfish.altavista.com). Den omfattar 38 språkpar, däribland dock inte svenska. Vidare finns det en version som är speciellt anpassad till den europeiska unionens behov, EC SYSTRAN. Med hjälp av denna version utförs cirka sju miljoner översättningsuppdrag per år. Lexikonet omfattar mer än 1 600 000 lexikonenheter fördelade på 20 ämneslexikon. Kvaliteten på översättningen mellan de olika språkparen varierar beroende på hur mycket de olika delsystemen utvecklats och tränats. Längst har man kommit med engelska-franska. Moduler för översättning från svenska och danska till engelska utvecklades under 2003 i samarbete mellan EU, det franska företaget SYSTRAN och, för svenskans del, Institutionen för lingvistik vid Uppsala universitet. Uppsalas huvuduppgifter bestod i att bidra till den lingvistiska specifikationen av den svensk-engelska modulen, att utveckla översättningslexikonet samt att utvärdera modulen manuellt¹. Nedan ges exempel på översättningsproblem, som dök upp i arbetet med utvecklingen av den svensk-engelska modulen.

Ex. 1: Enskilda företagare som inte bildat bolag klassificeras hit. _ Individual entrepreneurs that have not formed companies are classified here.

Systemet känner igen bildat som uttryck för perfektum, trots att hjälpverbet är utelämnat, och översätter korrekt have formed med negationen not på rätt plats. Passivformen klassificeras översätts också korrekt i rätt tempus.

Ex. 2: När byarna kontaktades hade de inte ens utsatts för influensa. _ When the villages were contacted had they not even been exposed to flu.

Systemet hittar inte subjekt och predikat och ger därför fel ordföljd. Svårigheten med att finna subjektet ligger i att meningen inleds med en bisats, och att systemet inte gör någon fullständig satsanalys.

Ex. 3: Vad kan vi lära av Arrawetestammen? _ What can we faith of the Arawete?

På grund av frågesatskonstruktionen hittar systemet inte sambandet mellan kan och lära och ser därför inte heller att lära är ett verb.

Ex. 4: Extrapoleringen går till så här. _ The extrapolation goes to so here.

Systemet känner inte till partikelverbet gå till och översätter därför felaktigt ord för ord med olyckligt resultat.

Den svensk-engelska modulen utvecklades under en tidsrymd av åtta månader. Målsättningen var att översättningarna skulle uppvisa begriplighetskvalitet. En specifikation av vilka problem som systemet skulle klara av gjordes också. Vid projektets avslutande återstod fortfarande en del av dem. Exempel härpå är frågor, sammansatta konjunktioner, lexikaliserade ord på -ande/-ende, ordföljd i underordnade satser och vissa uttryck som. 65-åring (’65 year old’), klockan 12 (’12 o’clock’). Ändå visade det sig att den svensk-engelska modulen hävdade sig väl i jämförelse med andra moduler som utvecklats under väsentligt längre tid som t.ex. grekiska-engelska. Det svenska-engelska systemet, jämte ytterligare 34 språkpar, finns att prova på http://systranet.com/systran/net. För att prova måste man registrera sig, men det är kostnadsfritt.

En avgörande skillnad mellan ett direktöversättningssystem och ett s.k. transfersystem är att översättningen i ett transfersystem går via en satslösningsstruktur. Den ger en grund för en systematisk behandling av grammatiska olikheter och vissa lexikala val. I ett transfersystem sker översättningen i tre huvudsteg: analys av källspråket med en satslösningsstruktur som resultat, transfer mellan källspråkets satslösningsstruktur och en motsvarande struktur för målspråket, samt genering av en målspråkstext utifrån målspråkets satslösningsstruktur. Det är sålunda i transfersteget som själva översättningen sker.

Grammatiska skillnader kan yttra sig på många vis, t.ex. i olika perspektiv på verbhandlingen. Nedan ges ett sådant exempel hämtat från en översättningskorpus av underhållsmanualer från bilindustrin (Scania).

Ex. 5. Fyll på olja i växellådan. _ Fill gearbox with oil.

Här har det svenska objektet olja till partikelverbet fylla på omvandlats till ett prepositionsobjekt with oil i den engelska översättningen och det svenska prepositionsobjektet i växellådan har upphöjts till direkt objekt i den engelska översättningen.

Transferregel:

fyll på -> fill
direkt objekt (olja) -> adverbial (with oil)
adverbial (i växellådan) -> direkt objekt (gearbox)

För att kunna uttrycka transferregler i generella lingvistiska termer, så behöver man tillgång till uppgift om grammatiska funktioner. Det kan man få i satslösningsstrukturen. Regeln ovan utlöses när transfermodulen återfinner verbet fylla på med sina fyllnadsled i den svenska strukturen.

Med hjälp av transferregler kan man också uttrycka lexikala val som kan baseras på den grammatiska kontexten.

Ex. 6. Detta filter ska bytas med jämna mellanrum. _ This filter must be renewed at regular intervals.

I detta exempel, där (djup)objektet till det svenska verbet byta är filter, bör översättningen av verbet vara renew och inte change, substitute etc. Detta förhållande kan uttryckas med en transferregel. Exemplet visar också betydelsen av av att kunna översätta hela fraser: med jämna mellanrum -> at regular intervals. Det är något som ett översättningslexikon bör kunna ta hand om, men översättningen skulle också kunna uttryckas med hjälp av en transferregel mellan prepositionsfraser, som i detta fall översätter med som at.

Även subtila översättningsskift som rör definithet och numerus kunna uttryckas med transferregler.

Ex. 7. Beskrivningen gäller för automatväxellådor med beteckning ZF 4/HP500, 590 och 600. _ The description applies to automatic gearboxes with the designations ZF 4/5HP500, 590 and 600.

Exemplet illustrerar också behovet av en vanlig typ av transferregler, som svarar för korrekt översättning av valensbundna prepositioner: gäller för -> applies to.

Ett transfersystem kräver omfattande språkliga resurser: lexikon och grammatik för källspråket, transferlexikon och transferregler, lexikon och grammatik för målspråket. Transferlexikonet motsvarar sålunda översättningslexikonet i ett direktöversättningssystem och transferreglerna motsvarar direktöversättningssystemets översättningsregler. Ett transfersystem är sålunda kunskapsintensivt och en stor svårighet ligger i ett få fram heltäckande grammatiker och en heltäckande mängd transferregler.

Ett exempel på ett transfersystem är Multra, som utvecklats vid Uppsala universitet med stöd från olika forskningsfinansiärer (HSFR, NUTEK och VINNOVA). Multra översätter från svenska till engelska men kan vidareutvecklas till att omfatta andra språkpar och språkriktningar². Målsättningen med Multra är hög översättningskvalitet inom begränsade domäner. Multra har integrerats i ett webbaserat översättningssystem, MATS, som i tillägg till Multras grundfunktionalitet också har strategier för översättning av meningar, som intehelt omfattas av grammatiken. MATS-systemet är med andra ord robust, dvs. det levererar alltid en översättning. Kvaliteten på de delar av den översatta texten som inte bygger på en fullständig satslösningsstruktur är som regel lägre än övriga delar. De robust översatta delarna markeras med en särskild färg för att underlätta granskning och ev. redigering av översättningen. Även andra problem som har att göra med ofullständighet i språkbeskrivningen, t.ex. att ett ord saknas i lexikonet, färgmarkeras. MATS-systemet är därigenom inte bara robust utan också transparent³. Lexikonet ligger lagrat i en databas. Till databasen hör ett grafiskt gränssnitt som underlättar underhåll av databasen. Via http://www.lingfil.uu.se/MATS/demo.html(avautuu uuteen ikkunaan, siirryt toiseen palveluun) kan man se prov på en jordbrukstext som översatts med MATS-systemet. Exemplet upptar också en jämförelse med en referensöversättning och ett automatiskt utvärderingsmått som för de olika meningarna visar den maskinöversatta textens överensstämmelse med referensöversättningen. På samma adress finner man också översättningen med färgmarkering, sådan den produceras av systemet. Man kan också följa de olika stegen i översättningen av en exempelmening. Fortsatt forskning och utveckling av MATS-systemet inriktas bland annat mot att effektivisera analysen, vidareutveckla grammatiken samt förbättra metoderna för robust översättning och därmed höja dess kvalitet. Utveckling av effektiva metoder för anpassning av lexikon och grammatik till nya domäner pågår också.

Tidigare översättningar utgör en viktig kunskapskälla i arbetet med maskinöversättning. Man brukar i det här sammanhanget tala om återanvändning av översättningar. Det finns nu datorprogram som automatisk kopplar samma käll- och målspråksmeningar parvis med en precision på närmare 100 %, även om texterna skiljer sig åt i fråga om meningsbrytning. Av sådana meningspar kan man bygga s.k. översättningsminnen, som kan användas både för manuell och automatisk översättning.

Man kan också gå vidare med sådana meningslänkade texter och låta datorn söka ut översättningar av ord och sammanhängande fraser. Även sådana program, s.k. ordlänkningsprogram, kan lyckas riktigt bra och fånga upp närmare 80 % av översättningarna. De tekniker som ordlänkningsprogrammen använder sig av är huvudsakligen av statistisk art. Viktigt att notera är dock, att det material som skapas av ett sådant program endast är ett råmaterial till ett översättningslexikon och att det måste bearbetas på olika vis innan det kan användas av ett maskinöversättningssystem.

I arbetet med utvecklingen av lexikonet för svenska SYSTRAN användes ordlänkningstekniker. Först togs en första version av ett allmänt svensk-engelskt översättningslexikon fram. Därefter vidareutvecklades och förfinades en del av lexikonet för ett ämnesområde (jordbrukstexter). Den totala översättningskorpusen bestod av 118 svenska EU-dokument med engelska översättningar, som täckte 20 ämnesområden. Totalt handlade det om 773 551 löpande ord; jordbruksdelen bestod av 103 589 ord. Det resulterande lexikonet omfattar totalt 27 363 enheter och jordbruksdelen 6 114 lemman, 43 455 typord och 300 flerordsenheter inkl. 127 partikelverb.

Ett obearbetat ordlänkningsmaterial kan gå direkt in i ett s.k. statistiskt maskinöversättningssystem. De statistiska översättningssystemen tillämpar i huvudsak en direktöversättningsstrategi, och förutom det automatgenererade översättningslexikonet innehåller de enkel syntaxmodell för målspråket, också den automatgenererad på statistisk grund. Därtill kommer en metod för att välja ut den mest sannolika översättningen bland de många alternativ som skapas. Mycken forskning ägnas i dag åt statistisk maskinöversättning och resultaten är förvånansvärt bra. Avsevärda svårigheter ligger dock i att komma fram till tillförlitliga utvärderingsmodeller, som kan tillämpas storskaligt. De som nu används är av det slag som visas i MATS-exemplet, till vilken länk ges ovan. Som framgår av detta, stämmer de mått som erhålls inte alltid med den mänskliga intuitionen. Forskning pågår också om hur man ska kunna komplettera de statistiska modellerna med lingvistisk kunskap för att förbättra kvaliteten. Det finns ytterligare en maskinöversättningsmodell, som bygger på länkningsmaterial, nämligen s.k. exempelbaserad översättning. Grundtanken här är att göra en lingvistiskt motiverad uppdelning av meningarna i större enheter än ord och att översätta dem hjälp av automatgenererade översättningslexikon.

Varför maskinöversättning? Maskinöversättning är billigare, snabbare och mer konsekvent än mänsklig översättning, när det lyckas, dvs. när man uppnår erforderligt hög översättningskvalitet för den aktuella uppgiften. Potentialen för fortsatt utveckling och forskning och därmed högre kvalitet är stor. Det är min bestämda uppfattning att maskinöversättning i olika former och med olika målsättning har kommit för att stanna.

anna@lingfil.uu.se

^1.Det konkreta arbetet utfördes av de båda forskningsassistenterna Ebba Gustavii och Eva Pettersson. De har också bidragit med de exempel som tas upp nedan.

^2.Exemplen ovan visar översättningar som MULTRA genererat.

^3.Se vidare Sågvall Hein, Anna, Weijnitz, Per, Forsbom, Eva, Tiedemann, Jörg & Gustavii, Ebba. MATS- A Glass Box Machine Translation System. Proceedings of the Ninth Machine Translation Summit, New Orleans, USA, September 23-27, 2003, pp. 491–493.