Läkartidningens arkiv i en ny skepnad

Läkartidningens (LT) digitala arkiv från åren 1996–2009 består av en stor mängd textartiklar och notiser, för närvarande cirka 28 000, med värdefull vetenskaplig och klinisk information inom olika ämnesområden, hälsoekonomiska analyser och medicinhistoriska utblickar, läkemedels- och språkfrågor, nya rön och debattinlägg, inklusive frågor av facklig art m.m.

Inom ramen för Nationell IT-strategi för vård och omsorg har Socialstyrelsen i Sverige fått i uppdrag att utarbeta, förvalta och tillhandahålla ett nationellt fackspråk för vård och omsorg. I uppdraget ingår att översätta begreppssystemet SNOMED CT (Systematized Nomenclature of Medicine, Clinical Terms) till svenska. En viktig fråga i översättningsarbetet är om de termer som rekommenderas är kliniskt etablerade. Det finns säkert flera sätt att besvara den frågan men för att få ett svar bad Socialstyrelsen Institutionen för svenska språket vid Göteborgs universitet att utveckla en korpus baserad på Läkartidningens artiklar. Läkartidningen ställde sig positiv till detta.

Läkartidningens arkivinnehåll är inte bara en betydelsefull kunskapskälla för vårdens olika personalgrupper, som specialistläkare, kliniker och sjukvårdspersonal utan även en informationskälla för allmänintresserade läsare som vill orientera sig om nya rön och utveckling inom olika delar av den medicinska kunskapsdomänen. Arkivet utgör också en viktig referenspunkt, en genuin språk- och inspirationskälla för terminologer, språkforskare och fackspråkspecialister som vill fastställa hur medicinska termer och begrepp används i autentiska texter skrivna av fackmän. Man kan försäkra sig om att terminologin är vedertagen, belägga ämnesspecifika termer med typiska språkprov, finna nyanser av etablerade fackuttryck, fastställa termernas syntaktiska egenskaper i kontext eller hitta förklaringar och definitioner på (nya) ting och företeelser som inte täcks av tillgängliga termdatabaser och fackområdeslexika. Exempelvis pupillasymmetri i ”Pupillasymmetri definieras som >1 mm skillnad i pupillstorlek” (LT nr 24–25:105) och biosimilarprodukter i ”Biosimilarprodukter är icke-innovativa läkemedel som bedöms vara jämförbara med sin motsvarande biologiska referensprodukt [...]” (LT nr 23:106).

Tills nyligen fanns det två olika sätt att söka och få tillgång till arkivets material; antingen genom att googla sig fram med hjälp av sökord (enstaka ord eller fraser) och hoppas att sökmotorn hittade och föreslog rätt textinnehåll eller genom att använda Läkartidningens egen tillgängliga sökmotor: http://ltarkiv.lakartidningen.se/. Med den kan man söka med hjälp av ord som kan finnas i en artikelrubrik, med författarnamn och/eller ämnesord, MeSH-termer (Medical Subject Headings) skapad av National Library of Medicine i USA som i förväg har tilldelats varje artikel.

Resultatet kan vid sökträff bli en artikel eller en lista med artikelrubriker där textinnehållet förhoppningsvis kännetecknar eller uppfyller användarens informationsbehov. Samtidigt krävs det att användaren aktivt ska leta sig fram i de föreslagna träffarna för att lokalisera artikelns textposition som kan innehålla användarens potentiella svar på den ursprungliga sökfrågan. Användaren har därmed ingen möjlighet att använda, kombinera eller komplettera sin fråga med lingvistisk eller annan metainformation (förutom författarens namn och publiceringsår), som kan underlätta sökningen i arkivet ytterligare. Nuvarande indexeringstekniker, som används av sökmotorer, bygger nämligen på beräkningar baserade på tecken och ordförekomster i råtext, d.v.s. lingvistiskt obearbetad sådan. Sådana tekniker kan inte hantera eller urskilja exempelvis homografisk variation, jfr lever som substantiv (”amyloidinlagringar i lever”) vs. lever som verb (”vi lever allt längre”) eller semantisk information, t.ex. att kunna söka på meningar där infektiösa hudsjukdomar följs av termer som betecknar övre extremitet.

Trots dessa begränsningar kan resultatet vara tillräckligt för många användningsområden. För t.ex. terminologer utgör dock dessa begränsningar ett allvarligt hinder för uppfyllelsen av informationsbehovet. Heltäckande, precisa och storskaliga empiriska undersökningar är omöjliga att genomföra inom rimlig tid. Risken är stor att man går miste om mycket relevant information väl gömd i textmängdens språkliga kontext och sammanhang. Ogenomskinliga och icke-självklara ordkombinationer, avvikande ortografi, uppenbara brister i sökmotorernas uttryckskraft, funktionalitet och intelligens medför i praktiken att informationsbehovet förblir delvis eller helt ouppfyllt.

Validering av översättningen av SNOMED CT

Ett elektroniskt begreppssystem är en förutsättning för att säkert och effektivt kunna hantera patientinformation i nästa generations datorsystem. SNOMED CT innehåller huvudsakligen begrepp och termer för strukturer och funktioner i kroppen, symtom, undersökningar, behandlingar och olika typer av substanser. Totalt omfattar SNOMED CT cirka 310 000 begrepp och deras inbördes relationer. Syftet med SNOMED CT är att kunna tillhandahålla ett ”heltäckande” begreppssystem på svenska som också bidrar till utvecklingen av nästa generations datorsystem i vård och omsorg.

Översättningen från engelska till svenska startade i oktober 2007 och planeras vara avslutad hösten 2010. Professionella översättare, terminologer och kvalitetsgranskare med kompetens inom olika vårdprofessioner arbetar med att översätta, kontrollera och föreslå dels lämplig översättning av respektive begrepp, dels lämplig rekommenderad svensk term till begreppet. Översättningsarbetet är en fråga om trovärdighet och kvalitet. Många personer är involverade och Socialstyrelsen har därför tagit fram språkliga riktlinjer. 10 000 begrepp översätts per månad och för att översättningen ska bli så enhetlig som möjligt kontrolleras kvaliteten fortlöpande med olika metoder.

Socialstyrelsens förväntade användning av korpusen är att för olika specialiteter kunna göra utdrag ur översättningen av SNOMED CT och jämföra rekommenderade termer med termanvändningen i Läkartidningen för motsvarande område. Detta är en del av kvalificeringen av översättningen.

Det nationella fackspråkets korpus

Inom ramen för denna satsning har Göteborgs universitet, Institutionen för svenska språket fått i uppdrag att: a) skapa ett stort, lämpligt textmaterial, en korpus, inom det medicinska området, i ett format som kan underlätta i första hand utförandet av empiriska, SNOMED CT-relaterade studier och b) utveckla metoder för att effektivisera kvalitetssäkringen av olika urval ur SNOMED-CT (t.ex. hjärtsviktsrelaterade termer) och tillämpa dessa metoder på korpusen. Man vill exempelvis erbjuda möjligheter att underlätta framtagning av underlag om termernas användning, variation och frekvensdistribution över tid. Läkartidningens digitala arkiv är källmaterialet som ligger till grund för en sådan korpus.

En korpus är en omfattande samling maskinläsbara texter, med representativitet som en viktig förutsättning, som är den empiriska basen inom den språkvetenskapliga gren som kallas korpuslingvistik. Korpusen består av ett urval av språket, och den har av naturliga skäl en fackspråklig karaktär, nämligen att den ger en beskrivning av det svenska vetenskapliga medicinska språket. Tidigare har ingen sådan korpus funnits tillgänglig för svenska i en sådan omfattning och ett sådant skick, så att datainsamlings- och bearbetningsstegen var nödvändiga förutsättningar för arbetets utförande men också för framtida studier. Tanken är att korpusen ska vara en standardreferens där olika slags undersökningar ska vara lätta att genomföra, exempelvis att snabbt kunna extrahera och analysera artiklar som handlar om ett särskilt delfackområde (t.ex. diabetes).

Korpusinsamling och förarbete

Första fasen i arbetet handlade om att omvandla alla elektroniskt publicerade nummer ur Läkartidningens digitala arkiv (1996–2009) som skulle ingå i korpusen i ett enhetligt textbaserat format. Årgångarna 1996–2005, 480 dokument, fanns tillgängliga i PDF-format, medan årgångarna 2006–2009 fanns tillgängliga både som PDF och HTML-format. Efter erhållet tillstånd av LT:s redaktion normaliserades alla dokument med avseenden på både dokumentformat och teckenkodning.

Vi har skiljt ut och strukturellt märkt upp varje artikel inklusive artikelrubrik så att koppling mellan rätt innehåll med rätt artikelrubrik har blivit möjligt. Ytterligare steg i bearbetning av materialet innebar filtrering av oönskade data, t.ex. textsegment som man i första hand inte är intresserad av som diagram och tabeller med sifferinformation samt bibliografisk information.

Varje publicerad årgång och varje individuell artikel i dessa årgångar extraherades och märktes upp dels med olika slags metainformation dels med lingvistisk och semantisk information. Metainformationen innebär att ursprungskällan (volym- och tidningsnummer), publiceringsdatum, rubrik och genretillhörighet, enligt LT:s artikeltaxonomi, t.ex. Nya Rön, Klinik och Vetenskap och Medicinsk kommentar, märktes upp. All text, från de allra längsta artiklarna till de små notiserna, inklusive tabell- och bildbeskrivningar extraherades med några få undantag. En del artiklar från de allra äldsta numren märktes inte upp med artikeltillhörighet eftersom artikeltypen förekom endast i innehållsindexet och det skulle kräva betydande arbetsinsatser att återinföra informationen i det nya formatet (detta kan göras i mån av tid i framtiden). Början och slutet i alla individuella artiklar i varje dokument märkets upp, sammanlagt 28 000 olika artiklar, inklusive 200 artiklar som har rubricerats som ”Endast på webben”- artiklar. Den totala mängden artiklar motsvarar i genomsnitt cirka 35–55 artiklar per veckonummer eller 2 000 artiklar per årgång.

Språkteknologisk bearbetning

Förarbetet med att normalisera korpusen följdes av den språkteknologiska bearbetningen som innefattade automatiskt tillägg av lingvistisk information som t.ex. ordklasstillhörighet för varje ord i korpusen och automatiskt, semantisk mappning dels till den svenska MeSH-tesaurusen dels till delar av den svensköversatta SNOMED-hierarkin.

För att kunna förenkla hela processen delades hela korpusen upp i enheter, som kallas graford (s.k. tokenisering), där ett graford är en sträng av bokstäver och tecken som skiljs åt av mellanslag och vissa typer av skilje- och radframmatningstecken. Korpusen delades också upp i större enheter, ”satser”. Ett antal problematiska fall krävde särskilt uppmärksamhet som t.ex. förkortningar, rubriker, skiljetecken, citering av direkt tal i meningar osv. Varje ord i en sats märktes sedan upp med dess ordklasstillhörighet (t.ex. substantiv, verb). Många ord kan tillhöra mer än en ordklass och med hjälp av statistiska metoder försöker man avgöra vilken av dessa klasser som är den mest troliga för ett ord i en viss kontext. Ordklasshierarkin kan förutom ordklass urskilja olika typer av morfologiska särdrag som numerus och genus. Vidare har vi tagit fram grundformen på varje ord (s.k. lemmatisering). Detta innebär att alla böjningsformer av ett ord kan återföras till sin uppslagsvariant, t.ex. ”takykardin, ~er, ~erna” kopplas till ”takykardi”.

Vidare har alla potentiella termer automatiskt försetts med semantiska etiketter tagna från den svenska MeSH-tesaurusen och delar av SNOMED CT-hierarkin. Särskilt uppmärksamhet har riktats mot sammansättningar och omskrivning av flerordiga termer. Genom att t.ex. dela in sammansättningar i ett eller flera led, kan man även hitta och markera möjliga delar av ett ord som kan vara en MeSH- eller en SNOMED CT-term som annars skulle förbli omarkerade. T.ex. har sammansättningen depressionsskattningspoäng segmenterats som depressions+skattnings+poäng och därmed kan förledet få en lämplig markering enligt SNOMED-CT.

Semantiska konkordanser och kvantitetsinformation

Den förädlade korpusen utgör en bra grund för både explorativa, normativa och deskriptiva undersökningar. Kombinationen av enstaka ord och termer med lingvistisk och semantisk information som t.ex. MeSH- eller SNOMED-CT tillhörighet ger unika möjligheter till hypotesprövning och djupa semantiskt baserade analyser av termanvändningen i olika kontexter. Det blir då lättare att skaffa information och generera fakta som kan leda till nya hypoteser och kunskap om olika aspekter som gäller termanvändning och -variation. Detta kan åstadkommas med hjälp av konkordanser. En konkordans är en sammanställning av text ur ett dokument på ett sådant sätt att man kan studera i vilka sammanhang ett visst ord återkommer. Ett vanligt sätt är att för varje ord i texten plocka ut närliggande text, och presentera detta radvis så att de olika förekomsterna av ordet kommer under varandra (se tabell I på sidan 27).

Den språkteknologiska bearbetningen gör det också möjligt att ta fram information om termernas frekvensdistribution över åren (se tabell II på sidan 28). Kvantitetsuppgifterna under de senaste 14 åren, som gäller observerad frekvens, kan användas som ett mått för undersökningar i relation till spridning i olika ämneskategorier (som vi inte har genomfört ännu) och för att få stöd i studier om huruvida termdistributionen är jämnfördelad över åren eller inte. Genom frekvensbaserade analyser kan man lättare undersöka om nya termer dyker upp eller om gamla tynar bort.

Både de semantiska konkordanserna och frekvensinformationen kan nås på följande webbadress: http://www.medicinskkorpus.se/login.phtml (fri tillgång).

Värdefull medicinsk resurs

Språkteknologi utgör en nyckelteknologi inte bara för forskning primärt inriktad på språk och kommunikation utan också för alla andra forskningsområden där informationsåtkomst är viktig (t.ex. textsökning). Samtidigt utgör autentiska textmaterial den empiriska basen för språkteknologi och det finns ett växande behov av sådana grunddata av hög kvalitet, som kan stärka den nationella infrastrukturen. Viktiga resurser som LT:s textmaterial, bidrar till att skapa de nödvändiga infrastrukturella redskapen för internationell framgångsrik forskning och utveckling. På det sättet kan man stödja svenska forskare för att kunna verka på lika villkor inom den internationella arenan, där storskaliga (bio)medicinska databaser har funnits sedan länge, t.ex. MEDLINE/PubMed http://medline.cos.com/.

Det omarbetade, förädlade materialet ur LT:s digitala arkiv kan betraktas som ett användbart komplement till den elektroniska upplagan och de möjligheter som erbjuds via LT:s sökgränssnitt. Uppdragets syfte och resultat konkurrerar inte med de möjligheter som redan erbjuds utan ska snarare täcka andra användningsområden och informationsbehov. Vi hoppas att detta arbete ska ligga till grund för fortsatt förädling av korpusen men framförallt öka dess tillgänglighet för forskning, särskilt inom hälsoinformatik och språkteknologi. Det är också önskvärt att man successivt bygger vidare på artikelmängden samt kontinuerligt uppdaterar frekvensuppgifterna då nya artiklar integreras i korpusen. Stora korpusar eftersträvas för att ge en säkrare empirisk forskning, där observationer och analyser av språkliga fenomen leder fram till nya hypoteser och eventuellt nya teorier och ny kunskap. I samråd med LT:s redaktion bör man också erbjuda andra faciliteter som att underlätta framtagning av delkorpusar som endast diskuterar ett enskilt ämne som t.ex. luftvägssjukdomar.

Datorbaserad, semantisk bearbetning av stora textmaterial blir allt mer eftertraktat av forskare inom olika discipliner som bio- och hälsoinformatik, e-vetenskap och humaniora. Detta innebär att en semantiskt förädlad korpus utgör en resurs som bidrar till utveckling och framväxt inom dessa områden inte minst i flervetenskapliga sammanhang. Det lingvistiskt obearbetade materialet utgör sedan länge en värdefull svensk medicinsk resurs för alla som yrkesmässigt arbetar med termer och språk. Vi har bidragit med att göra textmaterialet mer välstrukturerat och förädlat, vilket kan leda till bl.a. nya förbättrade versioner av såväl termbanker som andra nuspråkliga (term)ordböcker och vara till hjälp för explorativa studier där sökningar kan förfinas på ett flertal sätt, och därmed ge forskningen nya möjligheter till djupare innehållsanalyser och grundläggande kunskaper inom olika ämnesområden.

Referenser

Nationell IT-strategi för vård och omsorg: http://www.regeringen.se/sb/d/10671

Tabell II. Frekvensdistributionen för SNOMED CT-termen ”depression” inklusive variantformer och sammansättningar där termen ingår; data från LT (1996–2009). Bilden visar 20 av 234 olika textvarianter som har hittats (inklusive sammansättningar). Tecknet ’<’ innebär att den aktuella termen förekommer som förled i en sammansättning och tecknet ’>’ som efterled.

10.4.2019: En tabell som inte kunde visas togs bort. Bildtexten löd: Tabell I Konkordans med kombinerad semantisk information för sökfrågan: ”[pos=’V.*’] [] [snm=’41006004’] (dvs. ”en verbform följd av vilket ord som helst följd av SNOMED ID-nummer 41006004 (som betecknar ’depression’) och 30 tecken vänster- och högerkontext. Resultatet är från året 2000. Frågan kan parafraseras som t.ex. ”typiska verb förknippade med depression”.