Annoterings-pipeline för svenska

Du är här

Home / Blog / Annoterings-pipeline för svenska

Vi vid institutionen för lingvistik på Stockholms universitet har i samarbete med Uppsala universitet arbetat för att integrera flera tidigare språkteknologiska verktyg i en samlad annoterings-pipeline för svensk text. Sekvenstaggaren efselab (Stockholm) sköter annotering av ordklasser, egennamn och morfologi, sedan tillförs syntaktisk dependensanalys av Uppsalas verktyg MaltParser. Förutom själva verktygen har vi harmoniserat ett antal svenska korpus- och lexikonresurser: SUC-korpusen (från Stockholms och Umeå universitet), SIC-korpusen (Stockholm), den svenska Universal Dependencies-trädbanken (Uppsala) och det morfologiska lexikonet SALDO (Göteborg). De här resurserna har utvecklats under flera decennier på olika platser i landet, oftast utan koordinering eller standardisering. Trots att varje enskild resurs håller hög kvalitet har bristen på kompatibiltet lett till att många språkteknologiska användare av bekvämlighet i stället valt att bara använda en delmängd av de tillgängliga resurserna, med sämre resultat som följd.

Förutom själva integreringen har vi även anpassat verktygen till Universal Dependencies-standarden, vilket gör annotationen kompatibel med trädbanker från över 50 olika språk. Dessa används flitigt inom såväl språkteknologiområdet, där de utgör en viktig komponent i utvecklingen mot språkoberoende metoder, som inom lingvistisk grundforskning.


Verktyg, källkod och modellfiler finns tillgängliga på https://github.com/robertostling/efselab
Stora delar av infrastrukturen används även av det webbaserade SWEGRAM-verktyget (Uppsala): http://stp.lingfil.uu.se/swegram/