Två nya korpusar offentliga

Du är här

Home / Blog / Två nya korpusar offentliga

Två korpusar, som utvecklats i samarbete med Swe-Clarin Linköping, har nu tillgängliggjorts för publik användning. 

A Web Corpus for eCare är en korpus med medicinska texter på svenska som annoterats som lekman eller expert där expert innebär att texten i första hand vänder sig till experter och lekman att den i första hand vänder sig till lekmän. Annoteringen har gjorts av två personer, en expert och en lekman. 

Den andra korpusen Diginclude består av webbsidor från samtliga svenska myndigheter som har lättläst information, så som de såg ut i augusti 2017. Korpusen är uppdelad på de sidor som på något sätt kallas lättlästa respektive de andra sidorna. Totalt samlades 2 247 dokument (26 461 meningar) in på lättläst svenska och 115 027 dokument (1 333 474 meningar) på vanlig svenska. Dessa webbsidor har sedan parallellställts genom att för varje myndighet utgå från varje mening på lätt svenska och leta upp motsvarande meningar på standardsvenska. För denna parallellställning har man vid Linköpings universitet använt tre olika algoritmer som tidigare använts för engelska. 

Klicka här för att komma till A Web Corpus for eCare.

Klicka här för att komma till Diginclude.