Blogg för xbrodd@gu.se

Du är här

Hem / Bloggar / Blogg för xbrodd@gu.se

Ett steg mot automatisk textförenkling

Det finns flera anledningar till varför en parallellställd (eller åtminstone jämförbar) korpus av lättlästa texter och texter skrivna på standardsvenska är användbar. Den kan exempelvis användas till att studera textkomplexitet, att jämföra vilka parametrar som skiljer sig åt mellan lättlästa texter och icke-lättlästa texter. Den kan även användas som träningsdata för system som på automatisk väg vill förenkla text.

Digitalt kulturarv – ett digitalt folkminnesarkiv

Syftet med projektet Digitalt kulturarv – ett digitalt folkminnesarkiv är att digitalisera och tillgängliggöra folkminnesuppteckningar från Institutet för språk och folkminnens samlingar. Under projektet har en databas med drygt 16 000 fulltextuppteckningar byggts upp. Förutom texterna, som består av transkriberade alternativt OCR- eller HTR-lästa uppteckningar, innehåller databasen även metadata som uppteckningsår, kategorier, insamlingsort samt upplysning om såväl upptecknare som informanter (t.ex. namn, födelseår, kön).

Två nya korpusar offentliga

Två korpusar, som utvecklats i samarbete med Swe-Clarin Linköping, har nu tillgängliggjorts för publik användning. 

A Web Corpus for eCare är en korpus med medicinska texter på svenska som annoterats som lekman eller expert där expert innebär att texten i första hand vänder sig till experter och lekman att den i första hand vänder sig till lekmän. Annoteringen har gjorts av två personer, en expert och en lekman. 

Samlingarna och forskningen

I mitten av oktober 2017 arrangerade Swe-Clarin tillsammans med Riksbankens Jubileumsfond (RJ), en seminariedag på Riksarkivet för de fem projekt som 2016 beviljades stöd i RJ/KVHAA-satsningen på Samlingarna och forskningen http://anslag.rj.se/sv/lista_stodformer/Forskningsprogram_Samlingarna_och_forskningen.