Bloggar

Du är här

Hem / Bloggar

Ett steg mot automatisk textförenkling

Det finns flera anledningar till varför en parallellställd (eller åtminstone jämförbar) korpus av lättlästa texter och texter skrivna på standardsvenska är användbar. Den kan exempelvis användas till att studera textkomplexitet, att jämföra vilka parametrar som skiljer sig åt mellan lättlästa texter och icke-lättlästa texter. Den kan även användas som träningsdata för system som på automatisk väg vill förenkla text.

VINNOVA-medel till Swe-Clarin-relaterat projekt

VINNOVA meddelade i dagarna besked inom den riktade utlysningen "Artificiell intelligens för bättre hälsa" och projektet "Effektivare och mer jämlik akutvård med hjälp av avancerade medicinska beslutsstödsystem" med koppling till Swe-Clarin och Humanistlaboratoriet i Lund tilldelades 5,3 miljoner. I blogginlägget ges en sammanfattning.

Digitalt kulturarv – ett digitalt folkminnesarkiv

Syftet med projektet Digitalt kulturarv – ett digitalt folkminnesarkiv är att digitalisera och tillgängliggöra folkminnesuppteckningar från Institutet för språk och folkminnens samlingar. Under projektet har en databas med drygt 16 000 fulltextuppteckningar byggts upp. Förutom texterna, som består av transkriberade alternativt OCR- eller HTR-lästa uppteckningar, innehåller databasen även metadata som uppteckningsår, kategorier, insamlingsort samt upplysning om såväl upptecknare som informanter (t.ex. namn, födelseår, kön).

Två nya korpusar offentliga

Två korpusar, som utvecklats i samarbete med Swe-Clarin Linköping, har nu tillgängliggjorts för publik användning. 

A Web Corpus for eCare är en korpus med medicinska texter på svenska som annoterats som lekman eller expert där expert innebär att texten i första hand vänder sig till experter och lekman att den i första hand vänder sig till lekmän. Annoteringen har gjorts av två personer, en expert och en lekman. 

STePS: Swedish Text Profiling System

STePS: Swedish Text Profiling System

Vilket är förhållandet mellan text och språk? Med språkteknologiska resurser av olika slag kan vi fånga diverse språkliga egenskaper hos en text framför allt utifrån ord och meningar i termer av frekvenser och automatiska analyser av ordklasser, ordförråd och grammatiska relationer.

Samlingarna och forskningen

I mitten av oktober 2017 arrangerade Swe-Clarin tillsammans med Riksbankens Jubileumsfond (RJ), en seminariedag på Riksarkivet för de fem projekt som 2016 beviljades stöd i RJ/KVHAA-satsningen på Samlingarna och forskningen http://anslag.rj.se/sv/lista_stodformer/Forskningsprogram_Samlingarna_och_forskningen.

Annoterings-pipeline för svenska

Vi vid institutionen för lingvistik på Stockholms universitet har i samarbete med Uppsala universitet arbetat för att integrera flera tidigare språkteknologiska verktyg i en samlad annoterings-pipeline för svensk text. Sekvenstaggaren efselab (Stockholm) sköter annotering av ordklasser, egennamn och morfologi, sedan tillförs syntaktisk dependensanalys av Uppsalas verktyg MaltParser.

Annotera och analysera dina texter med SweGRAM

Språkteknologigruppen vid Uppsala universitet arbetar med att ta fram resurser och verktyg för automatisk analys och bearbetning av språkliga data. Vi vill möjliggöra storskalig kvantitativ analys av texter för forskare inom humaniora och samhällsvetenskap genom att tillgängliggöra befintliga verktyg som utarbetats för automatisk lingvistisk analys men som kan vara svåra att använda för icke programmeringskunniga.

Sidor