Pilot projects at KTH (CLARIN Knowledge Centre for Speech Analysis/CLARIN-SPEECH)

Du är här

Home / Blog / Pilot projects at KTH (CLARIN Knowledge Centre for Speech Analysis/CLARIN-SPEECH)

KTH Tal, Musik och Hörsel, CLARIN-SPEECH, och Swe-Clarins arbetsgrupp för tal

På KTHs avdelning för Tal, Musik och Hörsel ligger Clarin-kunskapscentret CLARIN-SPEECH, som fokuserar på informationsspridning och forskning kring tal, talat språk, och så kallad talteknologi – en samlingsterm för olika metoder att analysera, förstå, och producera talspråk på automatisk eller halvautomatisk väg. Avdelningen är en av de äldsta nu verksamma inom talforskningen i världen, och grundades 1951 av fonetikpionjären Gunnar Fant. Fant blev kvar som aktiv forskare på avdelningen till sin död 2009. Inom den svenska delen av Clarin (Swe-Clarin) utgör KTH Tal, Musik och Hörsel tillsammans med ISOF och Riksarkivet Swe-Clarins arbetsgrupp för tal, som verkar för att främja talforskningen.

Projektet TillTal (2017-2020)

I projektet Tilltal (Tillgängligt kulturarv för forskning i tal) samarbetar vi med ISOF och Riksarkivet för att undersöka hur väl de talteknologiska metoder och verktyg som vi vanligen använder på relativt tillrättalagt tal (ofta inspelat just i avsikt att analyseras) kan anpassas och utvecklas för att analysera stora mängder historiska talinspelningar. Uppgiften kan låta trivial, men ur ett talteknologiskt perspektiv är arkivmaterial mycket svårarbetat, bland annat därför att det uppvisar stor variation med avseende på hur det är inspelat (olika typer av inspelningsutrustning etc.), var det är inspelat (allt ifrån akustisk rumsmiljö till hur omgivningen påverkar inspelningen), när det är inspelat (från att inspelningsmedia åldras till att talspråk förändras – mycket snabbare än de flesta tror!) och en mängd andra faktorer.

Tal som hjälpmedel vid transkription av svårt tal samt vid translitteration av text

Inom talforskningen, liksom i många andra områden, blir stora datamängder mer viktigt för varje dag som går. I besläktade områden, som språkteknologi där man främst arbetar med text, finns stora och relativt välordnade resurser att tillgå. Tal är till sin natur betydligt mer komplicerat att strukturera och organisera på ett sådant sätt att det kan ligga till grund för forskningsstudier. Bland annat är det mer varierande i sig självt, men det påverkas också av allt i sin omgivning, till skillnad från text. Ur ett rent datavetenskapligt perspektiv är text mycket mer förutsägbart än tal. Grovt räknat kan man säga att det kostar mellan 100 och 1000 gånger så mycket att samla in ett visst antal ord i tal som det gör i text. Lyckligtvis går det här att ändra på. Ju mer representativa data vi kommer över, desto bättre verktyg kan vi bygga. Dels för att helt enkelt bedriva talforskning och talteknologisk forskning, men dessutom för att förbättra och förenkla behandling och analys av mer taldata.

Under 2015 och 2016 har KTH Tal, Musik och Hörsel lagt mycket tid på att hitta metoder och lösningar för att förbättra tillgången på svenskt taldata. Arbetet har skett dels inom sin roll i Swe-Clarin, dels i samarbete med VINNOVA, och dels i samarbete med PTS som haft ett regeringsuppdrag med målet att främja svensk talteknologi för tillgänglighet och för industrin. Resultatet är en rad projekt och projektförslag som alla har ett inslag av datainsamling och tillgängliggörande. För att få ned de initiala kostnaderna har en målsättning varit att prioritera projekt som har fler positiva utkomster än skapandet/tillgängliggörandet av taldata.

Ett av de projekt vi nu arbetar med att få igång handlar om att använda tal som ett hjälpmedel vid transkription av annat tal (t.ex. tal med dålig inspelningskvalitet) samt vid translitteration av text (t.ex. handskrift). Grundtanken är att den som transkriberar först läser texten eller repeterar talet i en kvalitetsmikrofon. Inläsningen taligenkänns av ett system som är bekant med talarens röst och med inspelningsmiljön, vilket borgar för relativt stor andel korrekta ord. Till sist rättar man den automatiskt igenkända texten manuellt. Initiala tester pekar på att metoden är bättre för de som transkriberar/translittererar. Det både går fortare och är mer ergonomiskt. Med andra ord kan man förbättra både arbetssituation och effektivitet för de som idag utför den här typen av arbete. Ur ett talteknologiskt perspektiv är vinsten förstås att man får ett stort antal inläsningar av text som är känd (i och med att de automatiska taligenkänningarna rättas), vilket är en mycket viktig grundresurs på området.

I skrivande stund samtalar vi med PTS, Riksarkivet, KB, ISOF, Uppsala Universitetsbilbiotek och utvecklare av talteknologiska applikationer om hur vi bäst ska gå vidare.