Pilotprojekt på Stockholms universitet

Institutionen för lingvistik vid Stockholms universitet deltar i Swe-Clarin genom två avdelningar, datorlingvistik och teckenspråk. Vi bedriver för närvarande två projekt med stöd av Swe-Clarin.

Det första projektet, startat i februari 2016, handlar om syntaktisk annotering av den svenska teckenspråkskorpusen (SSLC, http://www.ling.su.se/teckenspråksresurser/teckenspråkskorpusar/svensk-teckenspråkskorpus/svensk-teckenspråkskorpus), och om att mappa denna annotering till Universal Dependencies (UD, http://universaldependencies.org), en standard för konstruktion av flerspråkiga trädbanker som öppnar för mångspråkig tillämpning av språkteknologiverktyg. Arbetet med att skapa SSLC påbörjades 2003. Korpusen består av 24 timmar video innehållande monologer och dialoger med 42 tecknare, allt fördelat över 300 filer, varav 85 är annoterade i den senaste distributionen. All annotering görs i ELAN (https://tla.mpi.nl/tools/tla-tools/elan/) och har hittills omfattat teckenglosor, ordklass för respektive glosa samt översättning till svenska. Målet med den nya syntaktiska annoteringen är att tillföra en analys av satser och dessas struktur. Annoteringen av satser är baserad på semantiska och prosodiska kriterier, där det viktigaste semantiska kriteriet är att satsen innehåller (minst) ett predikat med dess argument. (Förekomsten av seriella verb i teckenspråk gör att det ibland förekommer flera predikat i en sats, i motsats till vad fallet är i talade språk, där ett kriterium för en sats ofta är att den innehåller högst ett predikat, eller finit verb, dock med pseudokoordination som ett undantag.) Ett prosodiskt kriterium är att satsen ska ingå i en prosodisk enhet, vilket dock inte är ett entydigt krav eftersom prosodisk struktur i teckenspråk lika lite som i talade språk alltid stämmer överens med syntaktisk struktur. (Prosodi i teckenspråk innefattar huvudsakligen icke-manuella signaler som ögonrörelser, huvudrörelser, kroppshållning, teckenduration osv, och fyller samma funktion som prosodi i talade språk, dvs att tillföra betydelse, ofta pragmatisk sådan.) Hittills har ungefär 25 filer annoterats med syntaktisk struktur, och i ett andra steg utforskar vi principer för att mappa denna till en syntaktisk annotering enligt UD. Vi utgår här från de syntaktiska UD-kategorierna för svenska, och det fortsatta arbetet får utvisa i vad mån vi har behov av språkspecifika tillägg till dessa. Arbetet görs i samarbete mellan datorlingvistik och teckenspråk, och har hittills resulterat i en publikation: Börstell, C., Wirén, M., Mesch, J. & Gärdenfors, M. (2016). Towards an Annotation of Syntactic Structure in the Swedish Sign Language Corpus. Proc. 7th Workshop on the Representation and Processing of Sign Languages: Corpus Mining. Paper presented at Language Resources and Evaluation Conference (LREC) (pp. 19-24). Paris: ELRA. http://www.lrec-conf.org/proceedings/lrec2016/index.html.

Skärmbild av den syntaktiska annoteringen i ELAN

Det andra projektet, startat i juni 2016, har som mål att konstruera en annoterad korpus av Strindbergs samlade verk. Projektet är ett samarbete med Litteraturbanken vid Göteborgs universitet och Nationalutgåvan av August Strindbergs samlade verk vid Stockholms universitet. Nationalutgåvan av Strindbergs samlade verk består av 72 volymer med ca 6 miljoner ord, utgivna mellan 1981 (Röda rummet) och Strindbergsåret 2012 (Hemsöborna). Vårt korpusprojekt utgår från elektroniska versioner av boktexten tillhandahållna av Litteraturbanken, med målet att fritt kunna distribuera korpusen i tre versioner:

1. En råtextversion utan annotering, med enklast möjliga struktur för kapitel, stycken, rubriker osv medelst blankrader. Denna version är avsedd för den som vill kunna arbeta med texten direkt, till exempel med egna scripts eller med ett profileringsverktyg som Sketch Engine (https://www.sketchengine.co.uk/).

2. En CoNLL-version med ett ord per rad och annotering per kolumn. Annoteringen bygger till att börja med på en normal analyskedja med tokenisering, ordklasstaggning och dependensparsning, och med mekanismer för att hantera ålderdomliga drag i språket. Denna version är avsedd för den som vill arbeta med den annoterade texten utan att gå vägen över XML eller ett sökgränssnitt.

3. En XML-version inklusive XML-schema som kodar texten och annoteringen, och som kan paketeras tillsammans med ett fristående korpussökningsgränssnitt och/eller med Korp.

Förutom Strindbergs texter innehåller Nationalutgåvan litteraturvetenskapliga kommentarer, som vi hoppas kunna göra tillgängliga tillsammans med korpusen.

Arbetet är en fortsättning av ett tidigare projekt i mindre skala (före tillkomsten av Swe-Clarin), som resulterade i en korpus med Strindbergs självbiografiska verk, Stockholm University Strindberg Corpus (SUSC). Se Nilsson Björkenstam, K., Gustafson Capková, S. & Wirén, M. (2014). The Stockholm University Strindberg Corpus: Content and Possibilities. I: Roland Lysell (Ed.), Strindberg on International Stages/Strindberg in Translation. Cambridge: Cambridge Scholars Publishing. http://su.diva-portal.org/smash/get/diva2:705835/FULLTEXT01.pdf.

Språk Svenska

blogg för Nina Tahmasebi

Pilotprojekt på Stockholms universitet

Medintressenter

Medlemmar

Kontakta oss