En workshop under rubriken Interoperability of Second Language Tools and Resources (Interoperabla verktyg och resurser för andraspråksforskning) genomfördes vid Göteborgs universitet den 6–8 december 2017. Swe-Clarin och Språkbanken stod som värdar för denna workshop, som finansierades av CLARIN och lockade 27 deltagare från femton europeiska länder.
Elena Volodina, lokal huvudorganisatör, sammanfattar här sina intryck av tre produktiva dagar i samarbetets tecken.
Idén till workshopen på temat interoperabla verktyg och resurser för andraspråksforskning föddes ur det nystartade projektet SweLL – research infrastructure for Swedish as a second language. Arbetet väckte en praktisk fråga: går det att skapa en korpus med uppsatser skrivna av andraspråksinlärare så att den blir möjlig att jämföra med andra andraspråkskorpusar (L2-korpusar) – och vad behöver vi i så fall tänka på för att lyckas med detta?
När vi påbörjade sökandet efter personer som kunde sitta inne med svar på den frågan fann vi ASK-korpusen, en korpus med L2-norska. Turligt nog var flera erfarna ASK-forskare – Kari Tenfjord, Paul Meurer och Silje Ragnhildstveit – angelägna att dela med sig av såväl erfarenheter som goda förslag. I juni 2017 möttes de två grupperna, SweLL och ASK, i Göteborg. Där kom Koenraad de Smedt, nationell koordinator för den norska CLARIN-noden (CLARINO), med förslaget att också bjuda in andra av CLARIN:s medlemsländer till diskussionen för att kunna förmedla vikten av att man skapar interoperabla resurser och ta del av erfarenheter från andra forskargrupper.
Det intresserade auditoriet den andra dagen.
Att L2-korpusar är interoperabla betyder helt enkelt att de är jämförbara i relevanta avseenden, till exempel att det är möjligt att jämföra hur väl inlärare av olika målspråk (som tyska och japanska) med specifika modersmål (som svenska) klarar av olika typer av språkliga aktiviteter (grammatiska, lexikala, et cetera) eller om samma språkliga kategorier lärs in i samma ordningsföljd hos alla inlärare oberoende av modersmål. Det finns olika möjliga forskningsscenarier för bland annat forskare som specialiserar sig på andraspråksinlärning eller språktestning. För att kunna skapa interoperabilitet behöver man säkerställa att L2-korpusar har jämförbara feltaxonomier (till exempel ortografiska och grammatiska avvikelser), jämförbara metadatavariabler (ålder, kön, aktivitet, et cetera), (tekniskt) dataformat, förstaspråk och så vidare.
Naturligtvis är det en utopisk tanke att alla CLARIN-projekt ska använda sig av samma feltaxonomi (detta är i princip omöjligt eftersom språk är olika i en mängd avseenden), samma uppsättning demografiska metadata (dessa påverkas av bland annat nationell lagstiftning och regler om persondata och integritetsskydd) eller att olika projekt skulle använda samma verktyg och dataformat (det är i sammanhanget svårt att överskatta betydelsen av den teknologiska utvecklingen och utvecklingen av standarder). Likväl är det viktigt att arbeta i en sådan riktning för att i något skede kunna göra generaliseringar över olika målspråk. Ett avgörande steg i arbetet är att skapa ett nätverk av forskare och forskargrupper, som är intresserade av att diskutera dessa frågor.
Utskicket om en workshop till CLARIN:s olika nationella nätverk resulterade i 41 registreringar på bara tre dagar. Det var ett tydligt tecken på behovet av en mötesplats där forskare och utvecklare kan dryfta gemensamma frågor och utforma riktlinjer för arbetet med L2-korpusar. Sammanlagt deltog 27 deltagare från 15 europeiska länder [1] i workshopen, som arrangerades vid Göteborgs universitet och med Sylviane Granger från Belgien som inbjuden talare. Det är värt att påpeka att antalet deltagare fick begränsas på grund av de finansiella förutsättningarna.
Tre produktiva dagar
Dag 1: Hela första dagen viktes till presentationen av olika pågående L2-korpusprojekt, med målspråk som kroatiska, tjeckiska, finska, lettiska, littauiska och svenska – i de flesta fallen handlade det om den första L2-korpusen för dessa språk. Det fördes inspirerande diskussioner av behovet av infrastruktur för kontinuerlig insamling, bearbetning och underhåll av inlärarkorpusar.
Dag 2: Dagen inleddes med en fokus på frågor om metadata, juridik och fel-taxonomier och den inbjudna talaren Sylviane Granger gav en engagerande presentation om behovet av standardiserad metadata. Under den senare delen av dagen diskuterade vi verktyg och mjukvara som används i L2-projekten, till exempel för transkribering av handskrivna texter, annotering av fel eller möjliga målhypoteser (vilken konstruktion syftade inläraren till). En presentation om erfarenheterna från MERLIN-projektet blev en rejäl ögonöppnare som gav insikter om vikten att bevaka annoterares arbete, samt om problem med formatkonverteringen mellan flertal verktyg utvecklade i olika projekt. Som ett sätt att delvis undvika problemet föreslogs klarare riktlinjer för och styrning av annoteringsuppgifter.
Sylviane Granger under sin keynote-presentation.
Dag 3: Förmiddags-sessionen ägnades åt temat ”nöjda användare”. Bland annat handlade presentationerna om vikten med användarvänliga sökgränssnitt, en empirisk fallstudie där en L2-koprus användes för att besvara forskningsfrågor inom andraspråksforskningen, liksom exempel på språkteknologiska applikationer som kan byggas med användning av L2-korpusar. Dagen avrundades med en givande diskussion arrangerad som ett ”världscafé” av Nives Mikelic Preradovic, Maarten Janssen, Therese Lindström Tiedemann och Silje Ragnhildstveit.
På workshoppens webbplats finns en sammanfattning av världscafédiskussionerna, liksom utförlig information om presentationerna, presentationsbilder, information om deltagarna och vilka länder de representerade.
Fruktbara resultat
Koenraad de Smedt, nationell koordinator för CLARINO, deltog under hela workshoppen och bidrog till att sätta in diskussionerna i ett större perspektiv och styra dem mot användbara resultat.
Under workshoppen skapade vi ett dokument i vilket deltagarna kunde föra in förslag om nästa steg i arbetet. På så vis har vi nu många goda förslag och initiativ att ta ställning till och, inte minst, förverkliga inom en förhoppningsvis inte alltför avlägsen framtid.
Det är ingen överdrift att påstå att workshoppen var mycket givande för deltagarna. För det första lade vi grunden för ett nätverk. En bestämde sig för att organisera nästa workshop och en annan att söka EU-medel för att organisera ett COST-nätverk på temat inlärarkorpusar.
Workshoppen fungerade också som ett forum för kunskapsutbyte. Många deltagare var tacksamma för möjligheten att informeras om verktyg som är användbara för deras projekt, liksom om metadatabehov och saker att tänka på i samband med definitionen av en feltaxonomi, med mera. Detta kommer på sikt att bidra till arbetet med att ta fram en ny generation L2-korpusar med något större potential för jämförbarhet över språk. Sist men inte minst diskuterades många möjliga samarbeten.
En styrka med workshoppen var att den förde samman forskare som på olika sätt arbetar med L2-korpusar, både mer tekniskt inriktade (systemutvecklare och språkteknologer) och de med större fokus på forskningsanvändningen (lingvister, forskare i andraspråksinlärning och språktestning, korpuslingvister, lärare). Det var för båda grupperna värdefullt att få en inblick i och diskutera varandras arbetssätt och problem – och därigenom få en bättre uppfattning om möjliga samarbeten.
Sociala aktiviteter
Det säger sig kanske självt att de sociala aktiviteterna bidrog till att skapa en trivsam atmosfär. Vi avnjöt tre fantastiska middagar med svenska specialiteter, som dagens fiskfångst och köttbullar. Budgeten var blygsam, men vi kunde ändå bjuda på ett par glas vin till maten och workshoppen avslutades med en julkaka!
Det fanns också många begivenheter att utforska i ett Göteborg som bjöd på julstämning, vilket framgår av de bilder som workshop-deltagaren Igna Znotina från Lettland delat med sig av:
Göteborg i december.
Som det begav sig, var jag den ende av arrangörerna som arbetar vid Göteborgs universitet och därmed föll det på min lott att sköta den lokala organisationen. Därför vill jag särskilt tacka Dan Rosén från Språkbanken och Julia Prentice från institutionen för svenska språket vid Göteborgs universitet som generöst stöttade mig i arbetet.
Självklart vill jag också tacka mina medarrangörer – Kari Tenfjord, Nives Mikelic Preradovic, Maarten Janssen, Therese Lindström Tiedemann och Silje Ragnhildstveit – som gjorde så att evenemanget löpte smidigt, arrangerade ett förträffligt världscafé och som arbetade med mycket annat!
Likaså riktas ett stort tack till Koenraad de Smedt, som var en drivande kraft bakom denna intressanta och givande workshop.
Julkakan.
TEXT: ELENA VOLODINA