Lexikon för semantik och typologi

Du är här

Home / Blog / Lexikon för semantik och typologi

I det här inlägget presenterar vi två resurser: ett semantiskt lexikon och en typologisk databas.

Den första resursen är ett nytt corpusverktyg för svenska som taggar orden i en korpus i semantiska fält. I samarbete med Lancaster University skapar vi en svensk version av "USAS-taggern" som utvecklades i samarbete med British National Corpus, och vidareutvecklades till ett korpusverktyg för engelska, WMatrix. Detta korpusverktyg kan tagga ord i en korpus för de olika semantiska fälten som orden tillhör. De semantiska fälten bygger på Longman Lexicon of Contemporary English och har en flernivåstruktur med 21 övergripande områden som "Pengar & Handel", "Mått & Vikt", men också möjligheten till ytterligare finkornig uppdelning. Ambitionen är att skapa ett verktyg som kan söka ut ord för ett visst semantiskt fält i ett större material och också jämföra vilka semantiska fält som är överrepresenterade i ett korpusmaterial i jämförelse med en annan korpus. Verktyget har använts i engelskspråkig forskning och för forskning i t.ex. diskursanalys och metaforer. Som utgångspunkt har det lexikon som ligger till grund för WMatrix-taggaren översatts automatiskt till svenska med hjälp av det fritt tillgängliga engelsk-svenska lexikonet Folkets lexikon och en automatisk ordklasstaggare. Förfarandet har tidigare testats för flera andra europeiska språk (Piao et al. 2016). Den semantiskt taggade ordlistan som detta resulterar i är för det mesta ofullständigt eller ibland direkt felaktigt (på grund av problem i det engelsk-svenska lexikonet, fel i ordklasstaggningen eller i den automatiska översättningen). Lexikonet genomgår därför en manuell kontroll. Hittills har cirka 4 500 av 18 000 ord kontrollerats. Demo och nedladdning av den aktuella versionen är finns här.

Språkteknologi

Den andra resursen är DiACL, Diachronic Atlas of Comparative Linguistics. Det är en databas med lexikal och typologisk/morfosyntaktisk data för historisk, komparativ och fylogenetisk lingvistik. Den innehåller data från 500 språk från 18 familjer, uppdelade på 3 makroområden: Eurasien, Stillahavsregionen och Sydamerika. Databasen har följande innehåll: 1) Lexikala dataset med basvokabulär, 2) Lexikala dataset med kulturvokabulärer, 3) Typologisk/morfosyntaktisk data, inkluderande huvudtyperna ordföljd, satssyntax, nominal och verbal morfologi. Databasen innehåller data från samtida och historiska språk och, om möjligt, även rekonstruerade språk. Data har samlats in från lexika, grammatikor och genom nytt fältarbete (i synnerhet från Kaukasus och Sydamerika). All data är källhänvisad till vetenskapligt tillförlitlig litteratur.

DiACL

Johan Frid, med benägen hjälp av Anna W Gustafsson och Gerd Carling.