På gång: En ny fågel på Språkbanken

Vi på Språkbanken håller idag på att aktivt utveckla ett nytt forskningsverktyg med namnet Strix (grek. ’uggla’), avsett för att stödja textbaserad forskning. För er som är bekant med Korp, så kan man säga att Strix är ett systerverktyg till Korp, men där Korp har ordet i fokus, har Strix istället texten. Och på samma sätt som för Korp, så spelar den språkteknologiska analysen en nyckelroll i Strix, men i Strix har vi ett särskilt fokus på dokument- och innehållsbaserad analys.

Att en analys är dokumentbaserad innebär här att den grundläggande analysenheten är texten. Ett exempel på detta är textklassificering, där man givet en uppsättning av fördefinierade klasser, som exempelvis representerar politiska partier, genretyper eller författare, automatiskt försöka bestämma klasstillhörigheten för varje text som analyseras. Textklassificering är också ett exempel på så kallad innehållsbaserad analys, eftersom den försöker fånga textens innehåll snarare än att säga något om dess språkliga dräkt.

En viktig målsättning med Strix, utöver att stödja nya typer av språkteknologisk analys, är att stödja avancerade interaktioner med stora textmängder. För att illustrera vad sådana interaktioner kan innebära, ger vi här en beskrivning av hur vi tänker oss att en forskare kan interagera med Strix: En forskare har just filtrerat fram texter i dagspressen från 2011 som skriver om företag, och skummar igenom de första texterna som kommer upp. Hon väljer att färgmarkera företagsnamnen i texterna i verktyget — för att få överblick — och navigerar med piltangenterna mellan de olika namnen. Lägger märke till att det verkar finnas intressanta skillnader mellan hur dagspressen väljer att skriva om två av Sveriges storbolag, IKEA och H&M, och utnyttjar därför Strix funktionalitet att skapa två separata textsamlingar som omnämner IKEA respektive H&M, men inte båda samtidigt, och jämför dessa samlingar över tid, med stöd i en automatisk attitydanalys rörande dessa företag. Vad hon då upptäcker är... Och så vidare.

Alla texter som finns med i Strix kommer också finnas i Korp. Vad som bestämmer om ett material kan vara med i Strix är en upphovsrättslig fråga — att visa en hel text är förstås upphovsrättsligt känsligare än att visa en mindre del av texten, som en mening eller ett stycke. Vi har därför valt att fokusera på de textsamlingar som är fritt tillgängliga, som Riksdagens öppna data och Wikipedia. De texter som vi har rätt att göra tillgängliga för forskarsamhället, kommer vi senare att ge tillgång till bakom inloggning.

Språk Svenska

blogg för Elena Volodina

På gång: En ny fågel på Språkbanken

Medintressenter

Medlemmar

Kontakta oss