En Korp i Språkbanken
Språkbanken är en språkteknologisk forskningsenhet vid Göteborgs universitet. En central del av våra aktiviteter består i att utveckla en språkteknologisk infrastruktur som ska underlätta forskning på stora svenska textmassor från alla tider och även möjliggöra att man ställer nya sorters forskningsfrågor.
Här kommer Korp in i bilden. Korp är ett verktyg för att utforska svenska texter, där en stor språkteknologiskt annoterad textsamling – närmare tio miljarder ord totalt – görs tillgänglig via avancerade sökfunktioner och analysverktyg.
Nedan ger vi några smakprov på typer av frågor man kan söka svar på med hjälp av Korp. För mer information, besök: http://spraakbanken.gu.se
Det är allmänt känt att August Strindbergs kvinnosyn lämnade en del övrigt att önska, men lämnar den även spår i hans verk?
I detta exempel har vi sökt efter ”kvinna” och ”man” i August Strindbergs verk och brev. Det som visas här är så kallade ordbilder, vilket enkelt uttryckt är sökordens samförekomster.
Något tillspetsat ser vi t ex att mannen sägs vara hederlig, rättfärdig, trovärdig och klok (samt möjligen fattig eller död), medan kvinnan oftare är ond, lös eller beskrivs på sätt som relaterar till mannen (gift, ogift, ofruktsam och oavhängig).
Medan mannen är aktiv och arbetar, ser och säger, så älskar och känner kvinnan.
Tekniken går framåt: mp3 har ersatt CD:n som i sin tur ersatt kassettbanden. Låt oss ta en titt på hur denna utveckling ser ut i Korps textsamling med hjälp av ett trenddiagram, som visar trender i ords och andra språkliga fenomens användning över tid.
Här kan vi se att kassettbanden har funnits sedan 1975 och har använts fram till runt år 1995. CD:n började ta fart år 1990 och var en stor succé runt år 2000. Därefter tar mp3:n vid.
Inför valet 2010 så bildade de borgerliga partierna Alliansen, vilket utmynnade i ett gemensamt partiprogram vid sidan av partiernas individuella program. Låt oss jämföra delarna med helheten. Till vänster återfinns de ord som tonats ned i det gemensamma partiprogrammet, och till höger ser vi ord som lyfts fram, jämfört med de individuella programmen.
Swe-Clarin
Termen eVetenskap används ofta för att beteckna vetenskap som med hjälp av modern informationsteknik kan angripa problem av en omfattning och komplexitet som inte skulle kunna hanteras utan elektroniska hjälpmedel och möjligheten att dra fördel av geografiskt spridda resurser. Korpuslingvistiken (som med hjälp av språkteknologi bedriver forskning på stora insamlade textmassor) är ett mycket tidigt exempel på eVetenskap. Språkteknologi är också ett område som utvecklats starkt över femtio år, och den teknologi och teoribildning som utvecklats i anslutning till detta forskningsfält har idag fått en rik flora av applikationer utanför den rent lingvistiska intressesfären.
Det stora europeiska infrastrukturprojektet CLARIN (Common Language Resources and Technology Infrastructure) syftar till att göra digitala språkresurser (textsamlingar, inspelningar av ljud och bild, lexikon och så vidare), tillsammans med de språkteknologiska verktyg som behövs för att hantera dem, tillgängliga för forskare inom alla discipliner. Särskild tonvikt läggs på forskare inom humaniora och samhällsvetenskap. Med andra ord: CLARIN erbjuder en möjlighet för alla forskare inom humaniora och samhällsvetenskap (och även andra discipliner som t.ex. medicin och vårdvetenskap) att använda sig av eVetenskapliga metoder i sin verksamhet. För mer information om det europeiska samarbetet, se . När CLARIN nu efter en inledande förberedelsefas konsolideras till ett permanent tillstånd som ett europeiskt konsortium för forskningsinfrastruktur skall projektet Swe-Clarin möjliggöra för Sverige som land, och för Sveriges språkteknologiska forskargemenskap, att dra sitt strå till stacken i det europeiska samarbetet och förstås specifikt att arbeta med utveckling och underhåll av resurser och verktyg för svenska och de officiella svenska minoritetsspråken.
Swe-Clarin bygger upp den nationella infrastrukturen inom området i form av ett antal centra, baserade på väletablerade forsknings- och utvecklingsmiljöer. Dessa centra skall dels skapa, uppgradera och underhålla de digitala resurserna och verktygen, och dels fungera som utbildnings-, rådgivnings- och stödenheter för forskare utanför språkteknologigemenskapen. Med en sådan infrastruktur på plats, enkelt tillgänglig för landets forskare i deras dagliga verksamhet, hoppas vi att kunna erbjuda bra eVetenskapligt forskningsstöd.
Swe-Clarins kick-off
Swe-Clarin höll sin kick-off i början av februari i Göteborg. Information och mötesanteckningar finns att hitta på http://sweclarin.se/swe/Swe-Clarin-kick-off
Swe-Clarins första HS-workshop
Den 17 april håller Swe-Clarin en första workshop för humaniora och samhällsvetenskap (HS). Vårt arbete med Swe-Clarin syftar till att bygga verktyg och resurser för att främja forskning inom digital humaniora och samhällsvetenskap. Vår definition av HS är bred och vi välkomnar alla som arbetar, eller vill börja arbeta, med digitala, språkvetenskapliga verktyg för sin forskning inom humaniora, samhällsvetenskap, juridik, medicin, mfl. Denna workshop kommer primärt att hållas på svenska.
Tid och plats:
17 april, Lennart Torstenssonsgatan 6, rum K333, kl 13–19
Anmälan på:
http://goo.gl/forms/tuchRuyjD9 http://sweclarin.se/
Kalender
9–10 mars: Nordic Clarin Network-möte i Köpenhamn
17 april: HS-workshop i Göteborg. Alla är välkomna.
9–10 juni: Nordic Clarin Network-workshop
5–6 oktober: Nordic Clarin Network-workshop i anslutning till Språkbankens höstworkshop med tema historiska resurser
19–20 november: Swe-Clarin-stormöte i Stockholm, SweClarin-workshop i anslutning på fredag em.
Alla är välkomna.
Partners
Swe-Clarin har 9 partners från Lund, Göteborg, Linköping, Stockholm och Uppsala och inkluderar både universitet och myndigheter. Hitta en lista och beskrivning av alla våra partners på: http://sweclarin.se/swe/centrum
Uppdateringar om Swe-Clarin via http://lists.sweclarin.se/mailman/listinfo/news_lists.sweclarin.se