Vad innebär begreppen e-vetenskap och språkteknologi? För vägledande svar på detta kan man vända sig till två av Swe-Clarins huvudpartners: Vetenskapsrådet och CLARIN.
Vetenskapsrådet, som satsar på nationella forskningsinfrastrukturer och medfinansierar Swe-Clarin:s arbete, beskriver e-vetenskap på följande sätt: "Med e-vetenskap menas vetenskap som nått en ny dimension genom att utnyttja möjligheterna att, med hjälp av modern informationsteknik angripa problem av en omfattning och komplexitet som inte skulle kunna hanteras utan elektroniska hjälpmedel, och möjligheten att dra fördel av geografiskt spridda resurser; såväl tekniska som mänskliga".
Språkteknologi (ST), eller language technology (LT), är samlingsnamnet för en rad tekniker, verktyg, algoritmer och så vidare, som gör det möjligt för datorer att hantera mänskligt språk i alla dess former. Det handlar om såväl skrift som tal och i viss mån även teckenspråk. LT är därmed ett slags informationsteknik (IT) och utgör ett i hög grad interdisciplinärt fält.
CLARIN, som alltså är den europeiska överbyggnaden för Swe-Clarin, ger fylliga presentationer av språkteknologins möjligheter på sin webbplats och skriver bland annat. "Currently CLARIN provides easy and sustainable access to digital language data (in written, spoken, or multimodal form) for scholars in the social sciences and humanities, and beyond. CLARIN also offers advanced tools to discover, explore, exploit, annotate, analyse or combine such data sets, wherever they are located".
Termen e-vetenskap har hittills använts för främst analys av beräkningsdata med hjälp av modern informationsteknik. Ett område som utvecklats starkt de senaste decennierna är de e-verktyg som möjliggör analys av digitala språkresurser med hjälp av språkteknologi, ett sätt att analysera stora material som hade tagit en omfattande tidsåtgång i anspråk för att kunna processa på traditionellt vis, för hand.
Digitalisering är ett pågående arbete inom olika områden och numera finns det stora volymer av exempelvis digitaliserad historisk text. Digitaliseringen ger radikalt nya möjligheter för forskare som arbetar med texter till systematiska studier med stöd av e-vetenskapliga metoder. För att kunna genomföra dessa analyser behövs språkvetenskapliga verktyg, som anpassats till analys av olika sorters texter, forskarens frågeställning och den analys som den kräver.
Istället för att endast göra en traditionell textanalys av ett underlag kan man genom språkteknologiska verktyg analysera en text ur nya perspektiv. Förekommer det jag söker efter verkligen i så många fall i texten som jag tror mig se eller styrs mina fynd av mitt intresse, min förförståelse? Genom att använda ett e-verktyg för textanalys ges möjligheten att gå igenom ett större material än jag klarat av med traditionell metod.
När det material som ska användas är identifierat som intressant i relation till forskningsfrågan behöver materialet digitaliseras. Detta kan ske genom OCR-läsning (om materialet är tryckt) eller genom manuell transkribering av exempelvis handskrifter. För att materialet ska följa en standard upprättas ett regelverk för hur data ska registreras för att bli sökbara och möjliga att jämföra med varandra. Den projektdokumentation som upprättas i samband med detta gör att andra forskare kan förstå och utvärdera både materialet och metoden som använts.