KOMMENTAR: Arbetet med dessa instruktioner pågår – här kommer det bland annat bli utstickare till Handboken.
Att börja med språkbaserad e-vetenskap är enklare än vad många tror. Här visas i några enkla steg hur du kan göra ditt forskningsmaterial till digital text och börja analysera med språkvetenskapliga verktyg.
Här beskrivs hur du:
Tanken är att både introducera en digital metod och att förenkla användningen av våra resurser.
Att skanna in en text kan te sig som en banal syssla. Men den som gör det på rätt sätt undviker onödigt extraarbete.
Använd en passepartout. Vid inskanning ska man undvika svarta linjer, skuggor eller annat ”brus”, som kan minska kvaliteten på den optiska teckenigenkänningen (OCR) och kan kräva tidsödande efterbearbetning. Om du skannar in boksidor, som är mindre än A4, kan du tillverka en infattning av papper att lägga på glaset till skannern/kopiatorn. Kort sagt, skär ut ett hål i ett grovt papper efter boksidornas mått – gör hålet några millimeter mindre än sidorna för att ytterligare minska risken för brus.
Ställ in skrivaren. För att få en god kvalitet på inskanningen är en rekommenderad upplösning 300 DPI. Filen blir då inte heller alltför stor. Ställ också in så att varje inskannad sida blir en separat PDF – då blir det enkelt att på nytt skanna in och ersätta enstaka sidor, som det blivit något fel med.
Var noggrann. Skanna in sidorna så rakt som möjligt. Det krävs ingen överdriven exakthet, men de inskannade sidorna bör inte lutar och även ha samma proportioner. Överhuvudtaget ska materialet skannas in på samma sätt – använd samma skanner och samma inställningar till alla sidor.
När materialet skannats in är det dags att omvanda innehållet på PDF-sidorna till digital text. För detta krävs ett program för optiska teckenigenkänning, OCR (Optical Character Recognition).
Ladda ned program. XXX
Konstatera fel. Näst intill all inskannad text behöver efterbearbetning. Även om XXX kommer OCR-program att misstolka en del detaljer. En del beror på den ursprungliga textens sättning, till exempel tryckkvalitet, typsnitt eller teckenavstånd. Till exempel kan sättningen göra att en OCR:are läser ett ord som separata bokstäver ("med" blir "m e d"). Eller så XXX (XXX).
Tvätta texten. Näst XXX.
Anteckningar: HUR LÅNG TID TAR DET – DU KAN RÄKNA MED ATT EN ROMAN PÅ RUNT 200 SIDOR TAR X TIMMAR. OCR:ANDET TAR SI OCH SÅ LÅNG TID. O S V ...
Vad finns i katalogen? Så här filtrerar du. Filtrering på salienta egenskaper – koka ner urvalet).