Följande blogg är första i serien om Swe-Clarins verktyg, resurser och data. I texten nedan beskrivs forskning som har möjliggjorts tack vare SOU-datan och verktyget Korp, som båda tillhandahålls av Språkbanken.
Informationsbegreppets framväxt och förändring i Statens offentliga utredningar
av Fredrik Norén, Umeå Universitet, Institutionen för kultur- och medievetenskaper
Mitt forskningsprojekt handlar om samhällsinformationen i Sverige 1965–1975, och jag är framförallt intresserad av idéer som formade varför och hur staten informerade och kommunicerade med medborgarna under denna period. Målsättningen är att använda olika metoder för att närma sig detta ämne, och här utgör digitala och kvantitativa text-metoder en hörnsten, framförallt av myndighetstexter. Men för att detta ska vara möjligt krävs stora mängder digitaliserad text, som dessutom måste vara möjlig att bearbeta maskinellt. På senare tid har lyckligtvis allt fler myndighetsmaterial digitaliserat och tillgängliggjorts publikt, till exempel Statens offentliga utredningar (digitaliserat av Kungliga biblioteket, 1922–) och olika samlingar från Riksdagens öppna data (digitaliserat av Riksdagsarkivet, 1971–). Språkbanken har nyligen importerat dessa samlingar till sitt konkordansverktyg Korp och konverterat materialet till XML vilket gör det möjlig att laborera med texternas grammatiska struktur. För egen del har jag intresserat mig för SOU-materialet, som med sin ämnesmässiga bredd gör det möjligt att studera hur ”staten pratade” om till exempel information. Och med enkla ordfrekvenssökningar i Korp går det att vaska fram intressanta resultat. Det är till exempel tydligt att informationsbegreppet bokstavligen exploderar under 1960-talet, och att det inte bara handlar om ett ord som ersatte ett annat.
I samarbete med Roger Mähler från Humlab (centret för digital humaniora vid Umeå universitet) utvecklade vi skript i Python som gjorde det möjligt att extrahera alla lemmatiserade substantiv från XML-versionerna av SOU-materialet. Substantiv är nämligen en effektiv ordklass när det gäller att studera teman i text. Med LDA topic modeling-verktyget Mallet ville vi sedan studera hur den statliga ”informationsdiskursen” förändrades under tre årtionden: 1960-talet, 1970-talet och 1980-talet. LDA är en sannolikhetsbaserad algoritm som identifierar latenta topics (så kallade ”påsar” med ord) som antas utgöra en representation av den faktiska textsamlingen.
För varje SOU-årtionde programmerade vi Mallet att returnera 500 latenta topics, och för varje resultat kunde vid identifiera ett topic som utgjorde ett slags generellt informations-topic av typen nedan:
Information allmänhet kontakt fråga kunskap material organisation form upplysning informationsverksamhet syfte behov broschyr massmedium intresse innehåll myndighet uppgift typ |
Utifrån Mallets out-put data kunde vi sedan utnyttja respektive informations-topics 200 mest sannolika ord och visualisera språkliga förbindelser i Gephi. I grafen nedan ser vi till exempel en starkare kontinuitet mellan 1970-talet och 1980-talet än mellan 1960-talet och 1970-talet. Mot slutet av 1960-talet släpptes betänkanden (SOU:er) som lade fast informationspolitiken för kommande decennier. En anledning till grafens utseende kan därför vara att när politiken institutionaliseras följer språket efter.