Ett ödmjukt försök i digital humaniora

Litteraturvetenskap är kanske inte mest känt för att ligga i framkant när det gäller teknik. Vi håller oss till våra dammiga (men ack så älskade) gamla ämnen, med våra dammiga (men ännu helt fungerande) gamla verktyg. Men i vårt digitala samhälle har nu våra dammiga gamla källor börjat bevaras digitalt. Detta innebär dels att material blir mer tillgängligt för oss när vi vill undersöka dem med våra dammiga gamla metoder, men det innebär också att vi kan se bortom dessa metoder och prova på nya. Här kan tekniken erbjuda oss verktyg att undersöka litteratur på helt nya sätt, och därmed upptäcka sådant som vi tidigare inte kunnat se.

David L. Hoover menar att “almost any literary study can benefit from at least some modest and basic kinds of computer assistance.”[1] Med hjälp av våra datorer kan vi göra undersökningar som inte är möjliga för oss att göra själva. Det kan till exempel handla om at undersöka frekvensen av ett visst ord i en stor samling brev, eller att jämföra språkliga mönster i ett stort antal romaner. Detta är svårt (kanske till och med omöjligt) för en forskare att upptäcka i sin egen läsning.[2]

Men läsandet då? En dator klarar inte av att tolka en text! Nej, det är mycket riktigt. Det finns inga program som kan utläsa det dolda budskapet i Shakespeares alla pjäser – men det finns program som kan hjälpa oss att göra det. Större delen av den kritik som finns gentemot att undersöka litteratur på det här viset kretsar kring att man tappar bort närläsningen när man skannar en text genom ett datorprogram. Men grejen är den att man faktiskt inte alls tappar närläsningen, man bara använder sig av den på ett annat sätt. Istället för att själv sitta och lusläsa en herrans massa text lämnar vi över det till en dator. När datorn sedan spottar ut någon form av resultat börjar det riktiga arbetet – att granska och tolka detta resultat. Det är där närläsningen kommer in. Ett digitalt verktyg ger inga färdiga resultat, utan forskaren måste noggrant undersök det för att hitta dess mening.[3] För det handlar inte om det ena eller det andra:

Rather than pitting distant reading against close reading, what we are seeing is the emergence of new conjunctions between the macro and the micro, general surface trends and deep hermeneutic inquiry, the global view from above and the local view on the ground. The digital humanist is capable of “toggling” between views of data, zooming in and out, searching for large-scale patterns and then focusing in on fine-grained analysis.[4]

De olika läsesätten kompletterar varandra, och kan därför användas tillsammans i jakten på nya upptäckter.

Jag har roat mig lite med en aspekt av computer-assisted textual analysis; visualisering – ett sätt att framställa och analysera data i visuell form. Jag har utgått ifrån C. J. L. Almqvists Drottningens juvelsmycke, dels eftersom den finns lättillgängligt på Litteraturbanken, och dels för att jag har jobbat med den tidigare och därför inte behöver lägga särskilt mycket tid till att sätta mig in i den. När jag skrev min B-uppsats undersökte jag dopets och namnets betydelse i romanen, och tänkte att det vore kul att kika på i alla fall namnen med hjälp av olika visualiseringsverktyg. Huruvida jag kommer kunna läsa ut några faktiska resultat låter jag vara osagt så länge, jag har trots allt ingen aning om vad jag håller på med!

Jessica Parland-von Essen och Kenneth Nyberg säger om visualisering att ”[p]otentiellt sett är det betydligt bredare än att vara ett verktyg eller en metod, eftersom visualiseringar kan ses som ett kvalitativt annorlunda sätt att utforska och gestalta verkligheten än texter i traditionell mening.”[5] I och med detta gäller det att verkligen vara kritisk när man granskar de resultat man får fram. De pekar också på hur visuella representationer ofta kan uppfattas som säkrare än resonemang som presenteras i text, vilket gör att det kritisa och ifrågasättande ögat blir extra viktigt.

Parland-von Essen och Nyberg delar upp visualisering i fyra användningsområden:

  1. För att visa skillnader i storlek eller mängd.
  2. För att visa relationer.
  3. För att visualisera förlopp eller processer.
  4. För att göra rekonstruktioner.

Oavsett vad man använder visualiseringen till finns det tre viktiga aspekter att ta hänsyn till: det kommunikativa, det korrekta och det estetiska. Dessa tre komponenter ska i allra högsta grad finns med i en visualisering för att den ska kunna erbjuda information som är korrekt och ge ”både kunskap och en upplevese för den som tar del av den.”

Stéfan Sinclaire et al pratar i sin tur om två sorters visualisering: statisk och interaktiv. En statisk visualisering producerar enbart ett enda perspektiv av den tillgängliga informationen, och blir därför sällan något annat än en lättillgänglig bild av viss information. Med interaktiv visualisering finns istället möjligheter att utforska sitt resultat, och göra ändringar allt eftersom man upptäcker nya saker. En visuell funktion är att köra en text genom ett program som mäter ordfrekvensen i texten, och sedan skapar ett ordmoln av de mest förekommande orden. De vanligaste orden är de största, medan de ord som förekommer mer sällan blir mindre. En sådan framställning blir mer statisk än interaktiv, mer dekorativt än funktionellt.[6] Denna form är det jag kommer ägna mig åt i mitt experimenterande.

Drottningens juvelsmycke finns som sagt utlagd på Litteraturbanken, både som pdf, etext och epub. Jag valde att utgå ifrån pdf-filen, för att få ett hum om hur det funkar att göra om en bild till faktiskt text, som är vad man behöver för att kunna använda sig av det verktyg jag använt. Jag laddade upp pdf:en i ett OCR-program som heter FreeOCR, ett (som namnet avslöjar) gratis program jag googlade mig fram till. OCR står för Optical Character Reading, och det OCR:n gör är helt enkelt att göra om bilder av text till faktiskt text. OCR är programmerat att känna igen bilder av bokstäver, men gör det inte felfritt. Det finns en mängd olika program för detta, och utan tvekan många som är bättre än det jag har valt, men oavsett vilket program man väljer måste man själv gå in och korrigera texten efteråt.[7] När jag hade kört Drottningens juvelsmycke genom det programmet jag valt var texten faktiskt i rätt bra skick!

DJ 1

Vissa gånger var det lite mer svårbegripligt.

DJ 2

Och ibland var det alldeles obegripligt.

DJ 3

Nästa steg var att gå in och rätta i texten, vilket jag gjorde genom att hela tiden jämföra texten med pdf:en. Det var i stort sett hela tiden samma fel som behövde rättas till; e hade lästs in som c och tvärtom, b lästes in som h, ! blev till l, J blev .I och så vidare. Några tokigheter som kändes mer udda var till exempel att det då och då dök upp ett _ mitt i ett ord, litet v hade på många ställen lästs in som stort V, och ordet ’jag’ hade en tendens att försvinna helt och hållet. En intressant aspekt av dessa felaktiga inläsningar var att felen inte var konsekventa; e var inte alltid inläst som c, inte ens alltid i samma ord. ’Menniska’ kunde både vara inläst rätt och som ’mcnniska’. Utöver att ha rättat till dessa felaktigheter har jag också valt att plocka bort text som jag bedömt inte tillhör själva berättelsen. Jag har tagit bort sidan med redaktörer och dylikt, innehållsförteckning, sidnummer, sidhuvud, inledningen och de avslutande varianterna och kommentarerna. Jag har också tagit bort sidan med noter till Tintomaras sång, eftersom jag valde att se den som något bifogat, och texten som en upprepning av något som redan ingår i berättelsen. Utöver dessa ändringar har jag skrivit ihop alla avstavningar. Jag har bara gjort en enda genomläsning, så det kan finnas kvar vissa fel, men jag hoppas att detta inte ska påverka mina resultat alltför mycket.

Det verktyg jag har använt mig av är Voyant Tools[8], där man kan skapa ett gäng olika grafiska framställningar av den text man laddat upp. Jag började med att skapa ett ordmoln.

Voyant 1

Det här ger oss en ganska ointressant bild av Drottningens juvelsmycke. De största orden är ord som jag, och, det, en och andra sådana vanliga ord. Dessa ord kallas stoppord, och går att sortera bort. Så det gjorde jag!

Voyant 3

Sådär, nu ser vi en helt annan bild. Det finns dock ett par stoppord kvar, äldre ord som inte finns med i den förvalda stoppordslistan. Så jag gick in i den och lade till ett par ord (t ex af, hvad och liknande).

Voyant 4

Sådär. Nu har vi en ”representation” av romanen. Vad den säger oss har jag dessvärre svårt att uttala mig om. Men om vi för en sekund låtsas att jag vet vad jag håller på med, och återgår till frågan kring namnets betydelse i romanen, så kan vi i ordmolnet se något som skulle kunna säga oss att namnet har stor betydelse i romanen, eftersom de största orden faktiskt är namn. De upprepas om och om igen i romanen. Minsann!

Håller man muspekaren över orden i ordmolnet så får man också se hur många gånger just det ordet förekommer i texten. Det finns också en lista där alla ord och dess frekvens finns utskrivna, där man också kan välja sina ”favoriter”. Jag letade upp och klickade i alla de olika namn som Tintomara har i romanen, och fick då vet att Tintomara används 249 gånger, Lazuli 185 gånger, Azouras 166 gånger, Tomara 7 gånger, Zouras 4 gånger, Tinto 3 gånger och Mara 1 en gång. Dessa favoriter gick sedan att placera i en kurva som visar namnens frekvens genom hela romanen.

voyant kurva

Man kan också f orden uppritade i så kallade Bubblelines, där man kan jmföra ordens förekomst med varandra, antingen genom att lägga dem över varandra….

Bubblelines 1

…eller genom att ha dem jämte varandra.

Bubblelines 2      

Det går att göra en hel del mer med Voyant Tools, men jag nöjer mig här.

Jag kan nog tyvärr inte säga att jag har kommit fram till något sådär avsevärt spännande. Kanske beror det på att det jag ville undersöka inte riktigt lämpar sig för den här sortens undersökning, eller så beror det helt enkelt på det jag redan påpekat ett par gånger: jag vet inte vad jag håller på med. Men roligt var det, och fint att titta på! Något som är säkert är i alla fall att om man vill lyckas med dessa metoder krävs en hel del tid. Dels för att sätta sig in i verktygen, givetvis, men också i själva genomförandet. Det är ett pilligt och tankekrävande arbete, och jag känner att jag har svårt att göra det rättvisa. Det finns fortfarande så mycket kvar att upptäcka i all vår älskade litteratur, bara vi är villiga att leta efter det.

[1] David L. Hoover: “Textual Analysis”, i Literary Studies in the Digital Age. An Evolving Anthology, § 1, http://dlsanthology.commons.mla.org/textual-analysis/

[2] Tanya Clement: “Text Analysis, Data Mining, and Visualizations in Literary Scholarship”, i Literary Studies in the Digital Age. An Evolving Anthology, § 24. http://dlsanthology.commons.mla.org/text-analysis-data-mining-and-visualizations-in-literary-scholarship/

[3] Clement: “§15: The computer’s ability to sort and illustrate quantified data helps identify patterns, but understanding why a pattern occurs and determining whether it is one that offers insight into a text requires technologies of self-reflective inquiry.

[4] Anne Burdick, et al: Digital_Humanities, s. 39. http://mitpress.mit.edu/sites/default/files/titles/content/9780262018470_Open_Access_Edition.pdf

[5] Jessica Parland-von Essen & Kenneth Nyberg: Metoder inom digital historia – Visualiseringar, i Historia i en digital värld. http://digihist.se/5-metoder-inom-digital-historia/visualiseringar/

[6] Stëfan Sinclaie et al: ”Information Visualization for Humanities Scholars”, i Literary Studies in the Digital Age. An Evolving Anthology, § 2.

[7] Hoover, § 14.

[8] http://voyant-tools.org/

Kommentera

Fyll i dina uppgifter nedan eller klicka på en ikon för att logga in:

WordPress.com Logo

Du kommenterar med ditt WordPress.com-konto. Logga ut /  Ändra )

Google-foto

Du kommenterar med ditt Google-konto. Logga ut /  Ändra )

Twitter-bild

Du kommenterar med ditt Twitter-konto. Logga ut /  Ändra )

Facebook-foto

Du kommenterar med ditt Facebook-konto. Logga ut /  Ändra )

Ansluter till %s