In de snelgroeiende wereld van cultuuranalyse is het noodzakelijk geworden om robuuste methoden te ontwikkelen voor het analyseren van grote hoeveelheden tekstuele data. Aangezien tekst een fundamenteel menselijke uitdrukking is, maar computers zelf geen 'begrip' van taal hebben, wordt het omzetten van tekst naar kwantitatieve data een essentieel proces. Dit proces stelt ons in staat om tekst om te zetten in een formaat dat machines kunnen verwerken, en speelt een cruciale rol bij het onthullen van culturele en linguïstische patronen. De vraag is echter: hoe kunnen we ongestructureerde tekst omzetten in een gestructureerde, machineverwerkbare vorm?
David Robinson en Julia Silge presenteren een gestructureerde benadering van tekstanalyse, de zogenaamde 'tidy text'-methode. Deze methode maakt gebruik van een schoon en gestandaardiseerd formaat, waarbij elke rij in een tabel één 'token' (een betekenisvolle eenheid van tekst zoals een woord, een zin of zelfs een emoji) bevat. Het gebruik van deze 'tidy' structuur maakt het mogelijk om met een breed scala aan analysemethoden en transformaties te werken, zoals we al hebben gezien met de 'tidyverse' in R. Dit vereenvoudigt niet alleen de tekstverwerking, maar maakt het ook eenvoudiger om geavanceerdere gestandaardiseerde formaten toe te passen, zoals het text interchange format (T. Arnold et al. 2023).
Deze benadering van tekstanalyse bouwt voort op het 'bag-of-words'-model, waarbij elk woord wordt gezien als een onafhankelijk element. Hoewel andere technieken, zoals vectormodellen en neurale netwerken, in andere gebieden populair zijn geworden, blijft het 'bag-of-words'-model in cultuuranalyse vaak de voorkeur hebben. In dit model ligt de focus vooral op de frequentie of aanwezigheid van tokens. Na het extraheren van deze ruwe tokens kunnen onderzoekers verschillende transformaties uitvoeren, afhankelijk van de specifieke onderzoeksvraag.
Voor onderzoekers uit de geesteswetenschappen of sociale wetenschappen kan het gebruik van het 'bag-of-words'-model een onverwachte wending nemen, aangezien het grammaticale structuur van de tekst wordt genegeerd. Bijvoorbeeld, de zin "de hond rende naar buiten" heeft een duidelijke subject-werkwoord-objectvolgorde, maar wanneer deze tekst wordt omgezet naar een lijst van woorden, wordt die structuur volledig gewist. Toch heeft onderzoek in cultuuranalyse aangetoond dat zelfs door tekst tot de eenvoudigste componenten te reduceren, nog steeds belangrijke inzichten kunnen worden verkregen over het gebruik van taal (Underwood 2019).
Een nuttige analogie om deze benadering te begrijpen is het bordspel Scrabble. Stel je voor dat elk tegel niet slechts een enkele letter bevat, maar woorden die elk een fragment van een groter verhaal vertegenwoordigen. In dit geval wordt de 'zak' van tegels een container voor de complexiteit en diversiteit van taal. Wanneer we een tegel trekken, brengen we niet alleen een woord in beeld, maar onthullen we ook het overkoepelende verhaal dat met elk woord wordt verteld. Elk van deze tegels vertegenwoordigt een essentieel bouwblok van de tekst. En net als bij Scrabble kunnen we verschillende soorten tegels gebruiken: sommige kunnen bigrammen zijn (woordparen die vaak samen voorkomen, zoals "New York" of "klimaatverandering"), terwijl andere hele zinnen kunnen zijn. Door deze benadering van tokenisatie kunnen we de nuances van een tekst beter begrijpen, en zelfs onderwerpen als zinsstructuren en stilistische keuzes analyseren.
In de praktijk wordt de 'tidy text'-methode ondersteund door het gelijknamige R-pakket, ontwikkeld door Silge en Robinson (Queiroz et al. 2023). Het 'tidytext'-pakket biedt een robuuste raamwerk voor het werken met tekstuele data op een gestructureerde en efficiënte manier. Het stelt gebruikers in staat om ongestructureerde tekst om te zetten in een formaat waarin elke rij een enkel woord of token vertegenwoordigt, wat de analyse vergemakkelijkt. In deze benadering kunnen we bijvoorbeeld literaire werken van auteurs als Charlotte Perkins Gilman, F. Scott Fitzgerald en Mary Shelley analyseren. Deze werken zijn beschikbaar op Project Gutenberg en bieden rijke mogelijkheden voor zowel kwalitatieve als kwantitatieve analyse.
Wat verder van belang is om te begrijpen, is dat de 'tidy text'-benadering niet alleen gaat om het technisch omzetten van tekst naar een machine-verwerkbare vorm. Het biedt ons ook de mogelijkheid om diepere inzichten te krijgen in de culturele, sociale en linguïstische patronen die tekstuele data met zich meebrengt. Het stelt ons in staat om verbanden en trends in teksten te ontdekken die anders moeilijk te zien zouden zijn, vooral wanneer we werken met grote hoeveelheden tekst. Dit proces maakt het mogelijk om verbanden tussen woorden, zinnen en zelfs grotere thema's te vinden die belangrijk zijn voor het begrijpen van culturele verschijnselen.
Bijvoorbeeld, door sentimentanalyse toe te passen op een corpus van tekst, kunnen we bepalen of de algemene toon van een werk positief, negatief of neutraal is. Dit is bijzonder nuttig bij het analyseren van literaire teksten, waar de emotionele lading van een verhaal een cruciale rol speelt. Term frequentie-inverse document frequentie (TF-IDF) is een andere techniek die ons helpt bij het identificeren van de belangrijkste woorden binnen een corpus door rekening te houden met hoe vaak een woord voorkomt, maar ook met hoe vaak het voorkomt in andere documenten.
Het belangrijkste om te onthouden bij het werken met tekst in een 'tidy text'-structuur, is dat we de onderliggende culturele en linguïstische betekenissen kunnen ontsluiten door middel van data-analyse. Het is niet slechts een technische handeling, maar een manier om betekenisvolle inzichten te verkrijgen uit enorme hoeveelheden tekst. Door gebruik te maken van methoden zoals topic modeling, bijvoorbeeld Latent Dirichlet Allocation (LDA), kunnen we zelfs de thematische structuren binnen een tekst ontdekken, die ons verder helpen in het begrijpen van de bredere culturele context van een werk.
Hoe culturele analyse verandert in het digitale tijdperk: De opkomst van Cultural Analytics en de rol van R-programmering
In de afgelopen vijftien jaar is er veel veranderd in hoe we cultuur bestuderen en analyseren. De opkomst van digitale bronnen heeft geleid tot een overvloed aan informatie, waardoor nieuwe analysemethoden noodzakelijk werden. Voor de humanities, en met name de geschiedschrijving, betekende de digitalisering van bronnen zowel een verrijking van onderzoeksmateriaal als een uitdaging voor de bestaande onderzoeksmethoden. Vroeger waren onderzoekers gebonden aan fysieke bronnen, maar nu kunnen ze massale hoeveelheden gegevens doorzoeken om patronen en inzichten te ontdekken die voorheen onzichtbaar waren. Historicus Roy Rosenzweig benadrukte al in 2003 dat we in een "cultuur van overvloed" terechtkwamen, waarbij de traditionele methoden van "rondlezen" niet meer haalbaar waren. De uitdaging was niet alleen om toegang te krijgen tot grote hoeveelheden gegevens, maar ook om te begrijpen welke gegevens belangrijk waren in deze enorme massa.
Cultural analytics biedt een oplossing voor deze problematiek. Het concept werd geïntroduceerd door Lev Manovich, die het omschreef als de analyse van massale culturele datasets met behulp van computationele technieken en visualisatie. Het idee is dat we niet langer alleen afhankelijk zijn van kwalitatieve benaderingen van cultuurstudies, zoals close reading van teksten, maar dat we digitale tools kunnen gebruiken om grote hoeveelheden gegevens te analyseren en nieuwe patronen te ontdekken. Het combineren van kwantitatieve en kwalitatieve methoden is een belangrijk kenmerk van cultural analytics, wat het onderscheidt van andere benaderingen binnen de digitale humanities of de computationele sociale wetenschappen.
Het gebruik van R-programmering, met zijn uitgebreide ecosysteem van pakketten zoals het "tidyverse", biedt humanities-onderzoekers krachtige hulpmiddelen om deze enorme hoeveelheden gegevens te manipuleren en te analyseren. Het concept van "tidy data", waarbij gegevens op een gestructureerde manier worden gepresenteerd, is essentieel voor efficiënt databeheer. Dit maakt het mogelijk om culturele datasets beter te begrijpen en de data op een manier te visualiseren die nieuwe inzichten oplevert. Het is een methode die niet alleen gericht is op het begrijpen van historische gegevens, maar ook op het analyseren van hedendaagse culturele fenomenen, zoals gebruikersgegenereerde inhoud op sociale media. De mogelijkheid om de gegevens van bijvoorbeeld een platform als YouTube te analyseren, stelt onderzoekers in staat om grassroots-culturele bewegingen te begrijpen op een manier die voorheen ondenkbaar was.
Naast de kracht van de technologische tools zelf, vraagt deze benadering om een verschuiving in de manier waarop we onderzoek benaderen. Humanities-onderzoekers moeten zich niet alleen vertrouwd maken met digitale methoden, maar ook met programmeertalen en technieken die hen in staat stellen om grotere datasets te begrijpen. Dit brengt nieuwe vragen met zich mee: Hoe integreren we kwantitatieve gegevens in kwalitatieve analyse? Welke ethische overwegingen spelen een rol wanneer we data van sociale media analyseren? Wat betekent het om culturele data te visualiseren, en hoe communiceren we die visualisaties op een betekenisvolle manier?
Er ligt een enorme potentie in de mogelijkheden die cultural analytics biedt. Het stelt ons in staat om grote hoeveelheden culturele gegevens te interpreteren en biedt inzichten die niet alleen van belang zijn voor wetenschappers in de digitale humanities, maar ook voor diegenen die geïnteresseerd zijn in de impact van datawetenschap op bredere maatschappelijke fenomenen.
Voor onderzoekers in de humanities is het essentieel niet alleen vertrouwd te raken met de technologie, maar ook te begrijpen dat de integratie van kwantitatieve en kwalitatieve methoden geen afwisseling van de ene techniek voor de andere is. Het biedt in plaats daarvan een mogelijkheid voor verdieping, waarbij bredere culturele trends en individuele, gedetailleerde casussen hand in hand gaan. Door de kracht van computationele technieken zoals machine learning en netwerkanalyse kunnen onderzoekers nieuwe patronen ontdekken die anders misschien onopgemerkt zouden blijven. Het stelt hen in staat om zowel grote culturele bewegingen te begrijpen als de specifieke nuances die elke beweging mogelijk maken.
Daarnaast vraagt het digitale tijdperk om een herziening van de manier waarop we data interpreteren. Terwijl traditionele benaderingen van cultuur vaak focussen op individuen en hun unieke bijdragen, maakt cultural analytics het mogelijk om grotere collectieve fenomenen te bestuderen. In dit proces wordt de taak van de onderzoeker niet louter het analyseren van individuele artefacten, maar het ontdekken van de onderliggende structuren en patronen die deze artefacten met elkaar verbinden.
Voor de hedendaagse onderzoeker ligt de uitdaging niet alleen in het leren van nieuwe softwaretools en programmeertalen, maar ook in het ontwikkelen van een interdisciplinair perspectief. Cultural analytics vereist een nauwe samenwerking tussen de wetenschappen, de sociale wetenschappen en de geesteswetenschappen. De kracht van deze benadering ligt in de verwevenheid van verschillende onderzoeksvelden, waarbij inzichten uit elk van deze gebieden worden gebruikt om culturele data te begrijpen.

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский