Hoe analyseer je de thematische focus van auteurs met behulp van tekstfrequentie en TF-IDF

Het proces om de resultaten van tekstuele gegevens te visualiseren, zoals getoond in Fig. 5.7, zou inmiddels bekend moeten zijn. Alles wat we hoeven te doen is een telling maken van de auteur, het woord en de positie. We gaan ook facet_wrap() gebruiken op de auteur om de visualisatie te vergemakkelijken en schalen="free" in te stellen om het mogelijk te maken dat beide assen kunnen variëren voor onze gegevens:

r
# Verkrijg de top 15 meest voorkomende zelfstandige naamwoorden per auteur en maak een gefacetteerde kolomgrafiek
books_pos |>  
  filter(pos=="Noun") |>  
  count(author, word, pos, sort=TRUE) |>  
  group_by(author) |>  
  top_n(15) |>  
  ggplot(aes(x=reorder(word,n), y=n)) + 
  geom_col() + 
  coord_flip() + 
  facet_wrap(~author, scales="free")

We zien dat alle drie de auteurs bepaalde gemeenschappelijke termen delen, wat duidt op thematische overlappingen in hun werk. Woorden zoals “leven” en “man” komen vaak voor in de teksten. Deze gedeelde zelfstandige naamwoorden suggereren dat, ondanks hun verschillende vertelstijlen en periodes van schrijven, Shelley, Fitzgerald en Gilman zich allemaal bezighouden met fundamentele menselijke ervaringen en sociale constructies, zij het vanuit verschillende invalshoeken en contexten.

Bijvoorbeeld, in het werk van Charlotte Perkins Gilman komt “kinderen” naar voren als een veelvoorkomend zelfstandig naamwoord, wat haar focus op huishoudelijke en familiale thema’s benadrukt, evenals de maatschappelijke rollen van vrouwen en moederschap. Dit sluit aan bij haar bekende verkenning van genderdynamiek en kritieken op de huiselijke sfeer, zoals te zien in werken als “The Yellow Wallpaper”. Het is belangrijk op te merken dat deze zelfstandige naamwoorden simpelweg de meest voorkomende zijn. Ze geven ons geen inzicht in hoe deze woorden in contexten functioneren, omdat we gebruik maken van een “bag-of-words” benadering.

Een manier om dit aan te pakken is door te onderzoeken welke woorden uniek zijn voor elke auteur, evenals te bepalen wanneer bepaalde woorden samen worden gebruikt.

TF-IDF en Pairwise Counts

Het tellen van woorden in een dataset is een veelgebruikte eerste stap in tekstuele analyse die een eerste inzicht kan bieden in de meest frequent gebruikte termen in de gegeven documenten. Terwijl deze aanpak een algemeen overzicht van de tekst biedt, onthult het vaak een aanzienlijke overlap tussen verschillende subsets van de gegevens—zoals de titels of auteurs in ons huidige project. Om dit probleem aan te pakken, is het noodzakelijk verder te gaan dan alleen woordfrequenties en de relatieve belangrijkheid van woorden binnen elke corpus te onderzoeken.

Een term kan frequent voorkomen in alle werken, maar zou niet bijzonder illustratief kunnen zijn voor een specifiek werk. Bijvoorbeeld, het woord “liefde” is waarschijnlijk een veelvoorkomend woord voor alle auteurs, maar het zou beter zijn om termen te ontdekken die disproportioneel aanwezig zijn bij één auteur in vergelijking met anderen, wat wellicht een uniek kenmerk of aspect van die auteur’s schrijven aanduidt.

Om dit detail uit onze dataset te distilleren, passen we de termfrequentie-inverse documentfrequentie (TF-IDF) analyse toe (Sparck Jones 1972; Robertson 2004). Dit vereist vier stappen. Eerst moeten we onze tekst in verschillende groepen verdelen. We zouden de tekst bijvoorbeeld kunnen verdelen op auteur of werk. Ten tweede, nadat we de tekst in groepen hebben verdeeld, berekenen we de termfrequentie. Dit is simpelweg de telling voor elk woord in elke groep die we al hebben gezien. Ten derde berekenen we de inverse documentfrequentie. Dit is een wiskundige berekening die een “straf” geeft aan woorden die vaak voorkomen in veel of alle subgroepen. De vierde stap is de vermenigvuldiging van deze twee cijfers—de termfrequentie en de inverse documentfrequentie—om de tf-idf waarde voor elk woord in elke groep te verkrijgen. Deze samengestelde metric vat zowel de lokale betekenis van een term binnen zijn subgroep als zijn belang wanneer deze binnen de bredere context van de gehele corpus wordt bekeken.

r
# Bereken de termfrequentie-inverse documentfrequentie voor elk woord in de dataset
books_tfidf <- books_tokens |>  
  count(author, word) |>  
  bind_tf_idf(word, author, n)

Na het uitvoeren van deze functie zullen we zien dat onze gegevens de termfrequentie, inverse documentfrequentie en tf-idf-waarden bevatten. De meeste waarden zijn niet bijzonder hoog. Daarom rangschikken we ze in aflopende volgorde voordat we ze grafisch weergeven en alleen de top tien woorden per auteur visualiseren, zoals te zien in Fig. 5.8:

r
# Maak een gefacetteerde kolomgrafiek van de top tien woorden per auteur op basis van tf-idf
books_tfidf |>  
  group_by(author) |>  
  arrange(desc(tf_idf)) |>  
  top_n(10) |>  
  ggplot(aes(x=reorder(word, n), y=n)) +  
  geom_col() +  
  coord_flip() +  
  facet_wrap(~author, scales="free")

We zien nu dat de meeste woorden in de top tien op basis van tf-idf de namen van personages zijn. De frequentie van deze namen binnen een enkel werk (hoge termfrequentie) gecombineerd met hun zeldzaamheid in andere werken van verschillende auteurs (lage documentfrequentie) resulteert in een hoge tf-idf score. Het is dus niet verrassend dat personages vaak uniek zijn voor elke auteur en hun werk.

Naast de tf-idf kunnen we ook geïnteresseerd zijn in welke woorden vaak samen verschijnen binnen een bepaalde groep teksten. Stel bijvoorbeeld dat we willen weten welke woorden waarschijnlijk samen voorkomen in het werk van F. Scott Fitzgerald.

r
# Gebruik de pairwise_count functie om woorden te vinden die samen voorkomen
library(widyr)
pairwise_count(books_tokens, word, author)

Door deze benadering kunnen we de woorden ontdekken die de kern vormen van een auteur's unieke thematische focus en hun stijl. Dit biedt diepere inzichten in hoe specifieke woorden en concepten samenwerken in de teksten van verschillende auteurs.

Het is belangrijk om te begrijpen dat, hoewel deze benaderingen krachtige hulpmiddelen zijn voor het analyseren van grote hoeveelheden tekst, ze slechts een deel van het geheel bieden. Het gebruik van tf-idf en pairwise counts helpt om de meest onderscheidende kenmerken van een auteur's werk te identificeren, maar het is altijd noodzakelijk om deze kwantitatieve benaderingen te combineren met kwalitatieve interpretatie. Bovendien zou het inzicht in de context waarin woorden worden gebruikt en de onderliggende structurele elementen van de tekst een completer begrip van het werk mogelijk maken.

Hoe Onderwerpmodellen de Thematische Structuur van Teksten Onthullen

In de wereld van tekstanalyse biedt onderwerpmodellering een krachtig hulpmiddel om de verborgen thema's binnen een grote hoeveelheid tekst te ontdekken. Dit proces helpt ons niet alleen om te begrijpen welke woorden samenhangen, maar ook om de onderliggende structuur van de tekst te ontrafelen, zelfs wanneer de tekst zelf op het eerste gezicht onsamenhangend lijkt. Het gebruik van modellen zoals Latent Dirichlet Allocation (LDA) maakt het mogelijk om automatisch thema’s te identificeren en de samenstelling van tekstbestanden te analyseren zonder dat er handmatig door elke afzonderlijke zin of paragraaf gegaan hoeft te worden.

Het LDA-model werkt door elk document in een corpus van teksten te analyseren en het toe te wijzen aan een set van thema’s die zich onderscheiden op basis van de frequentie en de context van woorden. Deze thema’s zijn geen eenvoudige samenvattingen van inhoud, maar representaties van de diepere, terugkerende concepten die door de hele tekst heen zichtbaar zijn. Het resultaat is een “beta-matrix”, waarin wordt aangegeven hoe sterk elk woord bijdraagt aan een specifiek thema. De woorden met de hoogste 'beta' waarden voor elk onderwerp kunnen worden beschouwd als de sleutelwoorden van dat thema, omdat ze de meest representatieve of frequente woorden zijn binnen dat specifieke cluster.

Bijvoorbeeld, voor een onderwerp dat betrekking heeft op het gezinsleven, zouden woorden zoals "huis", "moeder", "liefde" en "kind" de hoogste beta-waarden kunnen hebben, wat de centrale thematiek van het onderwerp versterkt. Door de woorden in aflopende volgorde van 'beta' te rangschikken, kan men de dominante termen voor elk onderwerp eenvoudig visualiseren en begrijpen. Deze methode biedt een gestructureerde manier om de centrale thema’s binnen een verzameling teksten te ontdekken en te onderzoeken.

Nadat we de beta-matrix hebben geanalyseerd, kunnen we de 'gamma'-matrix gebruiken om de rol van verschillende thema's binnen individuele documenten te onderzoeken. De gamma-waarden bieden inzicht in hoe de onderwerpen zich verdelen over de verschillende documenten. Elk document heeft een bepaalde verdeling van de thema's die het bevat, wat ons in staat stelt om te zien hoeveel een bepaald onderwerp aanwezig is in een specifiek werk. Zo zou het werk van een auteur zoals F. Scott Fitzgerald bijvoorbeeld een grotere vertegenwoordiging van thema’s rondom liefde en relaties (onderwerp 1) kunnen bevatten, terwijl de werken van Charlotte Perkins Gilman meer gericht zijn op gezinsstructuren en sociaal welzijn (onderwerp 4). Door de gamma-waarden van elk document te bekijken, kunnen we de thematische samenstelling van de werken van verschillende auteurs visualiseren en begrijpen.

De waarde van onderwerpmodellering ligt dus in het feit dat we de thematische structuur van een tekst kunnen begrijpen zonder dat we elk document volledig moeten lezen. In plaats van simpelweg te kijken naar de oppervlakte-inhoud van de tekst, kunnen we deze dieper onderzoeken om te ontdekken welke thema's de auteur met zijn of haar woorden probeert over te brengen. Het gebruik van LDA helpt om de omvangrijke hoeveelheid informatie die binnen een groot aantal documenten ligt, te reduceren tot enkele kernonderwerpen die de inhoud vertegenwoordigen. Dit maakt het makkelijker om verbanden te leggen, trends te analyseren en culturele patronen te identificeren.

Bij het werken met deze geavanceerde technieken is het belangrijk om de context van de data goed te begrijpen. Hoewel het model ons in staat stelt om een objectieve weergave van de thematische inhoud te verkrijgen, is het belangrijk om in gedachten te houden dat dit een abstracte representatie is. De resultaten kunnen ons waardevolle inzichten geven, maar ze moeten altijd in de juiste culturele, historische en literaire context worden geïnterpreteerd. Zo kan het zijn dat bepaalde woorden die sterk bijdragen aan een specifiek onderwerp niet altijd dezelfde betekenis hebben in verschillende culturele of historische periodes. Dit vraagt om een zorgvuldige interpretatie van de resultaten, waarbij we ons niet alleen richten op de frequentie van woorden, maar ook op de bredere betekenissen die ze binnen de tekst of het werk dragen.

Wat verder belangrijk is om te begrijpen, is dat tekstanalyse en onderwerpmodellering geen vervangingen zijn voor traditionele, diepgaande literaire analyse. Ze zijn eerder hulpmiddelen die onderzoekers kunnen helpen om sneller en effectiever door grote hoeveelheden tekst te navigeren. Ze kunnen inzichten bieden die een meer holistische benadering van de tekst mogelijk maken, maar moeten altijd in combinatie met andere interpretatieve methoden worden gebruikt. De kracht van deze technologieën ligt in het versnellen van het onderzoeksproces en het verlichten van de cognitieve belasting die gepaard gaat met het handmatig lezen en analyseren van uitgebreide tekstverzamelingen.

Kaksiulotteinen padon murtuminen kuivalla pohjalla: Simulaation ja mallinnuksen perusteet
Miten opettaa koiralle ovinavauksia ja muita käytännön temppuja
Voivatko koneet ajatella? Turingin kysymyksestä kohti superälyä