Het toepassen van digitale methoden in de geesteswetenschappen kan het werkproces aanzienlijk verbeteren. Niet alleen maakt het het gemakkelijker om gegevens te begrijpen en te manipuleren, maar het zorgt ook voor consistentie gedurende het hele onderzoeksproces. Dit betekent minder fouten tijdens de analyse en een meer rechtlijnige benadering van gegevensvisualisatie en interpretatie. Een belangrijk concept binnen dit kader is "tidy data", dat de basis vormt voor een reeks softwarepakketten, gezamenlijk bekend als de "tidyverse". Deze pakketten bieden wetenschappers in de culturele analyse de mogelijkheid om gegevens efficiënt te reinigen, te organiseren en te transformeren volgens de principes van tidy data (Wickham et al. 2019). Het belangrijkste voordeel van de tidyverse is de intuïtieve en gebruiksvriendelijke aard van de commando's, die dichter bij de natuurlijke taal staan. Dit is vooral nuttig voor onderzoekers die geen sterke achtergrond in programmeren hebben.

De mogelijkheid om met verschillende soorten gegevens te werken zonder een verscheidenheid aan systeem-specifieke commando’s te moeten leren, maakt de tidyverse bijzonder waardevol. Deze interoperabiliteit is cruciaal voor projecten die de traditionele grenzen van wetenschappelijke disciplines overschrijden en vragen om een flexibele uitwisseling van methodologieën. De overgang van traditionele, kwalitatieve benaderingen naar kwantitatieve methoden kan echter voor veel onderzoekers een uitdaging vormen. Geesteswetenschappers zijn vaak minder vertrouwd met kwantitatieve methoden en programmeren, wat het integreren van digitale technieken bemoeilijkt. De perceptie dat “data” iets vreemd en te empirisch is, kan als een belemmering werken. Dit idee dat kwantitatieve benaderingen altijd een vorm van wetenschap zijn, staat vaak in contrast met de benaderingen van de geesteswetenschappen, die traditioneel gekarakteriseerd worden door kwalitatieve analyse en interpretatie van culturele en historische fenomenen.

Desondanks is het in de hedendaagse academische wereld steeds belangrijker geworden om digitale en kwantitatieve technieken in de geesteswetenschappen te omarmen. Dit boek is bedoeld voor diegenen die al geïnteresseerd zijn in het onderzoeken van de mogelijkheden die digitale methoden bieden voor hun eigen onderzoek. Het is niet bedoeld als een theoretische verhandeling over de voor- of nadelen van het gebruik van kwantitatieve methoden in de geesteswetenschappen, maar biedt in plaats daarvan een praktische gids die gericht is op het gebruik van digitale tools, zelfs voor degenen zonder diepgaande kennis van datawetenschappen of programmeren.

Hoewel het boek geen veronderstellingen maakt over kennis van programmeertalen of data-analyse, wordt ervan uitgegaan dat de lezer bereid is om de basiselementen van R, een veelgebruikte programmeertaal voor data-analyse, te leren. Het boek biedt duidelijke uitleg en stelt dat enige voorkennis van programmeren helemaal niet nodig is. Zelfs voor lezers die eerder andere programmeertalen hebben geleerd, kan R initieel onwennig aanvoelen, vanwege de unieke syntaxis. Door de uitleg te baseren op voorbeelden die relevant zijn voor de geesteswetenschappen, wordt de lezer geholpen de principes achter de technieken direct toe te passen op hun eigen onderzoeksdomeinen. Dit maakt de overstap naar digitale methoden minder ontmoedigend en bevordert een meer intuïtief begrip.

Belangrijk is dat dit boek de lezer niet alleen uitrust met technische kennis, maar ook met praktische handvatten om R effectief in te zetten voor hun onderzoeksdoelen. Van het downloaden van datasets tot het uitvoeren van analyses, alles wordt stap voor stap uitgelegd. Het is geen doel op zich om diep in specifieke onderzoeksvraagstukken te duiken, maar eerder om de lezer een solide basis te bieden in de mogelijkheden van R, die vervolgens verder kan worden opgebouwd en toegepast op persoonlijke onderzoeksprojecten. Datasets die in het boek worden gebruikt, zijn beschikbaar via een online GitHub-repository, wat de toegankelijkheid van de benodigde gegevens vergroot.

Door een brug te slaan tussen traditionele kwalitatieve benaderingen en digitale kwantitatieve tools, biedt dit boek een fundamenteel begrip voor geesteswetenschappers die zich willen verdiepen in data-analyse. De focus ligt op de praktische toepassing van digitale methoden zonder de complexiteit van theoretische discussies, wat het voor elke nieuwsgierige onderzoeker mogelijk maakt om hun eigen werk te verrijken en uit te breiden met behulp van digitale technieken.

Naast de verworven kennis over digitale methoden, moeten lezers zich ook bewust zijn van de grotere context waarin deze technieken zich bevinden. Het is essentieel om te begrijpen dat data-analyse binnen de geesteswetenschappen altijd zal moeten plaatsvinden in het kader van de vragen en doelstellingen die de geesteswetenschappen aandrijven. Digitale methoden kunnen de onderzoeksprocessen versterken, maar ze kunnen nooit de complexe, menselijke dimensie van culturele en historische analyses volledig vervangen. Gegevensanalyse biedt krachtige tools, maar de interpretatie van deze gegevens blijft afhankelijk van de kritische, analytische benadering die eigen is aan de geesteswetenschappen.

Hoe beslisbomen de resultaten voorspellen en het model verbeteren

Beslisbomen zijn krachtige modellen die veel worden gebruikt in machine learning, vooral voor classificatie- en regressietaken. In dit hoofdstuk bespreken we hoe we een beslisboommodel opzetten en toepassen met behulp van de parsnip-pakket in R, specifiek gericht op het voorspellen van continue uitkomsten, zoals de "space ratio per page" in de context van kunstenaars. We zullen de verschillende onderdelen van het proces doorlopen, van het instellen van de modelconfiguratie tot het interpreteren van de resultaten en het verbeteren van het model.

De keuze van de juiste engine is essentieel voor het functioneren van een beslisboom. In R zijn er verschillende engines beschikbaar voor zowel classificatie als regressie, zoals "rpart" en "C5.0", die de structuur en opzet van het model bepalen. De engine "rpart" is een van de bekendste en meest gevestigde keuzes voor beslisbomen. Om het model te bouwen, gebruiken we de functie set_engine() om de gewenste engine te selecteren. In dit geval stellen we in de modelconfiguratie de engine in op "rpart" en de modus op "regressie", omdat we werken met een continue uitkomst.

Een model voor beslisbomen kan eenvoudig worden opgezet in het parsnip-pakket. We creëren een modelobject en passen de configuratie aan door de engine en de modus te specificeren. De fit() functie wordt vervolgens gebruikt om het model te trainen op de gegevens. Dit is een belangrijke stap, want het model leert patronen en relaties in de gegevens die het vervolgens kan gebruiken voor voorspellingen. In ons geval gebruiken we de variabele "artist_gender" om de ruimteverhouding per pagina te voorspellen, een interessante toepassing in het culturele veld.

Nadat het model is getraind, kunnen we de resultaten bekijken. Het standaard uitvoer biedt een overzicht van de splitsingen in de boom, de bijbehorende gegevens en de devariantie voor elk knooppunt. Deze informatie is nuttig, maar het is vaak moeilijk om de echte betekenis van de boom te begrijpen zonder visualisatie. Het rpart.plot-pakket biedt een uitstekende manier om een visuele weergave van de beslisboom te maken. Echter, aangezien dit pakket niet rechtstreeks compatibel is met "tidymodels", moeten we de functie extract_fit_engine() gebruiken om het onderliggende modelobject te extraheren. Zodra het model is geëxtraheerd, kunnen we de boom eenvoudig visualiseren met behulp van de rpart.plot() functie.

De eenvoud van de resulterende boom, met slechts één voorspeller ("artist_gender"), suggereert dat er ruimte is voor verbetering. Hoewel de initiële visualisatie nuttig is, zou het toevoegen van extra voorspellende variabelen, zoals "artist_race", "artist_ethnicity", of "year", het model kunnen verrijken en een meer gedetailleerd inzicht geven in de factoren die de ruimteverhouding per pagina beïnvloeden. Het model kan verder worden geoptimaliseerd door hyperparameters te verfijnen om overfitting te voorkomen. Overfitting treedt op wanneer het model te sterk wordt afgestemd op de trainingsgegevens en daardoor minder goed generaliseert naar nieuwe gegevens.

Na het trainen van het model willen we testen hoe goed het werkt op nieuwe, onzichtbare gegevens, de zogenaamde testset. Dit is een cruciale stap in het evalueren van de voorspellende kracht van het model. De augment() functie speelt hierbij een belangrijke rol. Deze functie past het getrainde model toe op de testgegevens en voegt twee nieuwe kolommen toe: de voorspelde waarden (.pred) en de residuen (.resid), die aangeven hoe goed het model de werkelijke waarden voorspelt.

Bij het bekijken van de voorspellingen is het belangrijk om de resultaten te vergelijken met de werkelijke waarden van de testset. Dit stelt ons in staat om de nauwkeurigheid van het model te beoordelen en te zien in hoeverre het de echte gegevens goed kan voorspellen. In ons geval kunnen we de voorspellingen van de "space ratio per page" vergelijken met de werkelijke waarden om de effectiviteit van het model te begrijpen.

Het is ook nuttig om naar de residuen te kijken, omdat deze ons vertellen hoeveel de voorspellingen afwijken van de werkelijke waarden. Grotere residuen kunnen erop wijzen dat het model in bepaalde gevallen slecht presteert, wat kan leiden tot nieuwe inzichten over welke aspecten van de data verder moeten worden onderzocht. De residuen kunnen ook helpen bij het identificeren van onderliggende patronen die niet door het model worden verklaard.

Een belangrijk aspect van het gebruik van beslisbomen is dat ze gemakkelijk te interpreteren zijn, vooral als we de visuele weergave van de boom gebruiken. Dit maakt ze een uitstekende keuze voor toepassingen waarbij transparantie van het model belangrijk is. Tegelijkertijd moeten we ervoor zorgen dat we niet te veel vertrouwen op een te eenvoudige boom, vooral wanneer we werken met complexe of grotere datasets. De kracht van het model kan toenemen door meer variabelen op te nemen, hyperparameters aan te passen en andere machine learning technieken te verkennen, zoals het gebruik van ensemblemethoden.

Naast het verbeteren van het model is het ook cruciaal om een robuuste evaluatie van de prestaties van het model te doen, zowel op de trainings- als de testset. Dit zorgt ervoor dat we niet alleen goed presteren op de trainingsdata, maar ook in staat zijn om nauwkeurige voorspellingen te doen voor nieuwe, onbekende data.