De geschiedenis van de Amerikaanse filmindustrie is niet alleen een verhaal van entertainment, maar ook van culturele en economische transformatie. De manier waarop films werden geproduceerd, geconsumeerd en beoordeeld, weerspiegelt de bredere maatschappelijke veranderingen in de Verenigde Staten, zoals de technologische vooruitgangen, de groei van de bevolking en de evolutie van de economie. Deze elementen zijn niet slechts randvoorwaarden voor de filmindustrie, maar spelen een cruciale rol in de ontwikkeling van het Amerikaanse filmlandschap en de manier waarop films wereldwijd worden waargenomen.
In de loop van de 20e eeuw ondergingen de Verenigde Staten enorme economische veranderingen. De industriële revolutie van het begin van de eeuw maakte plaats voor een periode van snelle economische expansie, die de filmindustrie in staat stelde zich te ontwikkelen tot de mondiale kracht die het vandaag is. Het toenemende aantal stedelijke bevolkingen en de opkomst van de middenklasse zorgden voor een breed publiek voor filmvermaak. Dit veranderde de manier waarop films werden gemaakt en gepresenteerd, en beïnvloedde ook het soort verhalen dat werd verteld. Films begonnen zich meer te richten op de massa, met een focus op thema’s die de bredere publieke ervaringen reflecteerden, zoals sociaal onrecht, de rol van de familie en de Amerikaanse droom.
Naast deze economische veranderingen beïnvloedden technologische innovaties, zoals de opkomst van kleurfilm, geluid en later digitale technieken, de productie van films aanzienlijk. Deze technologieën gaven filmmakers nieuwe creatieve mogelijkheden en transformeerden de esthetische en narratieve structuren van films. Tegelijkertijd veranderde ook de manier waarop films werden geconsumeerd. De komst van televisie en later de opkomst van thuisvideomarkten veranderden de filmvertoning, waardoor films niet alleen in bioscopen werden bekeken, maar ook toegankelijker werden voor het brede publiek in de huiskamer.
Het is belangrijk te erkennen dat de groei van de filmindustrie nauw verbonden was met de politieke en sociale context van de tijd. De filmindustrie weerspiegelde vaak de bredere culturele dynamieken van de samenleving, zoals de strijd voor burgerrechten in de jaren 1960 of de invloed van de Koude Oorlog op de thema's van spionage en propaganda. Dit gaf de filmindustrie een dubbele rol: enerzijds als een bron van vermaak, anderzijds als een krachtig medium voor sociale en politieke commentaren.
De beoordeling van films door het publiek, vaak gemeten aan de hand van beoordelingen op platforms zoals MovieLens, biedt inzicht in de voorkeuren van het publiek en hoe die in de loop van de tijd zijn veranderd. Deze beoordelingen zijn een weerspiegeling van niet alleen de esthetische en artistieke voorkeuren van kijkers, maar ook van de veranderende normen en waarden in de samenleving. Het is duidelijk dat films die aansloten bij de heersende sociaal-culturele normen en die thema’s aansneden die belangrijk waren voor de samenleving, beter werden ontvangen. Dit maakt het mogelijk om de invloed van sociaaleconomische veranderingen op de filmindustrie te kwantificeren en beter te begrijpen hoe de film een afspiegeling is van de bredere culturele veranderingen in de VS.
Tegenwoordig kunnen we, door een combinatie van historische gegevens en moderne analysemethoden zoals het gebruik van tools als R en het "tidyverse"-pakket, de ontwikkeling van de Amerikaanse filmindustrie in detail volgen. Het gebruik van geavanceerde methoden voor het verwerken van data, zoals het inlezen van gegevens in tibble-formaten, stelt ons in staat om nauwkeurige analyses uit te voeren van films uit verschillende decennia. Deze aanpak maakt het mogelijk om trends te identificeren en inzicht te krijgen in de evolutie van filmgenres, de veranderende filmproductie en de invloed van technologie op films.
Bijvoorbeeld, door het analyseren van films uit de jaren 1960 tot de jaren 1980, kunnen we niet alleen trends in filmgenres en -beoordelingen identificeren, maar ook de verschuivingen in de culturele normen van de samenleving. Films uit de jaren 1960 weerspiegelden vaak de maatschappelijke veranderingen van die tijd, zoals de burgerrechtenbeweging, terwijl films uit de jaren 1970 en 1980 veelal focusten op de toenemende globalisering en de opkomst van nieuwe vormen van technologie en media.
De keuze voor de juiste data-analysemethoden is cruciaal om betekenisvolle inzichten te verkrijgen. Het gebruik van de juiste softwarepakketten, zoals het "tidyverse", maakt het gemakkelijker om gegevens te manipuleren, te visualiseren en te begrijpen. Daarnaast is het belangrijk om te kunnen omgaan met onvolledige gegevens (zoals ontbrekende waarden), aangezien dit vaak voorkomt in echte datasets. Door gebruik te maken van technieken zoals het identificeren en omgaan met "NA" (Not Available)-waarden, kunnen we ervoor zorgen dat onze analyses betrouwbaar en volledig zijn.
In dit kader is het ook van belang te begrijpen hoe de veranderingen in de Amerikaanse samenleving door de tijd heen werden weerspiegeld in films. De opkomst van de vrouwelijke rol in de filmindustrie, de representatie van minderheden en de verschuivingen in de thema's die in films centraal stonden, zijn onlosmakelijk verbonden met de bredere maatschappelijke verschuivingen. Het begrijpen van de culturele context van films is essentieel voor het begrijpen van de invloed die ze uitoefenen, niet alleen op het Amerikaanse publiek, maar op de wereldwijde culturele perceptie.
Hoe visuele representatie van gegevens evolueerde: van Bertin tot Wickham en "ggplot2"
Bertin benaderde grafieken als een indeling van twee fundamentele elementen: de "planar variables" en de "retinal variables." De eerste categorie richt zich op de coördinaten van de grafiek, terwijl de tweede draait om eigenschappen zoals de vorm en grootte van de symbolen die gegevens representeren. Het belangrijkste idee van Bertin was dat een universeel raamwerk voor grafische weergave van gegevens zou kunnen bestaan, hoewel de specifieke eigenschappen van grafieken die hij selecteerde voor ons doel minder relevant zijn. Wat vooral belangrijk was, was zijn visie dat grafieken niet slechts esthetische voorstellingen zijn, maar een structurele taal voor het communiceren van gegevens.
Echter, de opkomst van statistische computing bracht nieuwe uitdagingen met zich mee voor de toepassing van Bertin’s theorie. Het ideale model dat Bertin voor ogen had, was een papieren vel waarop de statisticus verantwoordelijk was voor het uitvoeren van alle berekeningen. Dit werd steeds moeilijker naarmate geavanceerdere rekenmethoden nodig waren. In reactie hierop begonnen veel onderzoekers nieuwe standaarden te ontwikkelen die beter aansloten bij de opkomende computational environment. Hoewel sommige van deze benaderingen populair werden in vakgebieden met specifieke academische toepassingen, was het pas in 1999, met de publicatie van The Grammar of Graphics door Leland Wilkinson, dat de gemeenschap van computationele statistieken begon samen te komen rond een gemeenschappelijk kader (Wilkinson en Wills 2005).
Wilkinson’s interesse in grafische weergaven ontstond uit zijn werk in psychiatrisch onderzoek. Na het behalen van zijn PhD in psychologie aan Yale in 1975, begon hij als assistent-professor aan de Universiteit van Illinois in Chicago. Daar ontwikkelde hij een statistische software genaamd SYSTAT. Zoals Wilkinson zelf opmerkt, was hij vastbesloten om een software te creëren die "elke statistische grafiek die hij ooit had gezien, kon tekenen" (Wilkinson en Wills 2005, ix). Het was een grote stap voorwaarts in de grafische weergave van gegevens, en de software werd al snel geprezen vanwege het scala aan grafieken dat het kon genereren. Uiteindelijk verkocht hij het project in 1995 aan SPSS.
In The Grammar of Graphics breidde Wilkinson de theoretische basis die SYSTAT ondersteunde verder uit. Hij introduceerde de Graphics Production Language (GPL), een set kernlagen die gemanipuleerd konden worden om een breed scala aan grafieken te creëren. Hij baseerde deze benadering op linguïstische theorieën en wilde begrijpen hoe een grafiek zowel semantisch als syntactisch correct kon zijn. Opmerkelijk was dat dit weinig te maken had met de esthetische kwaliteiten van de grafiek. Zoals hij zelf opmerkt, kunnen de grafieken die zijn systeem produceerde visueel onaantrekkelijk zijn, maar ze hadden altijd het voordeel dat ze betekenis behielden.
Deze theorie bleek bijzonder invloedrijk voor Hadley Wickham, de oprichter van de “tidyverse.” Wickham, die het transformerende potentieel van Wilkinson’s Grammar of Graphics inzag, raakte geïnspireerd om deze theoretische constructen binnen de R-programmeertaal te operationaliseren. Hij beschouwde het boek van Wilkinson als het fundament van grafische representatie en noemde het "het belangrijkste moderne werk in grafische grammatica" (Wickham 2010a). Gedreven door de wens om datavisualisatie zowel toegankelijk als geavanceerd te maken, ontwikkelde Wickham de populaire “ggplot2” package.
Hoewel “ggplot2” sterk geïnspireerd is door Wilkinson’s ideeën, wijkt het op bepaalde punten af van zijn oorspronkelijke formulering. Wickham vat de verschillen als volgt samen: “De grammatica verschilt van die van Wilkinson in de manier waarop de componenten worden gerangschikt, de ontwikkeling van een hiërarchie van standaardinstellingen en het feit dat het is ingebed in een andere programmeertaal” (Wickham 2010b). Het feit dat Wickham de grammatica in R implementeerde, stelde hem in staat gebruik te maken van verschillende ingebouwde functies van de taal voor berekeningen, iets wat Wilkinson niet kon. Dit vereenvoudigde uiteindelijk de grammatica aanzienlijk.
Met behulp van bijdragen van de online gemeenschap is de grammatica van “ggplot2” nu uitgekristalliseerd in verschillende lagen, die elk een specifieke rol spelen in het creëren van bijna alle betekenisvolle plottypes. De belangrijkste lagen zijn: Data, Esthetiek, Geometrieën, Facetten, Statistieken, Coördinaten en Thema's. Aanvankelijk kan de gelaagdheid van dit systeem ontmoedigend lijken voor nieuwe gebruikers. Toch zal, naarmate de gebruiker verdergaat, blijken dat deze complexiteit geen last is, maar juist een krachtige bondgenoot. “ggplot2” is intuïtief ontworpen om autonoom te opereren, waarbij het systeem intelligente standaardinstellingen selecteert wanneer de details van een laag niet expliciet worden aangegeven. Deze automatische intelligentie fungeert als een ervaren co-piloot die waar nodig bijspringt, waardoor de gebruiker de controle behoudt zonder verstrikt te raken in de minutieuze beslissingen van de codering.
Naast het technische aspect is het belangrijk te begrijpen dat de esthetische keuzes die we maken in een grafiek een diepere invloed hebben op de interpretatie van de gegevens. Een grafiek is niet alleen een visuele representatie van data; het is ook een communicatiemiddel dat op verschillende manieren betekenis kan overbrengen. De keuze van kleuren, vormen en opmaak kan bijvoorbeeld de perceptie van de gegevens beïnvloeden, zelfs voordat de inhoud van de grafiek daadwerkelijk wordt geanalyseerd. De ontwikkeling van ggplot2 kan dan ook niet los worden gezien van een bredere trend in datavisualisatie, waarbij de nadruk ligt op zowel de esthetische als de informatieve kracht van grafieken. Het is van cruciaal belang om deze visuele elementen te begrijpen en in te zetten om effectiever te communiceren en diepere inzichten te verkrijgen uit complexe datasets.
Hoe Maak Je Netwerkvisualisaties Effectief Met "ggraph" in R?
Het gebruik van geavanceerde visualisatietools zoals "ggraph" binnen de R-programmeertaal maakt het mogelijk om complexe netwerken op een inzichtelijke en gestructureerde manier te presenteren. Dit stelt onderzoekers in staat om relaties tussen entiteiten visueel te verkennen, wat bijdraagt aan het begrijpen van onderliggende patronen die anders moeilijk te herkennen zouden zijn.
Een belangrijk uitgangspunt bij het werken met "ggraph" is de juiste toepassing van esthetische mappingen. Dit betekent dat je voor elke knoop (node) en rand (edge) specifieke eigenschappen kunt toewijzen die relevant zijn voor je gegevens. Bijvoorbeeld, je kunt de kleur van elke knoop aanpassen op basis van een categorie-attribuut in je node-tibble, of de breedte van de rand laten variëren afhankelijk van een gewichtattribuut in de edge-tibble. Hierdoor krijgt de visualisatie meer betekenis en wordt het eenvoudiger om trends en relaties binnen het netwerk te identificeren.
Voordat je echter begint, moet je ervoor zorgen dat het "ggraph"-pakket geïnstalleerd is in je R-omgeving. Dit kan eenvoudig worden gedaan met de standaardfunctie install.packages("ggraph"). Na installatie laad je de bibliotheek met de library(ggraph) functie. Zonder deze stap krijg je geen toegang tot de functionaliteiten van het pakket.
Netwerkvisualisaties in R vereisen ook de keuze van een geschikt lay-out algoritme, wat een fundamenteel onderdeel is van het maken van een overzichtelijke weergave van het netwerk. Dit algoritme zorgt ervoor dat de knopen op een begrijpelijke manier in de ruimte worden gepositioneerd, zodat ze niet overlappen of verwarrend zijn. Het is van essentieel belang dat dit algoritme de leesbaarheid van het netwerk optimaliseert. Er zijn verschillende lay-outalgoritmes beschikbaar, zoals het "fr"-algoritme (Fruchterman-Reingold), dat ideaal is voor kleine tot middelgrote datasets. Dit algoritme werkt door knopen en randen als een systeem van veren en afstotende krachten te behandelen, waarbij een evenwicht wordt gezocht voor een visueel aantrekkelijke weergave.
Bij het maken van een netwerkvisualisatie in "ggraph", is het belangrijk te begrijpen dat de standaardinstelling van de knopen meestal klein en zonder labels wordt weergegeven, waardoor het moeilijk is om te begrijpen wat elke knoop vertegenwoordigt. Om dit probleem op te lossen, kunnen we esthetische mappingen aanpassen voor de geoms (de visuele elementen van de grafiek). In tegenstelling tot "ggplot2", dat globaal esthetische eigenschappen toepast, vereist "ggraph" dat deze mappingen specifiek voor de knopen en randen worden ingesteld. Dit zorgt ervoor dat de visuele eigenschappen van knopen en randen correct de kenmerken van de netwerkgegevens weerspiegelen.
Een voorbeeld van zo'n mapping is het toevoegen van labels aan de knopen. Dit kan eenvoudig worden gedaan met geom_node_text(), waarmee je tekstlabels aan de knopen toevoegt. Echter, een van de uitdagingen bij het werken met grote netwerken is het overlappen van tekstlabels, vooral wanneer knopen dicht bij elkaar liggen. Om dit probleem te verhelpen, kan het argument repel = TRUE worden ingesteld. Dit activeert een algoritme dat automatisch de tekstlabels verplaatst om overlap te minimaliseren, waardoor ze leesbaarder worden.
Bij het visualiseren van netwerken wordt vaak de behoefte gevoeld om te begrijpen welke knopen het meest invloedrijk of belangrijk zijn. Hiervoor worden centraliteitsmaatregelen gebruikt. Centraliteit is een fundamenteel concept in netwerkanalyse, waarmee we de relatieve betekenis van knopen binnen een netwerk kunnen bepalen. Er zijn verschillende centraliteitsmaatregelen, zoals graadcentraliteit, die simpelweg het aantal verbindingen van een knoop telt. Een knoop met een hoge graadcentraliteit kan een belangrijke rol spelen als knooppunt binnen het netwerk. In de context van bijvoorbeeld filmnetwerken, kan graadcentraliteit helpen bij het identificeren van de meest actieve acteurs of de films die het meest verbonden zijn.
Met de functie centrality_degree() in het "tidygraph"-pakket kunnen we deze maatregel berekenen voor elke knoop in ons netwerk. Deze waarde kan vervolgens worden toegevoegd aan onze dataset, wat ons in staat stelt om de knopen op basis van hun centraliteit te sorteren, filteren en visueel te analyseren.
Bij het analyseren van netwerken is het belangrijk om de doelen van de analyse duidelijk te definiëren. De keuze van de visualisatietechnieken en centraliteitsmaatregelen moet altijd in overeenstemming zijn met de specifieke vraagstellingen en het type netwerk dat wordt geanalyseerd. Het kan zijn dat de nadruk ligt op het identificeren van invloedrijke knopen, het vinden van centrale actoren of het analyseren van de structuur van relaties binnen het netwerk.
Het is essentieel te begrijpen dat netwerkvisualisatie meer is dan alleen het presenteren van data. Het stelt ons in staat om diepere inzichten te verkrijgen en de dynamiek van netwerken op een visuele manier te doorgronden. De keuze van het juiste lay-outalgoritme, de toepassing van gerichte esthetische mappingen en het gebruik van centraliteitsmaatregelen zijn sleutels tot het effectief begrijpen van de netwerkinformatie. Elk aspect van de visualisatie moet zorgvuldig worden gekozen om de gegevens niet alleen esthetisch aantrekkelijk te maken, maar vooral om de informatieve waarde van het netwerk te versterken.
Hoe kan het toevoegen van extra voorspellers en hyperparameters de prestaties van een model verbeteren?
In het begin van ons model lijkt het erop dat de resultaten niet erg goed zijn. Dit kan liggen aan het feit dat we niet genoeg voorspellende variabelen gebruiken om het model nauwkeurig te maken. Een mogelijke benadering is om extra voorspellers toe te voegen, zoals het aantal tentoonstellingen dat een kunstenaar heeft gehad in prestigieuze instellingen zoals het Museum of Modern Art (MoMA) of het Whitney Museum of American Art. Het idee is dat kunstenaars die meer exposure hebben gekregen en vaker zijn tentoongesteld in dergelijke instellingen, mogelijk ook een hoger pagina-percentage in tekstboeken krijgen. Door deze informatie in ons model te verwerken, kunnen we de prestaties en nauwkeurigheid verbeteren.
Het toevoegen van dergelijke gegevens kan eenvoudig worden gerealiseerd door de formule in de fit()-functie aan te passen. In ons geval zou het er als volgt uitzien:
Wanneer we dit model visualiseren met de functie rpart.plot(), kunnen we een significante wijziging in de structuur van de boom waarnemen. Dit geeft aan dat de extra gegevens van de museumexposities invloed hebben op de uitkomst van het model.
Bij het beoordelen van de kwaliteit van ons model op de testdataset zien we een kleine verbetering. Dit kan worden gemeten met behulp van de "Root Mean Squared Error" (RMSE), een veelgebruikte maatstaf voor numerieke voorspellingen. RMSE berekent de vierkantswortel van de gemiddelde kwadratische afwijking tussen de voorspelde en werkelijke waarden. Een lagere RMSE geeft aan dat het model goed aansluit bij de werkelijke gegevens. In ons geval krijgen we een waarde van ongeveer 0.41, wat een indicatie is van een acceptabele nauwkeurigheid, hoewel er nog ruimte is voor verbetering.
Het is belangrijk te begrijpen dat we de prestaties van het model kunnen verfijnen door hyperparameters toe te voegen. Hyperparameters zijn extra parameters die helpen bij het afstemmen van de beslissingsboom. Twee van de belangrijkste hyperparameters zijn de kostencomplexiteit en de diepte van de boom. De kostencomplexiteit bepaalt de grootte van de boom door een afweging te maken tussen het volgen van elke vertakking en het maken van extra splitsingen. Door deze parameter aan te passen, kunnen we het model verfijnen en de prestaties optimaliseren.
Het afstemmen van hyperparameters kan als volgt gebeuren:
Na het testen van dit verfijnde model met de nieuwe hyperparameters, blijkt de verbetering in de prestaties minimaal te zijn. Dit suggereert dat we dicht bij een drempel zijn waarbij verdere aanpassingen aan dit specifieke model weinig voordelen zullen opleveren. Dit is een teken dat we mogelijk alternatieve benaderingen moeten overwegen om de prestaties verder te verbeteren.
Een andere benadering die we kunnen onderzoeken, zijn de Random Forest-modellen. Random forests bestaan uit een ensemble van beslissingsbomen die elk op een andere subset van de gegevens worden getraind. De voorspellingen van de individuele bomen worden gecombineerd om een uiteindelijke voorspelling te maken. Dit vermindert overfitting, omdat de impact van irrelevante of ruisende kenmerken wordt verminderd door meerdere bomen te trainen op verschillende subsets van de gegevens. Random forests hebben ook de neiging om beter te presteren dan individuele beslissingsbomen, vooral wanneer ze goed zijn afgesteld.
In vergelijking met beslissingsbomen zijn random forests robuuster en minder gevoelig voor de specifieke keuze van hyperparameters, wat hen een meer betrouwbare methode maakt, vooral in complexe en diverse datasets zoals die van culturele gegevens. Random forests kunnen dan ook waardevolle inzichten bieden in patronen en trends binnen artistieke en culturele data.
Bij het werken met random forests in de "tidymodels"-omgeving kunnen we workflows gebruiken om het proces te stroomlijnen. Workflows zijn ontworpen om het proces van het trainen van modellen te vereenvoudigen en te verbeteren, zodat we op een efficiënte manier verschillende machine learning-methoden kunnen evalueren en toepassen.
Het is essentieel om te begrijpen dat hoewel het toevoegen van meer voorspellers en het afstemmen van hyperparameters het model kan verbeteren, er altijd een punt is waarop verdere verbeteringen onrendabel worden. In dat geval kan het nodig zijn om andere modellen of technieken, zoals random forests, te onderzoeken om een robuustere voorspelling te krijgen.

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский