De films van verschillende decennia vertonen merkbare variaties in zowel stijl als uitvoering, maar ook in de duur van de films. Door de gemiddelde runtijd per decennium te berekenen, kan men belangrijke inzichten verkrijgen in de ontwikkeling van de filmindustrie en de invloed van verschillende maatschappelijke, culturele en technologische factoren op filmproductie.
Door te beginnen met een dataset van films, kunnen we de films groeperen op basis van het decennium van uitgave. Vervolgens berekenen we de gemiddelde looptijd voor elk decennium. Dit stelt ons in staat om een referentiepunt te hebben, waarmee we films kunnen vergelijken en zien hoe de duur van films in de loop der jaren varieert. In de R-code die volgt, wordt dit proces uitgevoerd met behulp van de dplyr-package, die de gegevens groeperen, bewerken en samenvatten vergemakkelijkt.
In het volgende voorbeeld is de "decade_average_runtime" berekend, hetgeen het gemiddelde van de runtimes per decennium is. Zodra dit is gedaan, wordt er een nieuwe kolom aangemaakt om de afwijking van de runtime ten opzichte van het gemiddelde van het desbetreffende decennium te berekenen. Deze afwijking kan waardevolle informatie verschaffen over films die afwijken van de gangbare normen van hun tijd. Het blijkt bijvoorbeeld dat de documentaire Near Death uit de jaren '80, met een runtime van 358 minuten, zich ver uitstrekt boven het gemiddelde van dat decennium, dat 98,9 minuten was. De uitzonderlijk lange runtime, 259 minuten langer dan het gemiddelde, is een duidelijk voorbeeld van hoe sommige genres zoals documentaires vaak buiten de conventies van de filmindustrie opereren.
Waarom zijn documentaires vaak langer dan andere films? Dit heeft veel te maken met de aard van het genre. Documentaires behandelen vaak complexe en veelzijdige onderwerpen die grondige verkenning vereisen, wat resulteert in langere films. Bovendien worden documentaires vaak niet gebonden door de commerciële beperkingen die gelden voor populaire films. Terwijl mainstream films vaak geconfronteerd worden met de druk om binnen een bepaald tijdsbestek te blijven om de aandacht van het publiek vast te houden, hebben documentaires de vrijheid om meer tijd te besteden aan het gedetailleerd uitdiepen van hun onderwerpen, zonder de druk om de film ‘te knippen’ voor commerciële doeleinden.
Nadat we de gegevens hebben gegroepeerd en de afwijking in runtime hebben berekend, kunnen we de films rangschikken op basis van de grootste afwijking van het gemiddelde decennium. Dit geeft ons een lijst van films die qua lengte het meest afwijken van de typische film uit dat specifieke decennium. Dit biedt niet alleen inzicht in de filmduur, maar ook in de keuzes die filmmakers maken, en waarom bepaalde films uitblinken in hun durf om af te wijken van de norm.
In de vervolgcode wordt verder gewerkt met het combineren van meerdere datasets die films uit verschillende decennia bevatten. Dit is een veelvoorkomend scenario in data-analyse, aangezien datasets vaak relaties vertonen die de gegevens tussen verschillende tabellen met elkaar verbinden. In dit geval voegen we gegevens van films uit de jaren '90 tot de jaren 2010 samen met de eerdere dataset van de jaren '60 tot de jaren '80. Door middel van de functie bind_rows() kunnen we de gegevens uit verschillende tabellen samenvoegen. Dit stelt ons in staat om de films van verschillende decennia naast elkaar te plaatsen en te onderzoeken hoe de looptijden en de filmscores in de loop van de tijd veranderd zijn.
Wanneer we deze gecombineerde gegevens bekijken, kunnen we op basis van de berekeningen van runtime de verschillen tussen de verschillende tijdperken zichtbaar maken. Naast het feit dat de gemiddelde looptijden worden gepresenteerd, kunnen we de films vergelijken op basis van hun afwijking van de gemiddelde filmduur per decennium. Dit biedt een waardevolle manier om trends in de filmindustrie te begrijpen en hoe de keuzes van filmmakers zijn geëvolueerd, met inachtneming van zowel technische als culturele veranderingen.
Bij het combineren van datasets moet altijd goed worden opgelet dat de gegevens correct worden gecombineerd en dat de relaties tussen de verschillende sets goed worden begrepen. Door gegevens zoals filmratings, releasejaren en runtimes te combineren, kunnen we een holistisch beeld krijgen van de veranderingen die zich in de filmindustrie hebben voorgedaan.
De mogelijkheid om deze gegevens te groeperen, te bewerken en samen te voegen biedt niet alleen inzicht in de films zelf, maar ook in de bredere culturele en technologische invloeden van de tijd. Het helpt ons begrijpen waarom sommige decennia gekarakteriseerd worden door kortere films, terwijl andere, zoals de jaren '80, gekarakteriseerd werden door langere en vaak meer uitgebreide producties, die zowel qua thema als uitvoering gedurfder waren.
Het proces van het werken met datasets en het onderzoeken van de veranderingen in de filmindustrie biedt waardevolle inzichten die verder gaan dan alleen het analyseren van cijfers. Het helpt ons ook de culturele verschuivingen, technologische innovaties en veranderende verwachtingen van het publiek te begrijpen. Door te kijken naar de gemiddelde looptijd van films per decennium, kunnen we de dynamiek van de filmindustrie door de jaren heen beter begrijpen en de onderliggende factoren die de producties hebben gevormd.
Hoe Optimalisatie van Modellen de Cultuuranalyse Versterkt: Van Hyperparameters tot Interpretatie
In de wereld van machine learning en cultuurwetenschappen speelt modeloptimalisatie een cruciale rol bij het verbeteren van de nauwkeurigheid van voorspellende algoritmes. Dit proces, hoewel technisch van aard, biedt een diepgaande manier om verborgen patronen en relaties binnen culturele datasets te ontrafelen. De toepassing van de "tidymodels" bibliotheek in R biedt onderzoekers in de culturele analyse een krachtig instrument om hun modellen te verfijnen en te optimaliseren.
De basis van modeloptimalisatie begint met het vinden van de beste hyperparameters voor een model. Dit wordt vaak gedaan door het gebruik van geavanceerde technieken zoals het Latijnse hypercube-design, dat verschillende combinaties van hyperparameters onderzoekt. Het voordeel hiervan is dat het proces zowel grondig als systematisch is, wat resulteert in het vinden van de optimale instellingen die de nauwkeurigheid van het model verbeteren. Eenmaal gevonden, kunnen deze hyperparameters worden toegepast op het model met behulp van de select_best() functie. Dit maakt het mogelijk om het model opnieuw te trainen met de beste configuratie van hyperparameters, wat essentieel is voor het behalen van de hoogste prestaties.
Wanneer de training is voltooid, wordt de volgende stap het evalueren van het model. Dit gebeurt door middel van de last_fit() functie, die voorspellingen genereert op basis van de testgegevens. Het verkrijgen van voorspellingen is echter slechts de eerste stap. Wat belangrijker is, is hoe goed deze voorspellingen overeenkomen met de werkelijke uitkomsten. Dit wordt gedaan door gebruik te maken van de collect_metrics() functie, die verschillende statistieken verzamelt die de effectiviteit van het model meten, zoals nauwkeurigheid (accuracy), de area under the curve (roc_auc), en de Brier score voor classificatieproblemen. Deze statistieken geven niet alleen inzicht in de prestaties van het model, maar laten ook zien in hoeverre het model in staat is om subtiele patronen te herkennen.
Een voorbeeld van hoe modeloptimalisatie kan bijdragen aan culturele analyses is te zien in de studie naar representatie in kunstgeschiedenisboeken. Door de hyperparameters van het model te verfijnen, konden onderzoekers beter de verborgen vooroordelen in de representatie van gender en etniciteit in deze educatieve bronnen blootleggen. Dit toont de waarde aan van machine learning voor het ontdekken van diepere inzichten binnen culturele datasets. Het verbeteren van de modelcapaciteit om dit soort relaties te herkennen, stelde hen in staat om meer genuanceerde conclusies te trekken over de prevalentie en de manier waarop verschillende demografische groepen in invloedrijke onderwijsboeken worden afgebeeld.
Het gebruik van "tidymodels" maakt het proces van modeloptimalisatie toegankelijker voor onderzoekers die werken met culturele datasets. Het biedt niet alleen de tools voor het afstemmen van modellen, maar zorgt er ook voor dat de gebruiker vertrouwd raakt met een systeem dat consistent en gemakkelijk te begrijpen is. Voor wetenschappers die net beginnen met machine learning, kan het proces aanvankelijk ontmoedigend lijken, maar de systematische benadering van "tidymodels" maakt de complexe taak van modeloptimalisatie beheersbaar.
Naast de modeloptimalisatie is het van essentieel belang om te begrijpen dat het succes van een machine learning model sterk afhankelijk is van de kwaliteit van de gegevens die eraan ten grondslag liggen. In de context van culturele analyse betekent dit dat de manier waarop de data verzameld, gecodeerd en voorbereid worden, een directe invloed heeft op de resultaten die een model kan opleveren. Data-analyse is nooit neutraal; het omvat keuzes over welke gegevens relevant zijn en hoe ze worden gepresenteerd. Daarom moeten onderzoekers zich bewust zijn van mogelijke vooringenomenheid in de data en de invloed hiervan op de uiteindelijke uitkomsten.
Het proces van modeloptimalisatie heeft dus twee belangrijke dimensies: technische en culturele. Aan de ene kant zorgt het ervoor dat modellen optimaal functioneren en nauwkeurige voorspellingen doen. Aan de andere kant moeten onderzoekers kritisch blijven ten opzichte van de gegevens die ze gebruiken en hoe deze gegevens de analyses kunnen beïnvloeden. Dit bewustzijn is cruciaal voor het verkrijgen van betrouwbare en betekenisvolle resultaten in de cultuurwetenschappen.

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский