Bij het werken met datasets in R, vooral met datasets zoals die van Gapminder, komt men vaak de uitdaging tegen van "rommelige data", waarbij meerdere variabelen in één kolom zijn opgeslagen. Dit maakt het analyseren en visualiseren van de gegevens moeilijker. In dit hoofdstuk laten we zien hoe je een dataset kunt omvormen van een lange naar een brede indeling, hoe je meerdere variabelen die in één kolom zijn opgeslagen kunt scheiden, en hoe je gegevens effectief kunt schonen voor verdere analyse.
De Gapminder-dataset bevat bijvoorbeeld economische en demografische gegevens per land over meerdere jaren. De initiële dataset wordt vaak in een "brede" vorm gepresenteerd, waarbij elke kolom een jaar of een specifieke meting vertegenwoordigt, zoals het BBP per hoofd van de bevolking. Deze indeling is echter niet altijd handig voor verdere analyse, vooral wanneer je wilt werken met een enkele variabele over meerdere jaren.
Een van de eerste stappen in het schoonmaken van dergelijke datasets is het herstructureren van de gegevens van een brede indeling naar een lange indeling. Dit kan eenvoudig worden gedaan met de functie pivot_longer(), die het mogelijk maakt om verschillende kolommen die gerelateerd zijn aan een bepaald type meting (zoals het BBP per hoofd van de bevolking, levensverwachting of bevolking) samen te voegen in één kolom, met daarbij de bijbehorende waarden.
Nadat we de gegevens in een lange indeling hebben omgezet, kunnen we problemen tegenkomen waarbij de gegevens in een enkele kolom meerdere variabelen bevatten, zoals zowel het type meting (bijvoorbeeld gdpPercap) als het jaar van de meting (bijvoorbeeld 1952). Dit maakt het moeilijk om de dataset verder te analyseren, omdat we de informatie niet kunnen scheiden in afzonderlijke variabelen voor type meting en jaar.
Een oplossing hiervoor is het gebruik van de separate() functie. Deze functie maakt het mogelijk om de gecombineerde informatie in de “type” kolom te splitsen in twee afzonderlijke kolommen: een voor het type meting en een voor het jaar. De gescheiden kolommen zorgen ervoor dat de dataset weer voldoet aan de "tidy data"-principes, waarbij elke kolom een specifieke variabele bevat.
Zodra de gegevens zijn opgesplitst, kunnen we de dataset weer in een brede indeling plaatsen, waarbij elke observatie in een enkele rij wordt gepresenteerd, met verschillende kolommen voor elke meting. Dit wordt bereikt met de functie pivot_wider(), die de lange indeling terugzet naar een bredere structuur. Dit maakt het eenvoudiger om gegevens te analyseren, vooral als je geïnteresseerd bent in het vergelijken van metingen (zoals BBP per hoofd van de bevolking, levensverwachting en bevolking) tussen verschillende jaren.
In de praktijk zullen niet altijd al deze stappen nodig zijn, en de specifieke schoonmaak die vereist is, hangt af van hoe de gegevens oorspronkelijk zijn opgeslagen en geregistreerd. Het is echter essentieel om vertrouwd te zijn met deze technieken, omdat ze je in staat stellen om efficiënt te werken met real-world culturele analyses, waar de gegevens vaak in complexe en niet-ideale formaten worden gepresenteerd.
Het begrijpen van de principes van "tidy data" is cruciaal. Elke variabele moet in een aparte kolom staan, en elk type waarneming moet in een aparte rij staan. Dit is niet alleen een vraag van data-analyse, maar ook van het verbeteren van de consistentie en transparantie van de gegevens, zodat verdere analyses, visualisaties en inzichten op een gestructureerde en begrijpelijke manier kunnen worden verkregen.
Hoe maak je tekstdata 'tidy' voor analyse in R?
Wanneer we tekstdata analyseren, is важным аспектом её подготовка для систематической обработки. Для этого данные преобразуются в формат "tidy text", что позволяет легко манипулировать текстом, проводить его анализ и извлекать значимые паттерны. В этом процессе важным шагом является токенизация, то есть разбиение текста на отдельные единицы, такие как слова, фразы или предложения. Это необходимая операция, которая упрощает дальнейшие манипуляции и позволяет исследовать лексические связи, частоты слов и даже сентимент текста.
Основной задачей является преобразование текста в формат, который будет удобен для дальнейшей обработки. Используя пакет "tidytext", мы можем применить функцию unnest_tokens(), которая автоматически разбивает текст на отдельные токены, что значительно ускоряет процесс. В результате каждый токен будет представлен в виде отдельной строки данных, что упрощает фильтрацию, группировку и подведение итогов.
Когда мы загружаем данные с помощью функции read_csv(), структура набора данных обычно включает несколько колонок: название книги, имя автора и сам текст. Каждый из этих столбцов играет важную роль, ведь анализируя текст, мы можем, например, исследовать, как часто в разных произведениях встречаются одинаковые или схожие слова. Например, вызывает ли слово "монстр" в "Франкенштейне" Мэри Шелли больше ассоциаций, чем в произведениях Фрэнсиса Скотта Фицджеральда или Шарлотты Перкинс Гилман? Такие вопросы, как частотность слов, уникальные лексические особенности авторов, а также сравнительный анализ позитивного или негативного сентимента в их произведениях, становятся доступными благодаря токенизации текста.
После того как текст разбит на токены, важно также провести дополнительные преобразования, такие как приведение всех слов к нижнему регистру и удаление пунктуации. Это помогает стандартизировать данные и уменьшить различия, вызванные, например, разным написанием слов или ненужными знаками препинания. Ранее в функции unnest_tokens() по умолчанию текст приводится к единому формату — все символы становятся строчными, а знаки препинания удаляются, что позволяет сделать анализ более точным. Однако иногда это может не соответствовать целям исследования, например, в анализе сентимента или распознавании именованных сущностей, где капитализация может играть важную роль.
Функция unnest_tokens() предоставляет широкие возможности для кастомизации. В частности, можно настроить использование различных типов токенов: от обычных слов до биграмм или триграмм — последовательностей из двух или трех слов. Это важно, когда нужно учитывать не только отдельные слова, но и их контексты, например, фразы, которые могут иметь особое значение или несут важную информацию для анализа.
Не стоит забывать, что анализ текста часто требует учета контекста, в котором он был написан. Для этого в процессе токенизации сохраняются данные о названии произведения и авторе, что позволяет при необходимости учитывать авторский стиль или особенности произведения в целом. Это особенно важно в случае сравнительных исследований, где необходимо увидеть, как одни и те же слова могут использоваться по-разному в произведениях разных авторов.
Чтобы проводить более глубокий анализ, можно также исследовать не только частотность слов, но и их сочетания, такие как биграммы или триграммы. Это полезно для более тонкого понимания того, как слова связаны друг с другом, какие темы или идеи могут быть выражены через конкретные комбинации слов. Например, исследуя триграммы в тексте, можно обнаружить часто повторяющиеся фразы, что помогает выявить основные темы произведения.
Важно понимать, что предварительная обработка текста — это лишь первый шаг на пути к более сложным методам анализа, таким как анализ сентимента, выделение ключевых сущностей или построение тематических моделей. Читатель должен учитывать, что каждый этап преобразования данных — от чтения текста до токенизации и преобразования в формат "tidy" — имеет значительное влияние на результаты дальнейшего анализа. Поэтому на каждом из этих этапов важно выбирать подходящие инструменты и методы, которые будут соответствовать поставленным исследовательским целям.
Hoe beïnvloeden de keuzes in het onderwijs de representatie van kunstenaars in kunstgeschiedenisboeken?
De trend van toenemende inclusie in onderwijsboeken is onmiskenbaar, maar de vraag blijft of deze vooruitgang daadwerkelijk gelijk verdeeld is over verschillende groepen kunstenaars. In dit verband is er een duidelijk verschil te zien tussen de tekstboeken van Janson en Gardner. Dit roept belangrijke overwegingen op over de redactionele keuzes en institutionele vooroordelen die deze educatieve bronnen vormgeven. In het bijzonder blijkt dat, hoewel de inclusie van vrouwelijke en niet-witte kunstenaars de laatste decennia in veel academische bronnen is toegenomen, deze representatie nog steeds beperkt en scheef is verdeeld.
De dataset die wij hebben samengesteld, doet meer dan enkel het tellen van de aanwezigheid van kunstenaars in kunstgeschiedenisboeken. Deze data biedt een diepere blik op de ruimte die elke kunstenaar krijgt toegewezen—een metrie die niet alleen de frequentie van verschijning in kaart brengt, maar ook de mate van zichtbaarheid die een kunstenaar binnen de pagina's van een boek heeft. Het aantal pagina’s dat aan een kunstenaar wordt gewijd, beïnvloedt de perceptie van hun belang en impact in de kunstwereld. De ruimte die een kunstenaar krijgt toegewezen kan daarom veel zeggen over de waardering voor hun werk, maar ook over hoe hun bijdrage wordt geanalyseerd en gepresenteerd aan een breder publiek.
Een van de visuele hulpmiddelen die kan helpen bij het analyseren van de toewijzing van ruimte is een histogram. Dit histogram visualiseert de verdeling van de ruimte die aan kunstenaars wordt toegewezen in verschillende boeken. Bij een eerste blik op de data (figuur 8.6) zien we dat de meeste kunstenaars relatief weinig ruimte in beslag nemen, hoewel een klein aantal kunstenaars opvallend veel ruimte krijgt. Dit verschil in ruimteverdeling kan belangrijke implicaties hebben voor hoe verschillende groepen kunstenaars worden waargenomen en geëvalueerd in de kunstwereld.
Verder onderzoek toont aan dat vrouwelijke kunstenaars in beide boeken minder ruimte krijgen dan hun mannelijke tegenhangers. Figuur 8.7 laat zien dat vrouwelijke kunstenaars niet alleen minder vaak voorkomen, maar ook minder ruimte op elke pagina innemen. Het is opvallend dat de weinige vrouwelijke kunstenaars die wel prominente posities innemen, vaak het gevolg zijn van uitzonderlijke omstandigheden of zijn gekozen om de diversiteit in de kunstgeschiedenis te benadrukken, maar niet noodzakelijkerwijs om hun werk op gelijke voet met mannelijke kunstenaars te plaatsen.
Wanneer we verder kijken naar de etnische achtergrond van kunstenaars, zien we een soortgelijke scheefgroei. Figuur 8.8 benadrukt dat niet-witte kunstenaars in beide tekstboeken minimalistisch vertegenwoordigd zijn. Deze ondervertegenwoordiging draagt bij aan een eenzijdig en beperkt begrip van kunstgeschiedenis, wat niet alleen de kennis van studenten beperkt, maar ook bestaande machtsverhoudingen in de kunstwereld versterkt. Het feit dat er zo weinig ruimte is voor kunstenaars van kleur suggereert dat er nog steeds een dominantie van witte kunstenaars is in de canon van de kunstgeschiedenis, en dat de zichtbaarheid van niet-witte kunstenaars beperkt blijft.
Het is belangrijk te begrijpen dat de ruimte die aan kunstenaars wordt toegewezen in deze boeken niet alleen een toevallige verdeling is, maar een weerspiegeling van diepgewortelde systemische ongelijkheden. Dit is niet alleen een kwestie van hoeveel tekst er over een kunstenaar wordt geschreven, maar ook van de waarde die wordt gehecht aan hun werk en hun bijdrage aan de kunstwereld. Hoe groter de ruimte, hoe groter de kans dat een kunstenaar wordt gezien als een belangrijke figuur binnen de kunstgeschiedenis.
Naast de gender- en etnische representatie is het ook belangrijk om te kijken naar de bredere maatschappelijke context waarin deze keuzes worden gemaakt. De redactionele keuzes van de auteurs van deze boeken zijn vaak niet neutraal, maar worden beïnvloed door institutionele normen en waarden die de richting van de kunstgeschiedenis en de canon bepalen. Dit kan ook de manier waarop onderwijsinstellingen omgaan met diversiteit in het kunstonderwijs beïnvloeden, waarbij bepaalde kunstenaars en stromingen worden gemarginaliseerd of vergeten. De structurele en institutionele bias die deze keuzes beïnvloedt, maakt het des te belangrijker om een kritische benadering van het onderwijs en de kunstgeschiedenis te ontwikkelen. Dit kan bijdragen aan een bredere en meer inclusieve benadering van kunst en cultuur, waarin de bijdragen van verschillende groepen kunstenaars gelijkwaardig worden gewaardeerd en erkend.
Het is van belang voor de lezer om te beseffen dat de representatie in tekstboeken niet slechts een kwestie is van statistieken en data. De mate van ruimte die een kunstenaar krijgt in een boek beïnvloedt hoe hun werk wordt gewaardeerd, maar ook hoe toekomstige generaties studenten hun plaats in de kunstwereld zien. De verdeling van ruimte en aandacht in onderwijsboeken bepaalt in veel opzichten wie als ‘belangrijk’ wordt gezien en wie niet. Bijgevolg is het noodzakelijk om voortdurend kritisch te blijven over de keuzes die worden gemaakt in het onderwijs, om te zorgen voor een meer rechtvaardige en representatieve benadering van kunstgeschiedenis.

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский