Les générateurs d'images par IA comme Midjourney, Stable Diffusion, et d'autres, sont devenus largement accessibles depuis presque trois ans. Ces outils basés sur l'IA ont non seulement révolutionné la création visuelle, mais ont également été intégrés dans de nombreuses applications, telles que les logiciels de traitement d'image d'Adobe ou les téléphones Google. De nouvelles applications génératives sont lancées presque chaque semaine. Parmi les plus notables figure peut-être VEO2 de Google, un générateur d'images animées, concurrent du Sora d'OpenAI, ainsi que Janus-Pro-7B, un modèle multimodal open source basé sur la plateforme de la startup chinoise DeepSeek. L'IA générative progresse également rapidement dans d'autres domaines, notamment la génération musicale, avec des outils comme Suno AI, lancés en décembre 2023, qui ont déjà suscité de nombreuses discussions (voir par exemple Johnson et al. 2023 ; Lin et Chen 2024 ; Nayar 2025).

La majorité de ces technologies repose sur la compréhension du langage naturel à travers des modèles de langage volumineux (LLM), ce qui les rend fondamentalement multimodales, même si cette multimodalité reste invisible pour les utilisateurs (voir par exemple Bajohr 2024b ; Coeckelbergh et Gunkel 2025). Les générateurs de texte en images (comme DALL·E, Midjourney, ou Stable Diffusion) et de texte en texte (comme ChatGPT, Claude, ou Gemini) étaient initialement séparés, notamment en termes de leur apparence de sortie. Cependant, avec l'intégration de DALL·E 3 dans ChatGPT-3 en octobre 2023, l'interface et les sorties générées ont mis en avant la multimodalité des deux. Il devient évident que les sorties générées par l'IA, qu'elles soient visuelles, sonores ou textuelles, sont devenues un élément central de notre culture médiatique contemporaine. Cela a entraîné, par exemple, une herméneutique de suspicion envers chaque nouvelle image ou vidéo, désormais potentiellement générée ou manipulée par l'IA (voir Meyer 2024). Cette évolution a également modifié la valeur des images, des vidéos et des fichiers musicaux, souvent au détriment des artistes et producteurs humains dont les œuvres sont utilisées par les LLMs pour l'entraînement sans leur consentement ou connaissance (voir Dornis et Stober 2024).

En dépit de l'intérêt manifeste au sein des études médiatiques et culturelles pour comprendre ces nouvelles technologies, la rapidité avec laquelle se développent les générateurs d'images basés sur la diffusion, les modèles autorégressifs plus récents (voir Robison 2025), et les LLMs en général, représente un défi considérable pour les approches traditionnelles des sciences humaines. La vitesse effrénée du cycle de développement de l'IA entre en conflit avec les délais de publication académique : d'un côté, il peut être frustrant de publier des instantanés de pratiques et de technologies supposées actuelles qui sont déjà obsolètes au moment de la publication. D'un autre côté, il est tout aussi problématique de se contenter de spéculer sur un avenir de l'IA dominé par des utopies marketing ou des catastrophes technologiques imaginées (voir par exemple Bareis et Katzenbach 2021 ; Romele 2024 sur les « imaginaires de l'IA »).

Cependant, il est aussi pertinent de souligner les continuités, ainsi que les différences, entre les générateurs d'images par IA et les technologies antérieures de création d'images (voir Somaini 2023 ; Zylinska 2020). L'abandon perçu d'une relation immédiate et indexicale avec la réalité physique, par exemple, n'est pas nouveau pour les images numériques, un débat déjà controversé lors de l'émergence de la photographie numérique et des éditeurs d'images numériques tels qu'Adobe Photoshop (voir Lehmuskallio et al. 2019 ; Mitchell 1992). En effet, l'autonomie partielle d'un « appareil non humain » générant des images de manière « automatique » a déjà été observée lors de l'émergence de la photographie non numérique (voir Chesher et Albarrán-Torres 2023). De même, les questions relatives à l'utilisation manipulatrice « secrète » des images générées par IA dans le contexte des « fake news » et des « deep fakes » (voir Broinowski 2022) renvoient à des débats bien plus anciens autour de la notion de « preuve visuelle » dans les études documentaires et au-delà (voir Nichols 1991 ; Schwartz 1992), ce qui suggère qu'il n'y a rien de fondamentalement nouveau dans la capacité des images générées par IA à induire en erreur, à déformer ou à manipuler. Cependant, la facilité avec laquelle ces images peuvent être utilisées à cette fin reste, elle, frappante.

Il n'existe donc plus de règle simple pour la reconnaissance humaine des images générées par IA, puisque ces générateurs peuvent être incités à créer des images non seulement avec un contenu représentatif plus ou moins précis, souvent décrit comme le « sujet » de ces images, mais aussi avec une forme esthétique spécifique, souvent décrite en termes de « style » (voir Meyer 2023).

Ainsi, il convient de considérer les « esthétiques de l'IA » des générateurs d'images par IA, tels que DALL·E, Midjourney ou Stable Diffusion, comme une forme spécifique d'« esthétique des médias », visant à connecter davantage les études des médias aux études critiques sur l'IA (voir Lindgren 2024 ; Raley et Rhee 2023 ; Roberge et Castelle 2021). Cela implique, entre autres, de considérer les plateformes de machine learning actuelles et en développement non seulement comme des technologies, au sens étroit, mais aussi comme des médias (voir Bolter 2023 ; Wilde 2023). Comme le note Marx, « le composant matériel—la technologie conçue étroitement comme un dispositif physique—n'est qu'une partie d'une matrice sociale et institutionnelle complexe » (1997, 979 ; emphase originale). Alternativement, nous pourrions également opérer avec une conceptualisation élargie de la « technologie ». Dhaliwal, par exemple, soutient que la « technologie » elle-même est un « composé […] floutant l'économie, la politique et la technique en un seul mot » (2023, 311), et distingue cinq « objets d'étude » différents et les « champs de recherche » associés, à savoir : les « machines et dispositifs » (d'intérêt pour les sciences et l'ingénierie) ; la « culture et l'art [des nouveaux médias] » (d'intérêt pour les études culturelles et l'histoire de l'art) ; les « personnes et communautés » (d'intérêt pour la sociologie et l'anthropologie des technologies) ; les « systèmes et structures » (d'intérêt pour la sociologie et l'économie politique) ; et enfin les « techniques, pratiques et habitudes » (d'intérêt pour l'archéologie des médias et les technologies culturelles) (2023, 313). En fin de compte, nous ne pouvons pas penser adéquatement la « technologie » sans également reconnaître les contextes sociaux, culturels et institutionnels complexes dans lesquels elle est développée, distribuée et utilisée (voir aussi, par exemple, Pasquinelli 2023).

Enfin, bien que nous devions réduire notre focus à l'IA générative dans le cadre de ce volume, il est essentiel de concevoir cette dernière non seulement comme une technologie, mais comme un média potentiel pour la communication et l'interaction, ce que ses sorties démontrent indéniablement.

Comment les défauts technologiques renforcent-ils la promesse capitaliste des technologies de l’IA ?

Il serait erroné d’interpréter les démonstrations technologiques montrant des défauts et des incohérences comme une simple documentation de l’état technique actuel, des listes de problèmes à résoudre, ou des composants informatifs de rapports techniques. Au contraire, comme je vais l’expliquer, ces défauts, échecs et erreurs contribuent activement à la promesse capitaliste des technologies de l’IA. Ils provoquent des jugements et des réactions émotionnelles, étonnent et amusent, déstabilisent ou déçoivent, suscitent l’engagement, et évoquent à la fois la peur et l’espoir. En ce faisant, ils ne sapent pas, mais renforcent plutôt la perception de l’IA comme une « technologie prometteuse », soutenant ainsi sa légitimité économique.

Contrairement à l’idée reçue selon laquelle les échecs et erreurs sont des éléments à éviter ou à éliminer, les défauts technologiques sont en réalité essentiels pour faire avancer les cycles capitalistes de production. Désignés comme des échecs par des jugements, ils génèrent la promesse du futur – amélioration, optimisation, modèle suivant, mise à jour inévitable, etc. Dans un cadre capitaliste, les défaillances permettent à la technologie de stimuler continuellement la nouveauté, de maintenir des promesses et de légitimer le développement en cours.

Ainsi, le capitalisme contemporain ne bénéficie pas seulement des défauts technologiques, il les produit activement – l’obsolescence programmée en étant l’une des manifestations les plus prononcées. Les échecs « soutiennent la culture des mises à jour et des remplacements », alimentant des cycles de consommation sans fin. Sans la notion de dysfonctionnement, d’échec ou d’insuffisance, il n’y aurait pas d’impératif d’amélioration, ni d’opportunité d’en tirer profit. Dans le secteur de l’IA, « l’amélioration » peut signifier l’adoption d’un modèle nouveau et amélioré (par exemple, Gen 1, Gen 2, Gen 3 Alpha de Runway) ou l’abonnement à une version premium promettant des corrections de bugs et des fonctionnalités exclusives (ChatGPT Plus, ChatGPT Pro avec accès à Sora). Les présentations sur les réseaux sociaux de sociétés telles que Runway AI, OpenAI et Luma AI regorgent de démonstrations technologiques qui introduisent et promeuvent des générations de modèles prétendument supérieures ou de nouvelles fonctionnalités censées « résoudre » les limitations précédentes.

Un rapide aperçu des récentes mises à jour dans les démonstrations technologiques de génération vidéo illustre ce modèle, avec, parmi d’autres, le lancement de Ray2 comme nouvelle frontière du réalisme (Luma AI 2025a), le passage au 4K (Luma AI 2025b), l’intégration du son (Luma AI 2025c), la présentation d’Act One pour des vidéos de référence sur les personnages (Runway 2024a), l’introduction de vidéo extend (Runway 2024b), et l’ajout de nouveaux contrôles stylistiques sur les images (Runway 2024c). Ces mises à jour prétendent résoudre des incohérences, améliorer la résolution, élargir les possibilités esthétiques et stylistiques, et porter le réalisme à un nouveau niveau, rendant ainsi obsolètes les fonctionnalités précédentes.

Les cycles de mises à jour et de perfectionnements construisent rétrospectivement des problèmes à résoudre et des crises à gérer. Les défauts, par conséquent, sont intimement liés à la logique capitaliste de la sérialisation technologique – se manifestant sous forme de générations, mises à jour et améliorations. Ils permettent et matérialisent la promesse du futur. En prenant de la valeur, les défauts eux-mêmes deviennent des marchandises, constituant ainsi « une machine de promesses brisées ». La démonstration technologique Luma Dream Machine du 3 septembre 2024 incarne parfaitement cette logique de futurité mise à jour en s’inspirant de l’histoire du cinéma : dans un format vertical, la vidéo introduit et présente les possibilités de la commande de mouvements de caméra. Elle commence par juxtaposer une caméra de film analogique sur un trépied avec l’interface pour saisir une commande de mouvement de caméra. Mise en scène comme un film muet en noir et blanc, la démo utilise des intertitres et des sous-titres pour accentuer la voix off masculine, accompagnée d’une bande sonore swing des années 1920.

À travers cette vidéo, le défilement rapide de l’histoire du cinéma – du cinéma muet aux films futuristes en couleurs – sert de toile de fond à la démonstration de Luma. Chaque nouveau segment devient la preuve des possibilités accrues offertes par la technologie : couleur, format, genre, effets spéciaux époustouflants, et un réalisme amplifié. Le produit final, Luma Dream Machine, est alors présenté comme la réalisation ultime de l’héritage du cinéma, réinventant l’esthétique cinématographique dans le futur, guidé par l’intelligence artificielle.

Dans ce contexte, la promesse capitaliste des technologies de l’IA repose sur un modèle affectif. Selon les travaux d’Ahmed (2004) et d’Appadurai et Alexander (2020), les promesses fonctionnent comme des délais temporels, annonçant quelque chose qui doit encore venir, offrant ainsi de l’espoir, tout en portant toujours le risque de l’échec. Cette dynamique génère des émotions ambivalentes : l’espoir mêlé à l’anxiété et à l’ennui de l’attente, la confiance toujours ébranlée par la méfiance. Pourtant, l’espoir peut être sans fin, les technologies échouant à tenir leurs promesses se contentant de les reporter – à la prochaine version, à la prochaine mise à jour.

En fin de compte, les défauts de l’IA, lorsqu’ils sont projetés sur le corps humain ou d’autres objets, peuvent incarner à la fois des peurs et des espoirs. Ils alimentent des anxiétés sociétales profondes, notamment autour du remplacement, de l’effacement des frontières entre l’humain et la machine, et de la transformation technologique du corps. Mais ces mêmes défauts ne sont pas seulement ridiculisés, ils fascinent, captivant l’attention et l’imagination des spectateurs.