Les systèmes d'intelligence artificielle (IA) possèdent des capacités impressionnantes pour générer des sorties qui ressemblent, et dans certains cas imitent, les données et matériaux sur lesquels ils ont été formés, tels que des images ou des textes. Il est donc courant de croire que les modèles d'IA procèdent à une recherche dans une base de données, suivie d’un processus de découpe et de collage pour créer leurs sorties. Pour illustrer, imaginez un étudiant en art avec un sac plein de découpes de magazines, créant de nouvelles œuvres sur commande. Toutefois, il convient de noter que cette idée ne reflète pas du tout la manière dont ces modèles fonctionnent dans la réalité.
En fait, après l'entraînement, l'ensemble de données n'est plus accessible au système d'IA. Le sac du « l'étudiant » n'est plus à sa disposition. L’IA apprend des données d’entraînement au travers d’un processus d’analyse de chaque élément de la base de données, tout en s'auto-ajustant de manière répétée. Ce processus rappelle celui par lequel un humain apprend : pour enseigner à un enfant à distinguer le rouge de l'orange, il faut lui montrer plusieurs nuances de ces couleurs. Au début, l'enfant confondra souvent les deux couleurs, mais chaque nouvel exemple améliorera sa capacité à les distinguer. Le cerveau de l'enfant met à jour sa conception des couleurs jusqu'à ce qu'il soit capable de les identifier parfaitement, même dans des contextes où il n'a pas vu d'exemples similaires. Avec un peu de pratique, l'enfant pourrait même mélanger des peintures pour créer la couleur orange, sans référence extérieure.
Dans le cas des modèles d'IA, cependant, l'apprentissage est stocké dans des ensembles complexes de nombres représentant des emplacements multidimensionnels en relation avec d'autres ensembles de nombres. Cette approche est fondamentale pour comprendre comment un modèle d'IA, comme un modèle de langage tel que ChatGPT, fonctionne. En effet, l’IA apprend en construisant un modèle interne qui reflète les relations complexes entre les différentes données, mais ces données elles-mêmes ne sont jamais directement accessibles une fois l’apprentissage terminé.
Prenons l'exemple de l'enseignement à un modèle d'IA de ce qu’est la ville de Washington, D.C. Ce n’est pas une simple collection de faits : Washington est une ville riche et variée, dotée du statut unique de capitale des États-Unis, avec ses différents quartiers, monuments historiques, institutions gouvernementales et une couche complexe d’histoire politique. L'objectif est de créer une compréhension multidimensionnelle de cette ville, englobant ses caractéristiques physiques, ses événements historiques, et l'expérience subjective de ses habitants et visiteurs.
Pour « former » un modèle d'IA sur Washington, un programmeur explorerait les multiples sources d’information : cartes, photographies, archives historiques, articles de journaux, documents gouvernementaux, et même les messages des réseaux sociaux. Ce processus collecte une masse d'informations extraordinairement vaste, très diversifiée et parfois contradictoire, que l'IA devra apprendre à organiser et à traiter pour en tirer une compréhension cohérente.
Imaginons que la tâche soit de concevoir une carte de la ville. Avant de commencer, des décisions cruciales doivent être prises sur la manière de diviser cette information en morceaux plus petits et plus gérables. Pour un modèle de langage, cela pourrait signifier diviser les données en unités élémentaires : mots, groupes de mots, ou même caractères individuels. La taille de ces « morceaux » (ou « chunks ») influence la capacité du modèle à saisir les relations entre les idées et les concepts. Plus il y a de morceaux, plus le modèle sera capable d’apprendre une variété de nuances.
Une fois que cette décision est prise, le programmeur doit établir des dimensions pour chaque élément d’information. Ces dimensions permettent de situer chaque morceau de données dans un espace virtuel multidimensionnel. Par exemple, une simple carte à deux dimensions, avec des repères reliant les lieux géographiques, serait insuffisante. Il faudrait plutôt des centaines de dimensions pour capturer les multiples relations subtiles entre les données – qui pourrait être les avis sur un restaurant à D.C., la position géographique de la Maison Blanche ou la temporalité des événements historiques.
Chaque morceau d'information se voit ainsi attribuer une série de coordonnées complexes pour déterminer sa place dans cet espace de 300 dimensions, par exemple. Pour comprendre pleinement cette carte complexe, le modèle doit être capable de relier ces informations entre elles, pas uniquement par des liens de proximité géographique, mais aussi par des liens d'importance et de pertinence, qui varieront au fil du temps au fur et à mesure que de nouvelles données seront analysées.
Il est aussi essentiel de faire appel à des « guides » pour parcourir ce vaste territoire. Dans notre analogie, ces guides sont des entités qui parcourent les données pour en extraire des relations et en affiner la compréhension. Ces guides n’ont pas besoin d’une expertise préalable, mais doivent simplement suivre des instructions de base pour découvrir de nouvelles connexions et comprendre des dynamiques complexes. Leur objectif est d'approfondir la carte, de découvrir des chemins inédits et d’ajuster les relations pour en affiner l’exactitude.
La construction de cette carte se base sur une interconnexion dynamique des informations : chaque lien entre les « repères » n'est pas statique, mais peut être ajusté selon l’importance de chaque cheminement ou découverte. C’est ainsi que l’IA apprend non seulement à identifier des éléments isolés (par exemple, un bâtiment ou une date), mais aussi à comprendre leur interaction dans un contexte beaucoup plus large et complexe.
Au-delà de cette capacité à organiser et traiter des données massives, il est important de comprendre que le processus d’apprentissage des modèles d’IA est tout sauf linéaire. Il repose sur l’adaptation constante des modèles internes aux nouvelles informations, tout en optimisant les connexions et en réajustant continuellement les coordonnées des éléments dans cet espace complexe. Cela fait de l'IA une machine non seulement de recherche et d’analyse, mais aussi une entité capable d'apprendre, d'évoluer et de réagir à des contextes toujours plus variés et détaillés.
L'une des principales implications de cette approche est la distinction fondamentale entre la façon dont les humains et les IA apprennent. Les humains s’appuient sur des structures biologiques pour organiser et stocker l’information, tandis que l’IA utilise des modèles mathématiques complexes pour appréhender et relier les données. Cette différence est cruciale lorsqu’on considère les applications juridiques, éthiques et sociales des technologies d’IA, et mérite d'être abordée de manière plus approfondie.
Qu’est-ce que le critère d’évidence en droit des brevets et comment s’applique-t-il ?
Le critère d’évidence, ou non-évidence, est une pierre angulaire du droit des brevets. Selon la section 103 du Code des États-Unis (35 U.S.C. § 103), un brevet ne peut être délivré si l’invention revendiquée est, dans son ensemble, évidente par rapport à l’état de la technique avant la date effective de dépôt. Autrement dit, si une personne ayant une compétence ordinaire dans le domaine concerné aurait pu concevoir cette invention sans effort inventif, celle-ci est jugée évidente et donc non brevetable.
Cette exigence vise à empêcher que des améliorations mineures ou triviales par rapport aux connaissances existantes soient protégées par un monopole exclusif, ce qui risquerait de freiner l’innovation plutôt que de la stimuler. Robert P. Merges souligne que sans ce filtre, toute modification légère d’un dispositif ou procédé connu pourrait être brevetée, ce qui créerait une "pénombre" protectrice inutile autour des techniques déjà établies.
Le critère d’évidence repose donc sur la notion hypothétique de la « personne ayant une compétence ordinaire dans l’art » (PHOSITA en anglais). Cette figure juridique représente un acteur moyen, ni un génie, ni un novice, capable de comprendre l’état de la technique pertinent. Les tribunaux ont fréquemment recouru à cette notion pour évaluer si la variation proposée par l’inventeur dépasse ce que cette personne aurait pu raisonnablement déduire ou prévoir. La Cour suprême des États-Unis a clarifié dans l’arrêt KSR International Co. v. Teleflex Inc. que lorsqu’une modification prévisible découle de forces du marché ou d’incitations à la conception, elle est généralement exclue de la brevetabilité.
Toutefois, l’évaluation de l’évidence n’est pas purement objective ni mécanique. Elle dépend de l’analyse précise du contenu et de la portée de l’état de la technique, ainsi que de la définition claire du niveau de compétence ordinaire dans le domaine concerné. Les recherches et connaissances disponibles au moment de l’invention sont déterminantes. Il est important de noter que cette personne fictive ne dispose pas nécessairement de toute l’information possible, notamment si certains éléments du savoir étaient confidentiels ou non accessibles au public.
L’application de ce critère a aussi des implications sociales et culturelles. Des analyses comparatives montrent que la notion de « personne raisonnable » ou compétente varie selon les contextes juridiques et culturels, ce qui soulève des questions quant à l’universalité de cette norme. Par exemple, certaines critiques pointent le caractère historiquement biaisé de cette figure, souvent genrée ou ethnocentrée, ce qui peut influencer la manière dont l’innovation est jugée et valorisée.
Au-delà de la simple évaluation de la nouveauté, le critère d’évidence protège le domaine public et garantit que seuls les progrès véritablement significatifs, résultant d’un effort inventif réel, bénéficient d’une exclusivité temporaire. Cette limitation est essentielle pour maintenir un équilibre entre incitation à innover et diffusion des connaissances.
En conclusion, comprendre le critère d’évidence, c’est saisir comment le droit des brevets filtre les inventions afin d’encourager un progrès technique authentique. Cela implique de maîtriser la notion de compétence ordinaire dans l’art, de mesurer la prévisibilité des modifications et de reconnaître les enjeux sociaux liés à cette figure juridique.
Il est crucial de considérer que l’évaluation de l’évidence ne peut être déconnectée du contexte technique et des conditions réelles de la recherche et du développement. Les inventions émergent souvent dans un environnement dynamique où les savoirs sont fragmentés, parfois secrets, et où les avancées résultent d’interactions complexes entre différentes disciplines. Ce réalisme doit être intégré dans l’appréciation juridique pour éviter une exclusion injustifiée d’innovations légitimes. Par ailleurs, la sensibilité aux biais implicites dans la conception de la « personne ordinaire » permettrait une justice plus inclusive et représentative des divers acteurs de l’innovation.
Comment les données et la puissance de calcul façonnent-elles la révolution actuelle de l'intelligence artificielle ?
L'explosion des données collectées et numérisées au cours des dernières décennies a été le moteur essentiel de l'expansion rapide des systèmes d'intelligence artificielle (IA) et de leurs applications. Cette avancée est indissociable de la disponibilité sans précédent d'une puissance de calcul capable de traiter ces masses colossales d'informations. Comme l'a souligné Richard Sutton dans son commentaire de 2019, « The Bitter Lesson », les progrès majeurs en IA, y compris ceux conduisant aux systèmes génératifs actuels, résultent avant tout d'augmentations exponentielles de la puissance informatique et du volume des données, plutôt que de la seule ingéniosité humaine. Ainsi, le passage du Perceptron Mark I, qui nécessitait environ 700 000 opérations pour son entraînement, aux modèles contemporains comme GPT-4, qui mobilisent environ 21 septillions d'opérations, illustre un saut prodigieux dans la capacité de calcul. Cette comparaison traduit l'ampleur vertigineuse de la transformation technologique qui a rendu possibles les avancées actuelles.
Toutefois, ce progrès ne serait pas aussi spectaculaire sans les innovations en matière d'architecture algorithmique. Par exemple, les réseaux de neurones profonds étaient impraticables jusqu'en 2006, année où une nouvelle méthode d'entraînement rapide a permis de surmonter les obstacles initiaux. Par la suite, les modèles génératifs antagonistes apparus en 2014 et l'architecture Transformer introduite en 2017 ont joué un rôle fondamental dans le développement des capacités avancées en traitement du langage et en création de contenus. Cette évolution technique a profondément modifié les secteurs public et privé, multipliant les usages de l'IA, de la création artistique numérique à la médecine personnalisée. L'IA permet aujourd'hui non seulement d'assister la gestion administrative clinique, mais aussi d'identifier des molécules potentielles pour traiter diverses maladies, ou encore de créer des « jumeaux numériques » des patients, offrant ainsi une modélisation des scénarios possibles de santé avec un degré de précision auparavant inaccessible.
Par ailleurs, l'IA générative ouvre des perspectives sociales notables, notamment pour les populations immigrées ou les personnes dont la langue maternelle diffère de celle du pays d'accueil. Ces outils peuvent faciliter la rédaction de CV, de lettres ou de rapports professionnels, atténuant ainsi certaines barrières linguistiques et économiques. Pourtant, ces bénéfices sont contrebalancés par des risques de renforcement des inégalités existantes. Par exemple, l'usage d'algorithmes dans la prise de décision judiciaire, bien qu'ambitieux dans son objectif de standardisation, peut au contraire amplifier les biais préexistants, soulignant la complexité et les dangers d'une confiance aveugle dans des systèmes opaques.
Cette opacité, souvent désignée sous le terme de « boîte noire », découle du mode d'apprentissage des modèles d'IA : ils affinent leurs réponses en assimilant d'immenses volumes de données sans qu'il soit possible de retracer précisément l'origine ou la justification d'une décision donnée. Ce phénomène pose une question cruciale de gouvernance et de responsabilité, d'autant que ces systèmes interviennent de plus en plus dans des domaines à haut risque. La transparence, indispensable à l'exigence démocratique d'imputabilité, se trouve ainsi compromise. Il devient difficile de tenir pour responsables ni les concepteurs, ni les utilisateurs des intelligences artificielles lorsque les mécanismes internes échappent à toute compréhension.
Un exemple marquant illustre les enjeux de confiance liés à cette opacité : l'accident impliquant un véhicule autonome de la société Cruise. Malgré la puissance technique de cette innovation, la gestion post-incident a révélé des défaillances majeures dans la communication et la reconnaissance des responsabilités, entraînant la suspension de l'exploitation de la flotte et une remise en cause du leadership de l'entreprise. Ce cas souligne la nécessité impérieuse de mettre en place des mécanismes clairs de transparence et de responsabilité pour éviter que les progrès technologiques ne se traduisent par une perte de confiance sociétale.
Il est essentiel de comprendre que l'IA ne peut être envisagée comme une simple boîte à outils. Son développement et son déploiement doivent s'accompagner d'une réflexion approfondie sur l'accès équitable aux technologies, sur la formation nécessaire à leur utilisation responsable, et sur la vigilance à maintenir quant à leurs impacts sociétaux et éthiques. La révolution algorithmique ne se résume pas à la puissance brute, mais demande aussi une maîtrise collective des conditions de son intégration dans nos vies.
Quelles sont les perspectives offertes par les semiconducteurs modernes pour les applications électroniques et optoélectroniques?
Comment les milliardaires et les médias ont remodelé le discours politique aux États-Unis

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский