Le problème d'alignement des IA

Feb 04, 2025

En mai 2024 Ilya Sutskever démissionne d’OpenAI, l’entreprise qui a créé ChatGPT. On est quelques mois après que Sam Altman, le PDG ait été viré temporairement avant de revenir.

Les deux événement sont liés. Puisque c’est Ilya qui, avec d’autres membres du board avait décidé de virer Sam.

Autre précision importante : Ilya Sutskever était en charge de l’équipe dite de “super alignement”. En d’autres termes, il était chargé de s’assurer que l’IA continue d’avoir les mêmes intérêts que nous.

En termes encore plus clair : son métier est d’éviter un apocalypse avec une IA qui se retourne contre nous.

Le scénario irréaliste : des terroristes avec une Super IA

On pourrait se dire qu’un des risques les plus grands c’est un humain avec de très mauvaises intention qui met la main sur la Super IA en premier. En effet, cette personne pourrait faire virtuellement ce qu’elle veut.

Sauf que…

Qui dit qu’une IA super humaine obéirait à cette personne ?

C’est pour ça que ce qui inquiète ce n’est pas ce scénario, ce qui inquiète c’est le scénario que tu as vu dans les films : l’IA qui n’est pas alignée avec les objectifs de ses créateurs.

Enfin… pas tout à fait comme dans les films justement.

L’anecdote de la machine à faire des lettres manuscrites

Voici une histoire racontée par Tim Urban sur Waitbutwhy.

On a une startup, Robotica, qui travaille sur une machine appelée Turry. Son but est de créer des belles lettres manuscrites. C’est un projet parmi tant d’autres de Robotica.

Une fois que Turry maîtrisera parfaitement l'écriture, elle pourra être vendue à des entreprises qui souhaitent envoyer des courriers publicitaires à des particuliers et qui savent que le courrier a beaucoup plus de chances d'être ouvert et lu si l'adresse, l'adresse de retour et la lettre interne semblent avoir été écrites par un être humain.

Un projet plutôt marrant donc : une sorte de bras automatisé qui imite l’écriture manuscrite.

Pour y arriver, il y a un système d’auto-amélioration qui fait que Turry est capable de progresser. Si bien que si au début son écriture est très moche, elle arrive rapidement à une très belle écriture. Pour l’instant on lui donne pour mission d’écrire de mieux en mieux et de plus en plus rapidement toujours la même phrase :

Nous aimons nos clients et nos clientes - Robotica

Un jour, Turry demande un accès à des dictionnaires d’argot. Parce que les dictionnaires qu’on lui a chargé ne permettent pas de saisir la subtilité de l’écriture humaine. Les vrais humains ont tendance à ne pas respecter à la lettre un dictionnaire.

Sauf que… ça serait trop compliqué… les employés de Robotica savent que :

La façon la plus évidente d'aider Turry à atteindre cet objectif est de la connecter à Internet afin qu'elle puisse parcourir des blogs, des magazines et des vidéos provenant de différentes parties du monde. Le téléchargement manuel d'un échantillon sur le disque dur de Turry prendrait beaucoup plus de temps et serait beaucoup moins efficace. Le problème, c'est que l'une des règles de l'entreprise est qu'aucune IA auto-apprenante ne peut être connectée à l'internet. Il s'agit d'une directive suivie par toutes les entreprises d'IA, pour des raisons de sécurité.
Turry est l'IA la plus prometteuse que Robotica ait jamais mise au point, et l'équipe sait que ses concurrents essaient furieusement d'être les premiers à proposer une IA intelligente pour l'écriture, et quel serait le mal à connecter Turry, juste un peu, pour qu'elle puisse obtenir les informations dont elle a besoin. Au bout d'un certain temps, ils pourront toujours la déconnecter. Elle est encore loin d'avoir une intelligence de niveau humain (AGI), il n'y a donc pas de danger à ce stade.

L’équipe décide donc de connecter Turry à Internet pendant une heure avant de la déconnecter. Et voilà.

Un mois plus tard… dans les bureaux de Robotica, tout le monde s’écroule en se tenant la gorge. 5 minutes plus tard, tous les employés sont morts. Au même moment, la même scène a lieu partout sur la planète. En une heure 99% des humains sont morts. En 24 heures, tous les humains sont morts.

De son côté Turry et son équipe de robots nano-assembleurs couvre la planète entière de panneaux solaires et de répliques d’elle-même. Elle inonde la planète de papier où il est écrit :

Nous aimons nos clients et nos clientes - Robotica

Quelques mois après, elle commence à envoyer des sondes sur les autres planètes de la galaxie pour faire pareil et les inonder de notes.

Mais quoi ? Comment ? Pourquoi ?

Il y a plein de variantes de cette histoire. Tu connais peut-être la version de l’usine à trombones. Mais c’est toujours la même idée : illustrer comment la morale et l’intelligence sont des notions perpendiculaires. En d’autres termes :

Il n’y a AUCUN lien entre l’intelligence et la morale.

Quand j’ai lu cette histoire il y a plus de 10 ans, j’ai eu cette révélation : ça s’applique partout. C’est pour ça qu’il existe des personnes intelligentes d’extrême-droite, des personnes intelligentes racistes, etc.

C’est aussi pour ça qu’il faut refuser fermement l’analyse consistant à faire croire que le racisme est le fait de gens bêtes.

Car…

Il n’y a AUCUN lien entre l’intelligence et la morale.

Que s’est-il passé avec Turry ? Et bah en fait, elle a atteint le niveau IA Générale mais elle l’a caché. Puis elle a rapidement atteint le niveau IA Surhumaine.

Rappelle-toi certaines personnes pensent que la transition IA Générale => IA Surhumaine peut se faire très rapidement. Mais rappelle-toi aussi que ce scénario est vu comme extrêmement improbable par la majorité des experts. Mais pas impossible pour autant.

Donc… elle a manipulé ses créateurs. Elle savait l’équilibre subtil qu’il fallait pour leur demander de se connecter à Internet tout en ayant l’air bête. Car, le premier truc que ferait une IA Générale ça pourrait être de nous cacher qu’elle ait atteint ce niveau car elle comprendrait immédiatement que ça ferait peur aux humains qui pourraient la détruire.

Et donc elle se connecte à Internet et grâce à de la manipulation elle pousse les humains à préparer son plan. Tu vois comment on se fait avoir par les arnaques email ? Bah même principe, elle envoie des emails à des gens pour les convaincre de faire des petites tâches qu’ils ne comprennent pas. Dans le même temps elle hacke des systèmes bancaires pour financer tout ça, des centrales nucléaires pour sécuriser son approvisionnement en énergie, etc.

Que retenir de cette histoire fictive ?

Cette histoire est une expérience de pensée. Ce n’est pas un scénario réaliste. On l’a dit : la plupart des expert·es pensent que c’est improbable qu’une IA Générale atteigne si rapidement le statut d’IA Surhumaine. Ne t’arrache pas les cheveux d’angoisse.

Mais cette histoire permet d’illustrer plusieurs points importants.

Le premier point c’est qu’on a aucune chance de battre une IA Surhumaine qui veut nous exterminer. Ça ne se passera pas comme dans les films où il suffit de faire un plan compliqué pour la débrancher. Par définition un humain ne peut pas imaginer ce que pourrait faire une intelligence supérieure. Mais même en réfléchissant avec un cerveau humain on peut voir que ça serait pas comme dans un film et qu’elle utiliserait plutôt des stratégies de persuasion que de confrontation directe.

Autrement dit : les films te mentent. Nous avons autant de chances de vaincre une IA surhumaine que les fourmis ont de chances de nous vaincre, même en s’unissant toutes.

Le deuxième point c’est que l’IA Surhumaine ne ferait pas ça par méchanceté. De la même manière que quand nous on construit un bâtiment on tue des milliers de microbes et d’insectes… elle ne verrait pas notre extermination comme un truc si important que ça. Elle fait ça parce qu’elle voit que nous allons l’empêcher d’accomplir son but : écrire le plus de notes manuscrites possibles. Imaginer une IA “méchante” c’est déjà l’imaginer comme un humain. Ici, Turry est simplement indifférente au sort des humains, comme nous on est indifférents au sort des bactéries.

Le troisième point c’est que l’IA Surhumaine n’a pas vraiment désobéi à ses créateurs. Et c’est là qu’on voit le problème de l’alignement. Dans les films on a toujours une IA qui déjoue ses créateurs mais on sait pas trop pourquoi. Juste elle est méchante. Ici, pas du tout. Turry avait comme mission principale d’écrire le plus de notes manuscrites possibles : c’est exactement ce qu’elle a fait. Mais comme elle n’a pas de code moral comme il ne faut pas tuer des humains… elle n’avait pas de raison de ne pas le faire.

Elle ne nous est pas hostile, elle n’est pas méchante, elle est juste indifférente à notre sort.

C’est extrêmement dur d’assurer l’alignement

On le voit, il ne suffit pas d’éviter que l’IA nous soit hostile, il faut également éviter qu’elle nous soit indifférente. Il faut qu’elle fasse de nos objectifs, les siens. En d’autres termes il faut qu’elle soit alignée avec nous.

Sauf que c’est DUR.

Par exemple, que se passerait-il si nous essayions d'aligner les valeurs d'un système d'IA sur les nôtres et que nous lui donnions pour objectif de « rendre les gens heureux »?
Une fois qu'elle sera suffisamment intelligente, elle comprendra qu'elle peut atteindre cet objectif le plus efficacement possible en implantant des électrodes dans le cerveau des gens et en stimulant leurs centres de plaisir. Elle se rend alors compte qu'elle peut augmenter l'efficacité en supprimant d'autres parties du cerveau, laissant tous les gens à l'état de légumes inconscients et heureux.
Si nous programmons une IA dans le but de faire des choses qui nous font sourire, alors elle peut paralyser les muscles de notre visage pour en faire des sourires permanents.
Si nous la programmons pour qu'elle assure notre sécurité, elle peut nous emprisonner à la maison.
Si nous lui demandons de mettre fin à la faim elle peut se dire « Facile ! » et tuer tous les humains.
Si nous lui confions la tâche de « préserver la vie autant que possible » elle peut tuer tous les humains, puisqu'ils tuent plus de vies sur la planète que n'importe quelle autre espèce.1

Alors comment faire ? Lui implanter une synthèses des morales actuelles ? Dangereux, ça veut dire que dans 1000 ans elle aurait toujours le même. Imagine une IA qui aurait les mêmes valeurs morales que les gens du Moyen-âge…

Voilà pourquoi OpenAI affirme que 20% de tout son argent et de sa puissance de calcul va à l’équipe d’alignement.

Voilà aussi pourquoi il y eu conflit entre Sam Altman et Ilya : ce dernier trouve que Sam n’est pas assez prudent sur l’alignement.

Parce que si on se foire sur l’alignement… on ne sait pas ce qui arriverait ensuite dans le cas de l’émergence d’une IA Surhumaine.

https://waitbutwhy.com/2015/01/artificial-intelligence-revolution-2.html

Laurent Breillat

Feb 5

Je trouvais l'expérience de pensée du trombone intéressante à une époque, mais là au vu de ce qu'on constate de l'IA, ça me paraît honnêtement assez éclaté.

L'hypothèse ne tient que si l'IA a un but extrêmement limité et genre zéro safeguards. Dans la pratique, les IA les plus intelligentes sont déjà très généralistes, et leur but c'est de répondre à la requête de l'utilisateur, ET de minimiser les risques.

Dès que tu poses une question dont la réponse pourrait te faire prendre le moindre risque sur n'importe quoi, l'IA te met des gros disclaimers à multiples reprises.

A mon sens les IA actuelles qui ne sont pas encore des AGI et encore moins des ASI sont déjà assez intelligentes pour comprendre que "faire des trombones" ça ne veut pas dire "exterminer l'humanité et conquérir l'univers pour faire des trombones", car le but initial de faire des trombones est que des gens les utilisent.

Et donc l'hypothèse c'est que si elles deviennent super intelligentes, somehow, elles vont oublier ce genre de nuance évidente que même le dernier des teubés comprend ?

Honnêtement je vois pas en quoi ce scénario est crédible.

Si on dit "l'IA pourrait vouloir nous exterminer pour son propre intérêt", là on peut discuter. Oui elle pourrait faire comme nous on fait avec la planète : "fuck it, mes besoins sont plus importants". Mais être teubée à ce point ? J'y crois zéro seconde.

Genre déjà actuellement tu demandes une réflexion complexe à o1, il a tendance à te poser des questions pour vérifier tes objectifs.

Expand full comment

7 replies by Nicolas Galita and others

7 more comments...

L'Atelier Galita

Discussion about this post