
C’était le 30 novembre 2023 et, au Collège de France, Benoît Sagot donnait sa leçon inaugurale. Le titre de l’exercice avertissait l’auditeur curieux : « Apprendre les langues aux machines ». Un an après la spectaculaire apparition de Chat GPT et de son aura d’intelligence artificielle générative, le public était nombreux dans l’amphi pour l’exposé du maître en la matière.
Au milieu de la leçon, cette sorte d’avertissement :
» Pour autant, comme l’ont rappelé Emily Bender et ses collègues dans un article fameux publié en 2021, ces modèles ne sont que des perroquets statistiques. Ils ne font que produire mot après mot le mot le plus probable étant donné un contexte. Il n’y a aucune planification du discours et donc aucune intelligence. »
Sur l’illustration à l’écran : « Les modèles génératifs sont des “perroquets stochastiques” Bender et al. (2021) »
Une affirmation bien polémique, dans un développement consacré aux intelligences artificielles, à Chat GPT, à la traduction automatique et à tout un domaine riche en promesses et en frayeurs insondables. Benoît Sagot la lance, juste après avoir noté que « Ces notions sont au cœur du TAL [traitement automatique des langues – NDLR] et le terme de modèle de langue se retrouve aujourd’hui partout. »
Au cours de la leçon, il a longuement décrit les procédés actuels de la traduction automatique : « Supposons que l’on cherche à traduire des phrases du français vers l’anglais. On doit donc trouver la meilleure traduction y en anglais d’une phrase x en français. Puisque nous sommes dans une approche probabiliste, on modélise la qualité d’une traduction par une probabilité [ ] que la phrase y soit une bonne traduction de la phrase x. Et on cherche à trouver le y qui maximise cette probabilité. Qui serait la meilleure traduction. Nous allons appliquer la formule de [ ] pour décomposer cette probabilité en deux composantes séparées. Une première, [ ] est déterminée par ce qu’on appelle un modèle de traduction. Le rôle du modèle de traduction est de modéliser comment les mots ou les séquences de mots doivent être traduits pour préserver au mieux le sens. Et un tel modèle est [ ] grâce à un corpus parallèle, c’est-à-dire une grande collection de phrases associées à la production humaine. Et la deuxième composante [ ] est calculée grâce à ce qu’on appelle une modèle de langue, un terme que vous avez peut-être déjà entendu. Son rôle est de faire en sorte que les traductions possibles soient en bon anglais, en estimant leur probabilité intrinsèque d’être une phrase plausible de l’anglais.
Un modèle de langue, c’est donc effectivement une distribution de probabilité sur les séquences de mots. C’est-à-dire qu’un modèle de langue vous donnera la probabilité, si vous ouvrez un livre au hasard ou une page web au hasard et que, dedans, vous choisissez une phrase au hasard, que vous tombiez sur une phrase particulière. Ça vous dira, par exemple, que la probabilité que vous tombiez sur la phrase inventée dans le monde numérique est supérieure à la probabilité que vous tombiez sur d’autres phrases que je ne sais pas prononcer.
Pour calculer de telles probabilités, on s’appuie sur de grands corpus de textes. Par exemple, en comptant toutes les séquences de deux et trois mots et en déduisant des probabilités pour des séquences de longueur trois et pour des séquences plus longues. Mais une telle approche a des limites structurelles qui sont problématiques.
On peut utiliser aussi des approches dites prédictives, où l’on entraîne un modèle à prédire le mot le plus probable, dans un certain contexte, en l’associant à une probabilité. Si ce contexte est restreint au contexte gauche, c’est-à-dire au mot qui précède, on essaie de générer le mot suivant le plus probable. On parle alors de modèle génératif. Si ce contexte inclut également les mots qui suivent, on par le de modèle de langue par marquage, puisque ça revient à cacher un mot dans une phrase et à apprendre au modèle à le retrouver. »
Qui prendra soin de réfléchir, d’exercer son intelligence naturelle et culturelle, comprendra aisément que la statistique, les probabilités, sont bien au centre des calculs des automates à quoi une « intelligence » est souvent attribuée, bien imprudemment.
Ce que disaient Emily Bender et ses collègues en 2021
[Professor Emily M Bender
Faculty Director of Professional Masters program in Computational Linguistics, University of Washington]
On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?
« Text generated by an LM [Language Model, modèle de langue-NDLR] is not grounded in communicative intent, any model of the world, or any model of the reader’s state of mind. It can’t have been, because the training data never included sharing thoughts with a listener, nor does the machine have the ability to do that. This can seem counter-intuitive given the increasingly fluent qualities of automatically generated text, but we have to account for the fact that our perception of natural language text, regardless of how it was generated, is mediated by our own linguistic competence and our predisposition to interpret communicative acts as conveying coherent meaning and intent, whether or not they do. The problem is, if one side of the communication does not have meaning, then the comprehension of the implicit meaning is an illusion arising from our singular human understanding of language (independent of the model)*. Contrary to how it may seem when we observe its output, an LM is a system for haphazardly stitching together sequences of linguistic forms it has observed in its vast training data, according to probabilistic information about how they combine, but without any reference to meaning : a stochastic parrot.
* Controlled generation, where an LM is deployed within a larger system that guides its generation of output to certain styles or topics, is not the same thing as communicative intent. One clear way to distinguish the two is to ask whether the system (or the organization deploying the system) has accountability for the truth of the utterances produced.
Authors : Emily M. Bender, Timnit Gebru, Angelina McMillan-Major, Shmargaret Shmitchell

À propos…
Écrire un mot à monbeauparis.net
Janvier 2024


