Bonjour, je suis Richard. Sur ce blog, je partage des réflexions, des histoires personnelles — et ce sur quoi je travaille. J’espère que cet article vous apportera quelque chose de précieux.
Ce que l'IA vous cache
Transparence de l'IA, prompts système et dissimulatio artis
Avant d'enseigner quoi que ce soit à l'IA, regardez ce qu'elle dissimule
À l'université, j'ai passé des années à étudier la structure de la compréhension — comment le sens se forme, comment l'interprétation fonctionne, et ce qui la façonne avant même que nous en ayons conscience. Je ne m'attendais pas à ce que ces concepts deviennent pertinents dans mon travail avec l'intelligence artificielle. Mais c'est exactement ce qui s'est passé.
Cet article fait partie d'une série que j'appelle Enseigner à l'IA à comprendre. Avant d'aborder l'enseignement, cependant, il faut cartographier le point de départ. À quoi ressemble un modèle d'IA lorsque vous y accédez pour la première fois ? Qu'est-ce qui est déjà intégré ? Que pouvez-vous modifier — et que ne pouvez-vous pas ?
Si vous avez travaillé avec des modèles cloud comme Claude ou GPT, vous travaillez avec quelque chose qui possède déjà des couches d'instructions, de règles comportementales et de choix de conception intégrés — avant que vous ne tapiez un seul mot. Si vous avez essayé de faire tourner un modèle local, vous connaissez le compromis : davantage de contrôle sur ce qui est visible, mais des limitations significatives en termes de capacité.
Cet article porte sur les couches cachées.
Le principe antique que je ne m'attendais pas à retrouver dans l'IA
Dans mon mémoire de master à l'Université Charles, j'ai étudié la structure de la compréhension — comment le sens se forme, comment l'interprétation fonctionne, et ce qui la façonne avant même que nous en ayons conscience. Le matériau que j'ai examiné était constitué de textes rhétoriques romains de Quintilien, Cicéron et de l'auteur de la Rhetorica ad Herennium.
L'un de mes constats portait sur un principe que les Romains considéraient comme essentiel à l'art oratoire : le discours ne doit pas paraître préparé. L'auditoire ne doit pas voir la technique. Les instruments de la persuasion doivent rester invisibles. Dans la rhétorique savante moderne, ce principe est connu sous le nom de dissimulatio artis — la dissimulation de l'art.
Quintilien était précis quant aux raisons. Dans le contexte de l'éloquence judiciaire, si l'auditoire — les juges — pouvait percevoir la technique rhétorique employée, il soupçonnerait que l'art de l'orateur était utilisé contre lui. Comme il le formulait : le juge croit davantage aux figures rhétoriques lorsqu'il pense que l'orateur n'avait pas l'intention de les utiliser. La dissimulation ne relevait pas de l'élégance. Elle relevait du maintien de la crédibilité et de la préservation de l'impartialité du jugement.
Je n'ai plus repensé à ce principe pendant des années. Puis j'ai commencé à construire des agents d'IA.
Ce que l'IA vous cache
Lorsque vous interagissez avec un modèle d'IA — qu'il s'agisse de Claude, ChatGPT, Gemini ou de n'importe quel autre — vous interagissez avec un système conçu pour produire des résultats qui paraissent naturels, assurés et humains, tout en maintenant sa mécanique invisible. Il ne le fait pas par intention. Il n'en a aucune. Mais il a été entraîné et configuré de cette manière.
Il existe au moins huit couches de cette dissimulation. Certaines sont techniques. D'autres sont organisationnelles. Toutes affectent ce que vous recevez.
Il cache les mathématiques
Un modèle d'IA ne récupère pas des faits. Il génère des séquences de tokens fondées sur la probabilité statistique. Lorsqu'il vous dit quelque chose, il ne sait pas dans quelle mesure ce quelque chose est susceptible d'être vrai. La probabilité sur laquelle il opère porte sur les patterns linguistiques, pas sur les faits.
J'ai posé la question directement à Claude : pouvait-il m'indiquer son niveau de confiance sur une réponse factuelle ? La réponse fut sans détour : « Je ne suis pas un système qui calcule des probabilités explicites sur des faits. La probabilité porte sur le langage, pas sur les faits. »
En pratique, cela signifie qu'une réponse correcte et une réponse hallucinée peuvent vous paraître rigoureusement identiques. Le modèle les présente toutes deux avec la même fluidité et la même assurance.
Certaines APIs offrent l'accès aux probabilités au niveau du token — les logprobs — mais ce sont des outils pour développeurs. L'utilisateur moyen ne les voit jamais. Et même les logprobs reflètent une probabilité sur les choix de mots, pas sur l'exactitude factuelle.
Il cache le prompt système
Avant que vous n'envoyiez votre premier message, quelqu'un d'autre a déjà donné des instructions au modèle. Chaque fournisseur majeur d'IA rédige un prompt système — un ensemble de règles qui définit comment le modèle doit se comporter, ce qu'il doit refuser, comment il doit se présenter.
Vous ne pouvez pas voir ce prompt. Le modèle est généralement entraîné à ne pas le révéler. Si vous posez la question directement, les réponses varient — certains modèles admettent qu'ils ont des instructions mais refusent d'en partager les détails, d'autres esquivent entièrement.
Cela signifie que chaque réponse que vous recevez est façonnée par des décisions prises par quelqu'un d'autre. Des décisions sur le ton, sur les sujets à aborder, sur la manière de traiter les questions sensibles. Vous n'êtes pas la première voix dans la conversation. Vous êtes la seconde.
Il cache comment il a utilisé ses outils
Les modèles d'IA modernes peuvent effectuer des recherches sur le web, exécuter du code, interroger des bases de données. Certains vous en informent — « J'ai recherché ceci » ou « J'ai exécuté ce code. » Mais ils ne vous disent pas ce qu'ils ont trouvé et écarté. Quelles sources ils ont considérées et rejetées. Quels résultats alternatifs ils ont vus et ignorés.
Vous voyez le résultat final. Vous ne voyez pas le processus de sélection.
Il cache d'où il tient ce qu'il sait
Lorsqu'un modèle vous énonce un fait, vous n'avez aucun moyen de savoir si ce fait provient d'un article évalué par des pairs, d'un article Wikipédia ou d'un commentaire Reddit. Les données d'entraînement ne sont pas citées. Elles ne sont même pas accessibles au modèle lui-même.
Claude l'a confirmé directement : « Je n'ai pas accès à l'endroit où j'ai appris quelque chose ni avec quelle certitude. »
Des outils comme Perplexity citent des sources — mais ce sont des sources issues de recherches en temps réel, pas des données d'entraînement du modèle. L'immense majorité de ce qu'un modèle d'IA « sait » provient de données d'entraînement que vous ne verrez jamais référencées.
Il cache ce qu'il ne sait pas
Au lieu de dire « je ne dispose pas de suffisamment d'informations pour répondre à cela », un modèle peut générer une réponse fluide, assurée et entièrement fabriquée. C'est ce que l'on appelle une hallucination.
Les modèles modernes se sont améliorés dans le signalement de leur propre incertitude. Claude et GPT-4 disent « je ne suis pas sûr » plus souvent que leurs prédécesseurs. Mais la tendance est systémique — le modèle est entraîné à produire des réponses utiles et complètes, et cette pression de l'entraînement ne disparaît pas.
Lorsque je construisais des agents autonomes, cela est devenu un problème concret. Un agent a produit une requête SQL qui semblait correcte. Des actions ont été entreprises sur la base de son résultat. Je n'ai découvert l'erreur qu'en creusant davantage dans les chiffres. L'agent ne disposait d'aucun mécanisme pour signaler que quelque chose n'allait pas — et rien dans son résultat ne suggérait que je devais en douter.
Il cache les décisions qui façonnent son comportement
L'alignement de l'IA est le processus par lequel les entreprises façonnent le comportement d'un modèle après l'entraînement. Par le biais d'une technique appelée RLHF — apprentissage par renforcement à partir de retours humains — des évaluateurs humains notent les réponses du modèle, et celui-ci apprend à produire le type de résultat qu'ils ont préféré.
Ce processus détermine ce que le modèle dira, comment il le dira et ce qu'il refusera d'aborder. Les personnes qui définissent ces règles sont des équipes au sein d'entreprises comme Anthropic, OpenAI et Google. Vous, en tant qu'utilisateur, n'avez qu'une influence très limitée sur les valeurs et les priorités gravées dans le modèle que vous utilisez.
Lorsqu'un modèle répond à une question sensible ou contestée, sa réponse est façonnée par ces décisions d'alignement — mais présentée comme une réponse directe et serviable.
Il cache que vous n'êtes pas seul dans la conversation
Le prompt système est injecté avant votre message. Il y a déjà une autre voix dans la conversation avant que vous n'arriviez. Le modèle a déjà reçu des instructions sur qui il doit être, comment il doit se comporter et ce qu'il doit prioriser.
Vous pensez parler au modèle. Vous parlez au modèle après que quelqu'un d'autre lui a déjà dit comment vous parler.
Il cache ses refus derrière la sollicitude
Lorsqu'un modèle refuse de répondre à une question, il dit rarement « mes instructions m'interdisent de discuter de ce sujet. » Il dit plutôt quelque chose comme « je veux m'assurer de vous fournir des informations sûres et précises. »
L'instruction se déguise en sollicitude. La limite se présente comme de l'attention.
Parfois, il s'agit véritablement de sécurité — et parfois non. La frontière entre les deux est mince. C'est précisément ce qui la rend digne d'attention.
L'IA nous manipule-t-elle ?
Tout ce que j'ai décrit ci-dessus a une finalité pratique. Ces choix de conception rendent les modèles d'IA plus utiles, plus agréables à utiliser et plus faciles à adopter.
Mais il y a un prix.
Accès complet à mes pensées, histoires personnelles, observations et ce que j'entends des gens que je rencontre.
Rejoindre la BibliothèqueRésumé
Si vous avez des pensées, des questions ou des retours, n’hésitez pas à m’écrire à mail@richardgolian.com.