Article

#intelligenceartificielle #technologie #apprendreiaacomprendre

Limites des modèles IA locaux : d'Ollama à Claude

Agent IA local : installation, limites, leçons

Richard Golian3 April 2026 · 1 706 lectures

Bonjour, je suis Richard. Sur ce blog, je partage des réflexions, des histoires personnelles — et ce sur quoi je travaille. J’espère que cet article vous apportera quelque chose de précieux.

J'écris sur l'IA depuis début 2023. Au fil du temps, j'ai vu cette technologie transformer ma façon de coder, de penser le contenu, et d'envisager l'avenir du travail.

Ceci est l'histoire d'un pas de plus — de l'utilisation de l'IA comme outil à la tentative de construire quelque chose d'autonome par-dessus. Ça ne s'est pas passé comme prévu.

POURQUOI J'AI ESSAYÉ DE FAIRE TOURNER L'IA EN LOCAL

Avant d'avoir une vraie expérience en la matière, l'IA locale me semblait être le choix le plus intéressant. Pas seulement pour la flexibilité ou la sécurité — même si les deux comptaient — mais parce que ça me paraissait être l'approche la plus honnête de la technologie.

Au milieu de tout ce qui se passe autour de l'IA, faire tourner un modèle en local, le configurer, le connecter à des données, et voir où il casse — ça semblait fondamentalement différent d'utiliser une interface cloud bien finie. C'était la différence entre utiliser un outil et comprendre comment cet outil fonctionne réellement.

En même temps, ce n'était pas une expérience purement technique. J'avais un cas d'usage précis en tête dès le départ.

Le premier domaine où je voulais l'appliquer, c'était le SEO. Le SEO est une discipline documentée, relativement exacte. Il a une structure, des règles, des patterns et des résultats mesurables. En théorie, c'est idéal pour l'automatisation. Un agent peut scanner des centaines de sous-pages en quelques minutes, identifier des problèmes structurels, détecter des éléments manquants, et s'il a aussi accès aux données de tendances de recherche, il peut produire des recommandations de contenu pertinentes.

Ce n'est pas une idée abstraite. C'est un workflow réel avec une valeur business claire.

La vision plus large était plus ambitieuse. Je voulais construire un agent qui récupère des données à partir d'automatisations configurées, propose des étapes en fonction de ce qu'il trouve, envoie ces propositions quelque part pour révision, et à travers cette boucle de feedback, s'améliore progressivement. À un certain stade, une fois que ses propositions correspondent systématiquement à ce que je considère comme de bonnes décisions, il commencerait à exécuter ces actions de manière autonome.

Pas juste assister. Agir.

C'était l'objectif.

MAC MINI, OLLAMA, N8N

L'installation en elle-même était simple. J'ai utilisé un Mac Mini, fait tourner un modèle local via Ollama, et géré l'orchestration de base avec n8n.

Faire fonctionner Ollama a été étonnamment simple. Bien plus simple que ce que j'imaginais. En peu de temps, j'avais un modèle actif, qui répondait, et se comportait comme un chatbot. D'un point de vue purement technique, la barrière à l'entrée était basse.

En quelques heures, j'avais un pipeline basique en place. Le modèle était capable de récupérer des données, de faire une analyse marketing basique, et j'avais un chemin clair vers l'automatisation d'alertes dans Slack en fonction de la sortie. À ce stade, tout semblait prometteur. Le système fonctionnait, et il fonctionnait en local.

Ce que je ne comprenais pas encore pleinement, c'est à quelle vitesse j'allais toucher ses limites.

Puis j'ai testé sur des données représentatives conçues pour simuler des conditions réelles.

LA FENÊTRE DE CONTEXTE

C'est là que la vraie limitation est devenue évidente.

Le modèle pouvait gérer quelques pages de texte. Il pouvait traiter un petit tableau, ou un jeu de données de quelques kilo-octets. Dans cette plage, il se comportait de manière apparemment fonctionnelle.

Mais au moment où je lui ai donné des données SEO représentatives — le volume qu'il faut réellement analyser pour produire un résultat significatif — le système s'est effondré.

Il traitait ce qui rentrait dans sa fenêtre de contexte et ignorait le reste. Il produisait une sortie qui, en surface, semblait structurée, mais quand on regardait de plus près, elle n'avait presque aucune valeur. Il captait un chiffre quelque part dans les données et le répétait. Il ne combinait pas les signaux. Il ne priorisait pas correctement. Il ne comprenait pas les relations à travers le jeu de données.

Et la raison était simple. Il ne pouvait pas en voir assez.

Je l'ai remarqué immédiatement lors de la première vraie analyse. La qualité de la sortie était à peu près comparable à ce que les modèles cloud produisaient en 2023. Ce n'est pas une critique du modèle en soi. C'est un reflet des contraintes.

Le problème n'était pas la configuration. Ce n'était pas le prompting. Ce n'était pas un manque d'effort.

Le matériel déterminait quel modèle je pouvais faire tourner. Et le modèle que je pouvais faire tourner ne pouvait tout simplement pas contenir la quantité d'information requise pour la tâche.

CE QUE « AUTONOME » SIGNIFIE RÉELLEMENT

À ce stade, il est devenu clair ce que « autonome » exige réellement en pratique — et où le système échouait.

Un agent autonome n'est pas juste une boucle qui appelle un modèle de manière répétée. Il nécessite la capacité de raisonner sur une grande quantité de contexte, de maintenir la cohérence à travers plusieurs étapes, et de produire des résultats suffisamment précis pour agir dessus sans supervision constante.

Cela signifie qu'il doit retenir non seulement l'entrée courante, mais l'état accumulé de l'ensemble du workflow. Quelles données ont été récupérées, quelles actions ont été proposées, quelles décisions ont été prises, ce qui a échoué, ce qui a réussi, et quel est l'objectif global.

C'est là que la limitation devient structurelle.

Un modèle avec une fenêtre de contexte contrainte ne peut pas maintenir cet état. Il ne peut pas connecter les décisions dans le temps. Il ne peut pas évaluer ses propres productions de manière significative parce qu'il manque de visibilité sur l'ensemble du processus.

La vision du système n'était pas le problème.

L'infrastructure en dessous l'était.

LE PASSAGE À CLAUDE CODE

À ce stade, je suis passé à une solution cloud et j'ai commencé à travailler avec Claude Code d'Anthropic.

Continuer

Rejoindre la Bibliothèque

Accès complet à mes pensées, histoires personnelles, observations et ce que j'entends des gens que je rencontre.

Rejoindre la Bibliothèque — €29,99 par an

Résumé

J'ai essayé de construire un agent IA autonome en local — Mac Mini, Ollama, n8n. Les limitations de la fenêtre de contexte rendaient toute analyse significative impossible. Voici ce que j'ai appris sur l'IA locale vs cloud, et pourquoi je suis passé à Claude Code.

Questions fréquentes sur le sujet de l'article

Quelle est la différence entre l'IA locale et l'IA cloud ?

L'IA locale tourne sur votre propre matériel — vous donnant un contrôle total sur les données et sans coûts API récurrents, mais avec des limitations significatives en puissance de traitement et taille de fenêtre de contexte. L'IA cloud (comme Claude ou GPT-4) tourne sur des serveurs distants avec des modèles bien plus grands, des fenêtres de contexte plus longues, et de meilleures capacités de raisonnement, mais nécessite d'envoyer des données à l'extérieur et de payer à l'utilisation. Dans l'article, l'IA locale a été choisie initialement pour la confidentialité et le contrôle, mais ses limitations ont forcé un passage au cloud.

Qu'est-ce qu'une fenêtre de contexte et pourquoi est-ce important ?

La fenêtre de contexte est la quantité de texte qu'un modèle IA peut traiter en une seule interaction — comparable à la quantité d'un document qu'il peut voir en même temps. Les modèles locaux ont généralement des fenêtres de contexte bien plus petites que les modèles cloud. Dans l'article, c'était la limitation critique : face à des volumes de données SEO réelles, le modèle local ne pouvait traiter que ce qui tenait dans sa fenêtre et ignorait le reste, produisant une sortie qui semblait structurée mais n'avait presque aucune valeur analytique.

Qu'est-ce qu'Ollama et est-ce facile à installer ?

Ollama est un outil open-source qui permet aux utilisateurs de faire tourner de grands modèles de langage en local sur leur propre matériel. Dans l'article, l'installation est décrite comme étonnamment simple — en peu de temps, un modèle tournait et répondait sur un Mac Mini. La barrière à l'entrée était basse d'un point de vue technique. Les problèmes sont apparus seulement quand le modèle a été confronté à des volumes de données réels dépassant la capacité de sa fenêtre de contexte.

Les modèles IA locaux peuvent-ils gérer de vraies analyses de données business ?

Dans l'article, la réponse est pas encore — du moins pas pour des analyses complexes et multidimensionnelles. Le modèle local pouvait gérer de petits jeux de données et des requêtes simples. Mais face à des données SEO représentatives à l'échelle de la production, il s'est effondré : ne traitant que ce qui tenait dans sa fenêtre de contexte, captant des chiffres isolés sans comprendre les relations, et produisant une sortie comparable aux modèles cloud de 2023. L'écart entre local et cloud reste significatif.

Qu'est-ce qu'un agent IA autonome ?

Un agent IA autonome est un système qui récupère des données, propose des actions en fonction de ce qu'il trouve, apprend du feedback, et finit par exécuter des décisions de manière indépendante. Dans l'article, l'objectif était de construire un tel agent pour le SEO : scanner des sous-pages, identifier des problèmes, proposer des recommandations de contenu, et s'améliorer progressivement grâce à une boucle de feedback jusqu'à pouvoir agir sans intervention humaine. La vision n'était pas juste l'IA qui assiste — mais l'IA qui agit.

Les développeurs devraient-ils commencer par l'IA locale ou l'IA cloud ?

Dans l'article, commencer en local a fourni une compréhension pratique précieuse du fonctionnement réel des modèles — la différence entre utiliser une interface polie et comprendre la technologie sous-jacente. Cependant, pour des cas d'usage en production nécessitant un raisonnement complexe et de gros volumes de données, l'IA cloud était nécessaire. La recommandation pratique : expérimenter en local pour comprendre, mais utiliser les modèles cloud pour les vraies applications business où la qualité et la capacité de contexte comptent.

Si vous avez des pensées, des questions ou des retours, n’hésitez pas à m’écrire à mail@richardgolian.com.

NEWSLETTER

Ce sur quoi j'écris, ce sur quoi je travaille, ce que j'ai appris.

Envoyé le premier dimanche du mois. Désabonnement à tout moment.

Articles connexes

#intelligenceartificielle #technologie #apprendreiaacomprendre

L'IA peut-elle remplacer le jugement humain ?

L'IA crée le visuel, la newsletter et la page produit plus vite qu'une personne. À celui qui le faisait auparavant, il ne reste qu'une chose — le jugement, savoir si le résultat est bon. Mais la plupart des gens ont un moins bon jugement que l'IA. Et celui qui ne sait pas juger la qualité ne sait pas non plus déléguer. Comment savoir si le vôtre est le jugement sur lequel une entreprise s'appuie, ou celui qu'elle peut remplacer ?

30 mai 2026·155 lectures

#intelligenceartificielle #technologie #apprendreiaacomprendre

Qu'est-ce qui détermine le prix d'une action ?

En avril, dans la première partie de cette série, j'écrivais sur un système d'IA prédictif commencé sur mon propre ordinateur. Le logiciel avait alors quelques heures, le registre de prédictions était vide. Depuis, les enregistrements ont révélé une chose qui, avec le recul, était prévisible — le système ne comprend pas encore le marché qu'on lui demande de prévoir. Il sait trouver le contexte macro, la valeur comptable des entreprises, les bénéfices. Mais il ne sait pas assembler ces choses en quelque chose qui l'aide à comprendre le prix.

23 mai 2026·263 lectures

#intelligenceartificielle #technologie #apprendreiaacomprendre

Construire un système d'IA qui prédit la bourse et s'évalue lui-même

Je construis un système d'IA pour prédire le S&P 500. Il tourne sur ma propre machine, utilise des données publiques gratuites — yfinance, FRED, le jeu de données Shiller — et évalue chaque prévision face à la réalité. Cette série documente la construction elle-même : les décisions, la méthodologie, les erreurs. Ce que je partagerai finalement du système en fonctionnement est une question séparée, et honnête.

26 avril 2026·731 lectures

Plus d'articles

Où va l’argent quand l’IA prend le travail

Prague, 13 mai 2026. En allant au travail, je me suis mis à penser à quelque chose qui m’est resté en tête plusieurs jours. Si l’essentiel du travail routinier sur ordinateur disparaît dans les dix prochaines années, et qu’avec lui disparaît une large part du travail manuel répétitif, qu’advient-il du flux de l’argent ? Qui paie qui, et pour quoi ? Quelles couches économiques existeront, quelle sera leur taille, et quelles relations s’établiront entre elles ? Voici la carte en six couches que j’ai esquissée comme réponse.

15 mai 2026·784 lectures

#intelligenceartificielle #technologie

Prévision des ventes par IA : 9 pièges

Hier, je n'arrivais pas à m'arracher à l'ordinateur. Quand j'ai levé la tête, il était huit heures et demie du soir. J'étais resté seul à l'étage pendant environ trois heures.

25 avril 2026·693 lectures

#intelligenceartificielle #technologie

L'IA va-t-elle prendre mon travail ?

L'IA va-t-elle prendre mon travail ? Un formateur certifié Google m'a dit en juin 2024 que ma profession cesserait d'exister. Vingt-deux mois plus tard, mon intitulé de poste n'a pas changé — mais quatre-vingt-dix pour cent de ce que je fais dans la journée est différent. J'ai délégué plus de ma réflexion à des agents IA que je ne l'aurais cru possible. Je n'ai pas peur. Voici pourquoi, et ce que cela signifie pour quiconque se pose la même question.

23 avril 2026·442 lectures

#intelligenceartificielle #technologie

Devis de 50 000 € vs. deux heures avec Claude Code

Une heure. Cinquante-cinq minutes. Voilà le temps qu'il m'a fallu pour construire ce qu'une société tchèque de logiciels avait chiffré à plus de 50 000 €. Je l'ai construit avec Claude Code. Pas un prototype. Pas une preuve de concept. Un outil fonctionnel — celui dont l'entreprise avait réellement besoin. Le soir même, il tournait sur un environnement de test. Ce n'est pas à propos de Claude Code. C'est à propos de ce que Claude Code met à nu.

18 avril 2026·838 lectures

#intelligenceartificielle #cognition #technologie

L'IA nous rend-elle plus bêtes ?

J'ai mené environ cent cinquante entretiens pratiques au cours des quatre dernières années. Cinquante pour des postes de spécialistes en données. Une centaine pour des spécialistes en publicité et en marketing de performance. Dans la quasi-totalité des cas, il s'agissait de s'asseoir face à un candidat devant une tâche pratique — quelque chose de proche d'un problème réel que nous devons effectivement résoudre dans l'entreprise. Pas de théorie. Pas de trivialités. De la résolution de problèmes. Avec le temps, j'ai commencé à percevoir un schéma récurrent.

14 avril 2026·784 lectures

#intelligenceartificielle #technologie #apprendreiaacomprendre

Ce que l'IA vous cache

Avant d'enseigner quoi que ce soit à l'IA, il faut voir ce qu'elle vous cache.

11 April 2026·816 lectures

#intelligenceartificielle #technologie #apprendreiaacomprendre

Quand votre agent IA rejoint l'équipe

Dès que d'autres personnes ont eu besoin d'y accéder, le problème a complètement changé. Il ne s'agissait plus de savoir si l'agent pouvait apprendre. Il s'agissait de savoir qui avait le droit de lui enseigner.

2026-04-08·958 lectures

#intelligenceartificielle

Tout avec des agents d'IA ou totalement hors ligne.

Quatre jours en Catalogne. Sans ordinateur, sans IA, presque sans réseaux sociaux. J'ai acheté ce carnet pour y noter ce à quoi je penserais et ce que je rencontrerais et apprendrais durant le voyage.

10 mai 2026·461 lectures