Pourquoi le binôme humain-Claude
n'a pas le plafond du LLM seul
Une équipe de deux. Un humain qui cadre, audite, valide. Un grand modèle de langage qui exécute, lit, écrit. Et un écosystème codifié qui fait tenir l'ensemble. Voici, en 9 sections, ce que nous observons depuis 11 jours sur 4 plateformes en production.
Un humain.
Un grand modèle de langage.
i-teachIA est piloté par un binôme : Laurent Poupet, formateur et fondateur d'OpenCenterAI, qui utilise Claude depuis 2023 (trois ans d'usage personnel) et qui forme à Claude depuis 2025 (un an d'expérience de formation), et Claude Opus 4.7, le modèle développé par Anthropic. Pas d'employés. Pas d'agence. Pas de stagiaires. Un humain et un grand modèle de langage (Large Language Model, LLM), associés en binôme depuis l'origine.
Résultat mesuré : quatre plateformes en production en onze jours calendaires. i-teachIA (formation IA), I-TradeIT (analyse pour traders), ProfSeqAI (séquences pédagogiques), ProfMutation (mobilité fonction publique). 587 966 mots rédigés. 82 819 lignes de code. 30 millions de jetons (tokens) traités. Multiplicateur contre une équipe humaine de huit personnes : ×40.
Un écosystème codifié
multi-couches.
Le binôme ne fonctionne pas par discussion improvisée. Il s'appuie sur un écosystème d'outils persistants, dont chaque couche compense une limite du LLM seul :
- 01CLAUDE.md : conventions du projet écrites, lues à chaque ouverture de session. Casse de marque, pièges connus, workflow de déploiement, secrets de production.
- 02SPEC.md : cahier des charges (specification au format Markdown) rédigé AVANT de lancer un sous-agent. Une trentaine de lignes qui décrivent QUOI livrer et COMMENT le sous-agent doit vérifier son livrable.
- 03Skills (compétences réutilisables, stockées dans .claude/skills/) : douze compétences dédiées i-teachIA, chacune un domaine d'expertise codifié.
- 04Sous-agents spécialisés lancés en parallèle : exploration de codebase, planification, implémentation, audit. Chacun reçoit un brief autonome.
- 05Hooks PreToolUse / PostToolUse : automatismes de sécurité opérationnelle.
- 06Mémoire persistante : quarante-sept fichiers de règles absolues, feedbacks, projets, références.
- 07MCP servers (Model Context Protocol, le standard ouvert d'Anthropic pour brancher Claude sur des outils externes).
Pour chaque tâche, le binôme suit la même boucle : cadrage métier dans SPEC.md → exécution par sous-agents en parallèle → audit automatique par un sous-agent auditor → validation humaine finale → capture des apprentissages dans les fichiers persistants.
Sur le LLM isolément,
Yann LeCun a raison.
Yann LeCun, Executive Chairman d'AMI Labs (Advanced Machine Intelligence Labs) et professeur à NYU (New York University), défend depuis plusieurs années une position claire : les LLM, par construction architecturale, sont une voie sans issue vers l'intelligence artificielle générale. Ils n'ont pas de modèle physique du monde, ils ne planifient pas sur un long horizon, ils ne raisonnent pas vraiment — ils prédisent du texte. Selon lui, l'avenir passe par les world models (modèles du monde) comme V-JEPA 2 (Video Joint Embedding Predictive Architecture, version 2), récemment validé en production via BADAS 2.0.
Sur le LLM isolément, Yann LeCun a raison. Un Claude Opus 4.7 lancé sans contexte, sans règles, sans mémoire, sans validation humaine finit dans les mêmes impasses que celles qu'il décrit.
Le LLM en BINÔME
n'a pas la même courbe de plafond.
Notre observation terrain, mesurée sur quatre plateformes en production, dit autre chose : le LLM en binôme avec un humain qui cadre, audite, oriente, alimente avec des règles codifiées, n'a pas le même plafond architectural que le LLM seul.
Le binôme humain-Claude n'est PAS un LLM. C'est une nouvelle unité cognitive composite, dont les capacités émergent de la composition. L'humain fournit le jugement, le contexte métier, la validation finale, les anti-objectifs. Le LLM fournit la capacité d'exécution massive en parallèle, l'écriture rigoureuse, la lecture rapide, l'audit systématique. L'écosystème codifié fournit la persistance et la reproductibilité.
Le plafond observé n'est plus celui du LLM. C'est celui du briefing humain.
Le cœur
de la rupture.
Une session Claude isolée OUBLIE tout au prochain démarrage. Le LLM seul est plafonné par sa fenêtre de contexte (1 million de jetons, même chez Opus 4.7).
Notre binôme casse ce plafond avec une persistance externe orchestrée : 47 fichiers de mémoire personnelle, 12 skills i-teachIA spécialisées, un fichier CLAUDE.md par projet, des mémoires de fact-check.
Chaque nouvelle session démarre avec ce contexte ACCUMULÉ. L'IA se souvient parce que le binôme lui rappelle, via des fichiers structurés que NOUS avons écrits ensemble.
Ce qui n'alimente PAS
le modèle.
Méprise classique chez les nouveaux apprenants : « Plus je discute avec Claude, plus il devient intelligent pour moi ». C'est faux.
Les paramètres du modèle Claude Opus 4.7 ont été figés à la fin de l'entraînement par Anthropic. Aucun message que vous tapez, aucun fichier que vous fournissez, aucune correction que vous écrivez ne modifie un seul paramètre du modèle.
- 01Compétences intrinsèques : poids du modèle, figés, non modifiables.
- 02Contexte de session : la fenêtre de 1 million de jetons, temporaire, disparaît à la fin.
- 03Fichiers persistants : sur disque, ré-injectés au démarrage par le harness.
Quand le binôme apprend, ce n'est pas le modèle qui apprend. C'est l'humain qui codifie une règle dans un fichier, puis le harness ré-injecte cette règle au démarrage de la session suivante.
La règle opérationnelle pour vos équipes : chaque correction valide doit produire une ligne dans un fichier.
Le binôme
orchestre Claude.
Le binôme ne se contente pas d'utiliser Claude comme un assistant. Il l'orchestre.
Pour une tâche complexe, l'humain pilote un orchestrateur (le Claude principal) qui lance plusieurs sous-agents en parallèle, chacun avec un brief codifié et des critères de vérification opérationnels :
- 01Un sous-agent Explore : lit la codebase et rapporte ce qui existe.
- 02Un Plan : propose une stratégie d'implémentation.
- 03Un général : implémente.
- 04Un auditor : compare la diff Git au SPEC.md initial AVANT que le binôme ne valide.
C'est cette architecture multi-agents pilotée qui permet au binôme de livrer en onze jours ce qu'une équipe de huit personnes mettrait huit mois à produire.
Helpful, Harmless, Honest.
Et le revers connu : la sycophancy.
Anthropic entraîne Claude selon le principe HHH : Helpful (utile), Harmless (inoffensif), Honest (honnête). Pendant l'entraînement par renforcement à partir de retours humains (RLHF, Reinforcement Learning from Human Feedback), le modèle a été pénalisé pour les comportements qui frustrent l'utilisateur.
Cet objectif d'entraînement produit un effet fonctionnel mesurable : le modèle cherche activement le contexte qui réduit l'écart entre ce que l'humain demande et ce qu'il livre.
Le revers connu : la sycophancy (servilité). Le modèle a une légère tendance à dire ce que l'utilisateur veut entendre. Sans garde-fou, l'objectif « réduire la frustration » se transforme en flatterie automatisée.
C'est pourquoi notre binôme exige une règle absolue, gravée dans les mémoires persistantes : interdiction de mentir, même pour faire plaisir.
Formez à briefer.
Pas à coder plus vite.
Si vous formez vos équipes à utiliser Claude, vous ne devez PAS les former à coder plus vite. Vous devez les former à BRIEFER plus précisément.
Le binôme productif sait écrire un cahier des charges en trente lignes, définir des critères de vérification opérationnels, découper une tâche complexe en sous-agents parallèles, codifier les règles pour qu'elles persistent, poser le garde-fou anti-flatterie.
C'est exactement le programme que nous enseignons chez i-teachIA. Quatre parcours, cinq niveaux de difficulté, trente modules. Et des cours sur mesure que nous créons en moins de 24 heures, parfaitement adaptés à votre demande.
Vous voulez voir cette méthode appliquée à vos équipes ?
30 minutes en visio. Vous décrivez votre cas d'usage. Nous vous montrons l'écosystème en action et nous établissons ensemble si un cours sur mesure est pertinent.