2 mars 2026 · Ulysse Trin

Pipeline IA souveraine : outils et retour terrain

Le problème : vos données partent chez OpenAI

Quand vous collez un contrat client dans ChatGPT, le texte quitte votre machine. Il traverse l’Atlantique, transite par les serveurs d’OpenAI, et est soumis au droit américain. Pour beaucoup d’usages, ce n’est pas grave. Pour d’autres, c’est un risque réel.

Les professions réglementées le savent. Un avocat qui colle un dossier de restructuration dans un chatbot cloud enfreint potentiellement le secret professionnel. Un DPO qui y envoie des données personnelles crée un transfert hors UE non documenté. Un cabinet de conseil qui y passe des données financières clients s’expose à une fuite de données qu’il ne contrôle pas.

La question n’est pas “l’IA est-elle utile”. Elle l’est. La question est : comment l’utiliser sans sacrifier la confidentialité ?

La stack souveraine : ce qu’on déploie chez nos clients

Voici la pipeline qu’on installe concrètement. Tout tourne sur un Mac ou un PC standard, sans connexion internet après l’installation initiale.

Ollama : le moteur local

Ollama est un runtime qui fait tourner des LLM directement sur votre machine. Pas de cloud. Pas de requête sortante. Le modèle est téléchargé une fois, puis tout se passe en local.

L’installation prend 5 minutes. Un ollama pull mistral et vous avez un modèle conversationnel qui tourne sur votre poste. Sur un Mac avec 16 Go de RAM, c’est fluide. Sur 8 Go, c’est utilisable mais plus lent.

Les modèles qu’on recommande :

Mistral 7B : le modèle français. Excellent en français, rapide, bon pour la rédaction et l’analyse de texte. C’est notre choix par défaut.
Llama 3.1 8B : le modèle de Meta. Plus rapide que Mistral, bon en anglais, un peu moins précis en français. Utile quand la vitesse compte.
Gemma 2 9B : le modèle de Google. Bon compromis entre qualité et vitesse, supporte le multilingue.

Le choix du modèle dépend du hardware. Avec 16 Go de RAM, les modèles 7-9B tournent confortablement. En dessous, il faut des modèles quantifiés (plus légers, un peu moins précis).

AnythingLLM : l’interface utilisateur

Ollama seul, c’est un terminal. Pour des utilisateurs non-techniques, il faut une interface. AnythingLLM est une application web qui se connecte à Ollama et fournit une interface type ChatGPT, mais 100% locale.

Ce qu’AnythingLLM apporte :

Interface conversationnelle dans le navigateur, comme ChatGPT
Workspaces : un espace par projet ou par client, avec son propre contexte
System prompts : des instructions permanentes par workspace (“tu es un analyste financier, réponds toujours en français, cite tes sources”)
RAG intégré : glisser-déposer des documents, l’IA répond en s’appuyant dessus

RAG local : interroger ses documents

Le RAG (Retrieval-Augmented Generation) est ce qui transforme un chatbot générique en assistant qui connaît vos dossiers. Le principe : vous déposez des documents dans un workspace, le système les découpe en morceaux, les indexe, et quand vous posez une question, il retrouve les passages pertinents et les donne au modèle comme contexte.

Concrètement : vous glissez un dossier de 50 pages dans AnythingLLM, et vous pouvez demander “quelles sont les conditions suspensives du contrat de cession ?”. Le modèle vous répond en citant les passages du document.

Les limites du RAG local :

La qualité dépend du modèle. Mistral 7B est bon mais pas parfait. Il peut rater des nuances ou mal interpréter un tableau complexe.
Les gros volumes sont lents. Au-delà de quelques centaines de pages par workspace, l’indexation prend du temps.
Pas de cross-workspace. Un workspace ne voit pas les documents des autres.

Quand rester en local, quand aller au cloud

Le local n’est pas toujours la bonne réponse. Voici notre arbre de décision :

Toujours en local :

Documents clients confidentiels
Données personnelles (RH, santé, juridique)
Analyses financières non publiées
Tout ce qui relève du secret professionnel

Cloud acceptable :

Rédaction de contenu marketing (pas de données sensibles)
Recherche web, veille, synthèse d’articles publics
Brainstorming, idéation, brouillons non sensibles
Code open source

Zone grise, évaluer au cas par cas :

Données internes non classifiées
Communications internes
Processus RH anonymisés

La règle simple : si vous ne mettriez pas le document dans un email à un prestataire externe, ne le mettez pas dans un chatbot cloud.

Ce que ça coûte

Le coût d’une stack souveraine est essentiellement du temps d’installation :

Ollama : gratuit, open source
AnythingLLM : gratuit, open source
Modèles : gratuits (Mistral, Llama, Gemma)
Hardware : votre machine actuelle suffit si elle a 16 Go de RAM
Installation et configuration : c’est là que le temps se passe

Le vrai investissement, c’est l’apprentissage. Savoir quel modèle utiliser pour quel cas, comment structurer ses workspaces, comment rédiger des prompts efficaces. C’est ce qui fait la différence entre un outil qui prend la poussière et un outil qui fait gagner 2 heures par jour.

Les limites honnêtes

Soyons clairs sur ce qu’un LLM local ne fait pas aussi bien que Claude ou GPT-4 :

Raisonnement complexe : sur des tâches multi-étapes ou du raisonnement logique poussé, les modèles cloud restent devant. Un Mistral 7B ne rivalise pas avec Claude Opus sur l’analyse stratégique.
Génération de code : pour du développement sérieux, Claude Code en cloud est très supérieur aux modèles 7B locaux.
Multimodalité : l’analyse d’images, la transcription audio, la génération de visuels. Ça reste le domaine du cloud.
Fenêtre de contexte : les modèles locaux ont des fenêtres plus courtes. Pour des documents très longs, le RAG compense, mais ce n’est pas aussi fluide.

La stack souveraine n’est pas un remplacement du cloud. C’est un complément pour les cas où la confidentialité est non négociable.

En résumé

	Local (Ollama + AnythingLLM)	Cloud (Claude, ChatGPT)
Confidentialité	Totale	Dépend du fournisseur
Qualité des réponses	Bonne (7B)	Excellente (Opus, GPT-4)
Vitesse	Dépend du hardware	Rapide
Coût	Gratuit (hors hardware)	Abonnement mensuel
Installation	30 min – 1h	Immédiate
Usage idéal	Données sensibles, conformité	Rédaction, code, recherche

La souveraineté numérique n’est pas un concept abstrait. C’est une décision technique : quelles données restent chez vous, quelles données peuvent partir. Les outils existent. Il suffit de les installer.

Vos données doivent rester chez vous ? On installe votre pipeline IA locale →

Read in English