Le problème : vos données partent chez OpenAI
Quand vous collez un contrat client dans ChatGPT, le texte quitte votre machine. Il traverse l’Atlantique, transite par les serveurs d’OpenAI, et est soumis au droit américain. Pour beaucoup d’usages, ce n’est pas grave. Pour d’autres, c’est un risque réel.
Les professions réglementées le savent. Un avocat qui colle un dossier de restructuration dans un chatbot cloud enfreint potentiellement le secret professionnel. Un DPO qui y envoie des données personnelles crée un transfert hors UE non documenté. Un cabinet de conseil qui y passe des données financières clients s’expose à une fuite de données qu’il ne contrôle pas.
La question n’est pas “l’IA est-elle utile”. Elle l’est. La question est : comment l’utiliser sans sacrifier la confidentialité ?
La stack souveraine : ce qu’on déploie chez nos clients
Voici la pipeline qu’on installe concrètement. Tout tourne sur un Mac ou un PC standard, sans connexion internet après l’installation initiale.
Ollama : le moteur local
Ollama est un runtime qui fait tourner des LLM directement sur votre machine. Pas de cloud. Pas de requête sortante. Le modèle est téléchargé une fois, puis tout se passe en local.
L’installation prend 5 minutes. Un ollama pull mistral et vous avez un modèle conversationnel qui tourne sur votre poste. Sur un Mac avec 16 Go de RAM, c’est fluide. Sur 8 Go, c’est utilisable mais plus lent.
Les modèles qu’on recommande :
- Mistral 7B : le modèle français. Excellent en français, rapide, bon pour la rédaction et l’analyse de texte. C’est notre choix par défaut.
- Llama 3.1 8B : le modèle de Meta. Plus rapide que Mistral, bon en anglais, un peu moins précis en français. Utile quand la vitesse compte.
- Gemma 2 9B : le modèle de Google. Bon compromis entre qualité et vitesse, supporte le multilingue.
Le choix du modèle dépend du hardware. Avec 16 Go de RAM, les modèles 7-9B tournent confortablement. En dessous, il faut des modèles quantifiés (plus légers, un peu moins précis).
AnythingLLM : l’interface utilisateur
Ollama seul, c’est un terminal. Pour des utilisateurs non-techniques, il faut une interface. AnythingLLM est une application web qui se connecte à Ollama et fournit une interface type ChatGPT, mais 100% locale.
Ce qu’AnythingLLM apporte :
- Interface conversationnelle dans le navigateur, comme ChatGPT
- Workspaces : un espace par projet ou par client, avec son propre contexte
- System prompts : des instructions permanentes par workspace (“tu es un analyste financier, réponds toujours en français, cite tes sources”)
- RAG intégré : glisser-déposer des documents, l’IA répond en s’appuyant dessus
RAG local : interroger ses documents
Le RAG (Retrieval-Augmented Generation) est ce qui transforme un chatbot générique en assistant qui connaît vos dossiers. Le principe : vous déposez des documents dans un workspace, le système les découpe en morceaux, les indexe, et quand vous posez une question, il retrouve les passages pertinents et les donne au modèle comme contexte.
Concrètement : vous glissez un dossier de 50 pages dans AnythingLLM, et vous pouvez demander “quelles sont les conditions suspensives du contrat de cession ?”. Le modèle vous répond en citant les passages du document.
Les limites du RAG local :
- La qualité dépend du modèle. Mistral 7B est bon mais pas parfait. Il peut rater des nuances ou mal interpréter un tableau complexe.
- Les gros volumes sont lents. Au-delà de quelques centaines de pages par workspace, l’indexation prend du temps.
- Pas de cross-workspace. Un workspace ne voit pas les documents des autres.
Quand rester en local, quand aller au cloud
Le local n’est pas toujours la bonne réponse. Voici notre arbre de décision :
Toujours en local :
- Documents clients confidentiels
- Données personnelles (RH, santé, juridique)
- Analyses financières non publiées
- Tout ce qui relève du secret professionnel
Cloud acceptable :
- Rédaction de contenu marketing (pas de données sensibles)
- Recherche web, veille, synthèse d’articles publics
- Brainstorming, idéation, brouillons non sensibles
- Code open source
Zone grise, évaluer au cas par cas :
- Données internes non classifiées
- Communications internes
- Processus RH anonymisés
La règle simple : si vous ne mettriez pas le document dans un email à un prestataire externe, ne le mettez pas dans un chatbot cloud.
Ce que ça coûte
Le coût d’une stack souveraine est essentiellement du temps d’installation :
- Ollama : gratuit, open source
- AnythingLLM : gratuit, open source
- Modèles : gratuits (Mistral, Llama, Gemma)
- Hardware : votre machine actuelle suffit si elle a 16 Go de RAM
- Installation et configuration : c’est là que le temps se passe
Le vrai investissement, c’est l’apprentissage. Savoir quel modèle utiliser pour quel cas, comment structurer ses workspaces, comment rédiger des prompts efficaces. C’est ce qui fait la différence entre un outil qui prend la poussière et un outil qui fait gagner 2 heures par jour.
Les limites honnêtes
Soyons clairs sur ce qu’un LLM local ne fait pas aussi bien que Claude ou GPT-4 :
- Raisonnement complexe : sur des tâches multi-étapes ou du raisonnement logique poussé, les modèles cloud restent devant. Un Mistral 7B ne rivalise pas avec Claude Opus sur l’analyse stratégique.
- Génération de code : pour du développement sérieux, Claude Code en cloud est très supérieur aux modèles 7B locaux.
- Multimodalité : l’analyse d’images, la transcription audio, la génération de visuels. Ça reste le domaine du cloud.
- Fenêtre de contexte : les modèles locaux ont des fenêtres plus courtes. Pour des documents très longs, le RAG compense, mais ce n’est pas aussi fluide.
La stack souveraine n’est pas un remplacement du cloud. C’est un complément pour les cas où la confidentialité est non négociable.
En résumé
| Local (Ollama + AnythingLLM) | Cloud (Claude, ChatGPT) | |
|---|---|---|
| Confidentialité | Totale | Dépend du fournisseur |
| Qualité des réponses | Bonne (7B) | Excellente (Opus, GPT-4) |
| Vitesse | Dépend du hardware | Rapide |
| Coût | Gratuit (hors hardware) | Abonnement mensuel |
| Installation | 30 min – 1h | Immédiate |
| Usage idéal | Données sensibles, conformité | Rédaction, code, recherche |
La souveraineté numérique n’est pas un concept abstrait. C’est une décision technique : quelles données restent chez vous, quelles données peuvent partir. Les outils existent. Il suffit de les installer.
Vos données doivent rester chez vous ? On installe votre pipeline IA locale →