Tout le monde parle d'auto-héberger Llama ou Mistral. Peu le font vraiment. Après avoir déployé les deux pour des clients qui avaient des contraintes fortes, voici ce qu'il faut savoir.
Quand c'est pertinent
- Confidentialité : données médicales, juridiques, finance — cas où rien ne peut sortir de votre infra.
- Souveraineté : secteur public, acteurs régulés, géopolitique.
- Volume énorme constant : plusieurs millions de requêtes/jour sur une tâche fixe.
- Latence ultra-basse requise : < 50ms first token, difficile avec des API externes.
- Coût prévisible : une app SaaS avec usage intensif bénéficie d'un modèle auto-hébergé qui plafonne à coût fixe.
Quand c'est une erreur
- Usage faible/variable : vous payez du GPU qui tourne à vide.
- Équipe sans compétence ML ops : maintenance chronophage.
- Besoin de qualité Claude/GPT-5 : les modèles open source restent 15-25 % derrière les frontières.
Le modèle à choisir
- Llama 3.3 70B : qualité solide, licence Meta permissive sauf > 700M utilisateurs actifs.
- Mistral Large 2 : excellent en français, license Apache.
- Qwen 2.5 72B : le meilleur rapport qualité/poids open en 2026, licence Apache.
- DeepSeek V3 : champion coût/perf, mais attention à la license et à la provenance.
Le hardware
Pour un 70B en qualité décente (quantisation 4-bit) : 2x H100 ou 1x H200. Environ 30-40 k€ à l'achat, ou 3-6 $/h sur Runpod / Lambda.
Le stack serveur
- vLLM : le meilleur serveur en 2026. Throughput 3-5x supérieur aux autres.
- SGLang : challenger solide, meilleur pour les use cases à contextes partagés (chatbots).
- Ollama : pour dev et petits déploiements < 10 utilisateurs simultanés.
Exemple de déploiement vLLM
docker run --gpus all -p 8000:8000 \
-v ~/.cache/huggingface:/root/.cache/huggingface \
vllm/vllm-openai:latest \
--model meta-llama/Llama-3.3-70B-Instruct \
--tensor-parallel-size 2 \
--quantization awqVotre modèle est exposé via une API OpenAI-compatible. Vos clients existants (Langchain, etc.) marchent sans changement.
Coût réel
Exemple : 2x H100 loués 4 $/h = 96 $/jour = 2880 $/mois. Pour rentabiliser vs Claude Sonnet (3 $/M tokens output), il faut ~960M tokens output/mois. Gros volume seulement.
Observabilité et sécurité
- Logging des prompts (attention RGPD).
- Rate limiting par utilisateur.
- Monitoring GPU (nvidia-smi, DCGM).
- Update sécurité du modèle quand des vulns sont découvertes (oui, ça arrive).
Besoin d'un POC LLM self-hosté ? Je sais où sont les pièges.