Chaque mois, un prospect me demande s'il faut fine-tuner un modèle pour son cas d'usage. Dans 90 % des cas, la réponse est non. Voici comment savoir quand faire partie des 10 % restants.
Les quatre leviers disponibles
Avant de fine-tuner, il faut avoir épuisé les options moins coûteuses :
- Prompting : reformuler, structurer, ajouter des exemples.
- RAG : injecter les bonnes données à chaque requête.
- Tool use / agents : laisser le modèle appeler des fonctions.
- Fine-tuning : ré-entraîner le modèle sur vos données.
Les trois premiers sont réversibles, rapides, pas chers. Le fine-tuning est l'inverse : engageant, lent, coûteux à maintenir.
Quand fine-tuner est le bon choix
- Style constant : vous voulez un ton spécifique impossible à obtenir par prompt (jargon métier très pointu, voix d'une marque).
- Format structuré ultra-strict : sortie JSON rigoureuse, sans variation.
- Latence critique : un modèle fine-tuné plus petit bat un GPT-4 prompté pour une tâche précise, avec une latence divisée par 5.
- Coût récurrent énorme : si vous faites 10 millions de requêtes par mois sur une tâche spécifique, un modèle fine-tuné amortit vite.
- Connaissance métier propriétaire : vocabulaire interne, schémas privés, où même le meilleur RAG ne suffit pas.
Quand fine-tuner est une erreur
- Pour apprendre de nouvelles connaissances : utilisez RAG. Le fine-tuning est mauvais à ça, contrairement à ce que vend le marketing.
- Pour corriger des erreurs ponctuelles : un meilleur prompt fait le job 80 % du temps.
- Sans jeu de données propre : garbage in, garbage out. 500+ exemples curés minimum.
- Sans eval rigoureuse : sans métrique, vous ne saurez jamais si votre fine-tune fait mieux ou moins bien que le modèle de base.
Les méthodes modernes (2026)
On ne fait plus du fine-tuning plein en 2026. On utilise :
- LoRA / QLoRA : petits adaptateurs qui modifient 0,1 % des poids. 10x moins cher, 90 % du gain.
- DPO (Direct Preference Optimization) : entraîne sur des paires "bonne réponse / mauvaise réponse" au lieu de la seule bonne.
- Distillation : un gros modèle enseigne à un petit modèle sur votre distribution de tâches.
Le workflow que je recommande
- Prompt soigné → mesurer → si OK, stop.
- Ajout de few-shot examples → mesurer.
- RAG ou tool use selon le besoin → mesurer.
- Si après les 3 précédents vous n'atteignez pas la qualité voulue ET que le volume justifie le coût, alors fine-tuning LoRA.
Le fine-tuning devrait être le dernier levier, pas le premier. Besoin d'aide pour choisir ?