Le type d’infrastructure nécessaire varie considérablement en fonction des cas d’utilisation des LLM. Découvrez les différentes configurations adaptées à chaque besoin.
De l’entraînement à l’inférence
Les configurations matérielles à mettre en place varient grandement en fonction de l’utilisation des modèles de langage de nouvelle génération, du RAG à l’inférence. Chaque application requiert une infrastructure de calcul spécifique.
Le processus d’entraînement exige une architecture complexe. Les large language models sont constitués de plusieurs couches, avec des étapes allant de l’embedding non supervisé à l’apprentissage auto-supervisé. L’objectif est d’aligner les mots de manière significative et de gérer des tâches avancées telles que la réponse aux questions et la conversation en chatbot. En aval, l’apprentissage par renforcement permet d’améliorer la pertinence des résultats en fonction des notations des experts humains.
Une facture atteignant un million d’euros
L’entraînement complet d’un modèle LLM comportant des dizaines de milliards de paramètres nécessite une architecture avec des centaines de GPU H100 pendant plusieurs semaines, représentant un coût considérable. Didier Gaultier souligne l’importance de la capacité de calcul, essentielle pour la complexité croissante des modèles.
La possibilité d’augmenter le nombre de GPU offre une réduction du temps de traitement, mais nécessite une vigilance continue de l’équipe projet. Le coût total d’un réentrainement complet peut approcher le million d’euros, englobant les dépenses en calcul, énergie et ressources humaines, notamment pour l’adaptation à de nouveaux langages.
Optimisation de l’inférence
L’inférence requiert au minimum deux cartes graphiques puissantes de type H100, avec une configuration réseau en Infiniband. Selon le nombre d’utilisateurs, le nombre de GPU nécessaire varie. Les modèles plus grands exigent un cluster de GPU pour gérer la mémoire vive et répondre à davantage d’utilisateurs simultanément.