Ray 2.55 ajoute la tolérance aux pannes pour les déploiements de modèles IA à grande échelle
Joerg Hiller 02 avril 2026 18h35
La mise à jour Ray Serve LLM d'Anyscale active la tolérance aux pannes des groupes DP pour les déploiements vLLM WideEP, réduisant les risques de temps d'arrêt pour les systèmes d'inférence IA distribués.
Anyscale a publié une mise à jour importante de son framework Ray Serve LLM qui répond à un défi opérationnel critique pour les organisations exécutant des charges de travail d'inférence IA à grande échelle. Ray 2.55 introduit la tolérance aux pannes des groupes de parallélisme de données (DP) pour les déploiements vLLM Wide Expert Parallelism - une fonctionnalité qui empêche les pannes de GPU individuels de mettre hors service des clusters entiers de serveurs de modèles.
La mise à jour cible un point sensible spécifique dans le service de modèles Mixture of Experts (MoE). Contrairement aux déploiements de modèles traditionnels où chaque réplique fonctionne indépendamment, les architectures MoE comme DeepSeek-V3 fragmentent les couches d'experts sur des groupes de GPU qui doivent travailler collectivement. Lorsqu'un GPU dans ces configurations tombe en panne, l'ensemble du groupe - pouvant couvrir de 16 à 128 GPU - devient non opérationnel.
Le problème technique
Les modèles MoE distribuent des réseaux neuronaux « experts » spécialisés sur plusieurs GPU. DeepSeek-V3, par exemple, contient 256 experts par couche mais n'active que 8 par jeton. Les jetons sont acheminés vers les GPU qui détiennent les experts nécessaires via des opérations de répartition et de combinaison qui exigent que tous les rangs participants soient en bonne santé.
Auparavant, la défaillance d'un seul rang romprait ces opérations collectives. Les requêtes continueraient à être acheminées vers les répliques survivantes du groupe affecté, mais chaque demande échouerait. La récupération nécessitait le redémarrage de l'ensemble du système.
Comment Ray résout le problème
Ray Serve LLM traite désormais chaque groupe DP comme une unité atomique grâce à la planification de groupe. Lorsqu'un rang échoue, le système marque l'ensemble du groupe comme défaillant, cesse d'y acheminer le trafic, démonte le groupe défaillant et le reconstruit en tant qu'unité. Les autres groupes sains continuent de servir les requêtes tout au long du processus.
La fonctionnalité est activée par défaut dans Ray 2.55. Les déploiements DP existants ne nécessitent aucune modification de code - le framework gère automatiquement les vérifications de santé au niveau du groupe, la planification et la récupération.
La mise à l'échelle automatique respecte également ces limites. Les opérations de montée en charge et de réduction se produisent par incréments de taille de groupe plutôt que par répliques individuelles, empêchant la création de groupes partiels qui ne peuvent pas servir de trafic.
Implications opérationnelles
La mise à jour crée une considération de conception importante : la largeur du groupe par rapport au nombre de groupes. Selon les benchmarks vLLM cités par Anyscale, le débit par GPU reste relativement stable pour des tailles parallèles d'experts de 32, 72 et 96. Cela signifie que les opérateurs peuvent s'orienter vers des groupes plus petits sans sacrifier l'efficacité - et des groupes plus petits signifient des rayons d'impact plus petits lorsque des pannes se produisent.
Anyscale note que cette résilience au niveau de l'orchestration complète le travail d'élasticité au niveau du moteur qui se déroule dans la communauté vLLM. Le RFC vLLM Elastic Expert Parallelism traite de la manière dont le runtime peut ajuster dynamiquement la topologie au sein d'un groupe, tandis que Ray Serve LLM gère les groupes qui existent et reçoivent du trafic.
Pour les organisations déployant des modèles de style DeepSeek à grande échelle, l'avantage pratique est simple : les pannes de GPU deviennent des incidents localisés plutôt que des pannes à l'échelle du système. Des exemples de code et des étapes de reproduction sont disponibles sur le dépôt GitHub d'Anyscale.
Source de l'image : Shutterstock- ray
- vllm
- infrastructure ia
- apprentissage automatique
- informatique distribuée







