Ray 2.55 ajoute la tolérance aux pannes pour les déploiements de modèles IA à grande échelle

Joerg Hiller 02 avril 2026 18h35

La mise à jour Ray Serve LLM d'Anyscale active la tolérance aux pannes des groupes DP pour les déploiements vLLM WideEP, réduisant les risques de temps d'arrêt pour les systèmes d'inférence IA distribués.

Ray 2.55 ajoute la tolérance aux pannes pour les déploiements de modèles IA à grande échelle

Anyscale a publié une mise à jour importante de son framework Ray Serve LLM qui répond à un défi opérationnel critique pour les organisations exécutant des charges de travail d'inférence IA à grande échelle. Ray 2.55 introduit la tolérance aux pannes des groupes de parallélisme de données (DP) pour les déploiements vLLM Wide Expert Parallelism - une fonctionnalité qui empêche les pannes de GPU individuels de mettre hors service des clusters entiers de serveurs de modèles.

La mise à jour cible un point sensible spécifique dans le service de modèles Mixture of Experts (MoE). Contrairement aux déploiements de modèles traditionnels où chaque réplique fonctionne indépendamment, les architectures MoE comme DeepSeek-V3 fragmentent les couches d'experts sur des groupes de GPU qui doivent travailler collectivement. Lorsqu'un GPU dans ces configurations tombe en panne, l'ensemble du groupe - pouvant couvrir de 16 à 128 GPU - devient non opérationnel.

Le problème technique

Les modèles MoE distribuent des réseaux neuronaux « experts » spécialisés sur plusieurs GPU. DeepSeek-V3, par exemple, contient 256 experts par couche mais n'active que 8 par jeton. Les jetons sont acheminés vers les GPU qui détiennent les experts nécessaires via des opérations de répartition et de combinaison qui exigent que tous les rangs participants soient en bonne santé.

Auparavant, la défaillance d'un seul rang romprait ces opérations collectives. Les requêtes continueraient à être acheminées vers les répliques survivantes du groupe affecté, mais chaque demande échouerait. La récupération nécessitait le redémarrage de l'ensemble du système.

Comment Ray résout le problème

Ray Serve LLM traite désormais chaque groupe DP comme une unité atomique grâce à la planification de groupe. Lorsqu'un rang échoue, le système marque l'ensemble du groupe comme défaillant, cesse d'y acheminer le trafic, démonte le groupe défaillant et le reconstruit en tant qu'unité. Les autres groupes sains continuent de servir les requêtes tout au long du processus.

La fonctionnalité est activée par défaut dans Ray 2.55. Les déploiements DP existants ne nécessitent aucune modification de code - le framework gère automatiquement les vérifications de santé au niveau du groupe, la planification et la récupération.

La mise à l'échelle automatique respecte également ces limites. Les opérations de montée en charge et de réduction se produisent par incréments de taille de groupe plutôt que par répliques individuelles, empêchant la création de groupes partiels qui ne peuvent pas servir de trafic.

Implications opérationnelles

La mise à jour crée une considération de conception importante : la largeur du groupe par rapport au nombre de groupes. Selon les benchmarks vLLM cités par Anyscale, le débit par GPU reste relativement stable pour des tailles parallèles d'experts de 32, 72 et 96. Cela signifie que les opérateurs peuvent s'orienter vers des groupes plus petits sans sacrifier l'efficacité - et des groupes plus petits signifient des rayons d'impact plus petits lorsque des pannes se produisent.

Anyscale note que cette résilience au niveau de l'orchestration complète le travail d'élasticité au niveau du moteur qui se déroule dans la communauté vLLM. Le RFC vLLM Elastic Expert Parallelism traite de la manière dont le runtime peut ajuster dynamiquement la topologie au sein d'un groupe, tandis que Ray Serve LLM gère les groupes qui existent et reçoivent du trafic.

Pour les organisations déployant des modèles de style DeepSeek à grande échelle, l'avantage pratique est simple : les pannes de GPU deviennent des incidents localisés plutôt que des pannes à l'échelle du système. Des exemples de code et des étapes de reproduction sont disponibles sur le dépôt GitHub d'Anyscale.

Source de l'image : Shutterstock

ray
vllm
infrastructure ia
apprentissage automatique
informatique distribuée

Ray 2.55 ajoute la tolérance aux pannes pour les déploiements de modèles d'IA à grande échelle

Ray 2.55 ajoute la tolérance aux pannes pour les déploiements de modèles IA à grande échelle

Le problème technique

Comment Ray résout le problème

Implications opérationnelles

Vous aimerez peut-être aussi

Pete Hegseth demande au chef d'état-major de l'armée de démissionner : rapport

Actualités Ethereum : L'ETH pourrait s'envoler alors que Pepeto génère un buzz 100x avant sa cotation sur Binance

Que se passe-t-il ensuite pour Dogecoin après un retrait massif de 900 millions ? Examen…

Actualités tendance

Le remaniement du Cabinet de Trump en compte à rebours alors que la majorité républicaine au Sénat reste en suspens

La Baisse N'est Pas Effrayante – Voici 5 Actions Qu'un Expert Achète en Avril

Pam Bondi aurait appris son licenciement avant le discours en prime time de Trump

Google revient dans la course à l'IA open source avec Gemma 4

Un comédien disgracié revient sur le devant de la scène après avoir admis une inconduite sexuelle

Actualités en direct 24h/24 et 7j/7

Prix des cryptomonnaies