Arista dévoile sa vision pour un futur des réseaux IA grâce au Consortium Ultra Ethernet : Un avenir prometteur pour les technologies de l'information

Le voyage d’Arista vers l’innovation #

Cette technologie est maintenant intégrée dans une partie de la gamme de produits d’Arista, y compris les systèmes 800G et les cartes de ligne.

Arista Networks a partagé quelques détails sur la mise en œuvre de sa technologie Etherlink, qui va soutenir les réseaux Ethernet capables de répondre aux demandes des charges de travail basées sur l’IA. Les spécifications du Consortium Ultra Ethernet (UEC), une fois achevées, amélioreront l’Ethernet pour les charges de travail de l’IA, et Arista s’engage à offrir des produits compatibles avec l’UEC qui pourront évoluer vers ces futures normes.

Le rôle du Consortium Ultra Ethernet #

Fondé par plusieurs géants de l’industrie comme AMD, Arista, Broadcom, Cisco, Intel, Meta et Microsoft, l’UEC compte aujourd’hui plus de 50 fournisseurs. Le consortium développe des technologies pour renforcer l’échelle, la stabilité et la fiabilité des réseaux Ethernet afin de répondre aux exigences des réseaux à haute performance nécessaires pour l’IA.

Dans le courant de l’année, l’UEC prévoit de publier des spécifications officielles qui mettront l’accent sur une série d’améliorations Ethernet évolutives, y compris de meilleures options de livraison de paquets et de trajets multi-path, ainsi que des fonctions modernes de gestion de la congestion et de la télémétrie.

Réduction de la latence et de la congestion #

Les charges de travail de l’IA poussent l’opération collective, et tout retard dû à un réseau de mauvaise qualité peut avoir un impact critique sur les performances de l’application d’IA. La topologie Etherlink AI d’Arista permettra l’accès simultané à tous les chemins vers la destination avec un équilibrage de charge dynamique.

Les plateformes Etherlink d’Arista présentent deux autres caractéristiques essentielles : une latence prévisible et une gestion de la congestion. La latence prévisible garantit une communication prévisible de bout en bout, tandis que la gestion de la congestion vise à éviter les points chauds ou les collisions de flux sur de coûteux clusters de GPU.

Déploiement d’une assistance virtuelle autonome #

Le réseau AI d’Arista utilise une combinaison de leur système d’exploitation de base EOS et de leur système d’assistance virtuelle autonome AVA pour fournir des informations sur le réseau. AVA combine l’expertise en matière de réseaux avec l’IA pour imiter l’expertise humaine à l’échelle du cloud.

Le système d’assistance virtuelle autonome commence par des données de base en temps réel sur l’état des périphériques réseau et, si nécessaire, les paquets bruts. L’application d’AVA à la mise en réseau de l’IA augmente la fiabilité et la sécurité du réseau grâce à la détection et à la réponse autonomes du réseau et à l’observabilité en temps réel.

Pile logicielle EOS d’Arista #

La pile logicielle EOS d’Arista peut aider les clients à construire des clusters d’IA résilients. EOS offre des algorithmes d’équilibrage de charge améliorés et des mécanismes de hachage qui mappent le trafic des ports d’entrée de l’hôte vers les liaisons montantes afin que les flux soient automatiquement rééquilibrés en cas de défaillance d’une liaison.

La visibilité du réseau de l’IA est un autre aspect essentiel de la phase de formation pour les grands ensembles de données utilisés pour améliorer la précision des LLM. Arista propose un analyseur de latence basé sur EOS qui surveille l’utilisation de la mémoire tampon et un analyseur d’IA qui surveille les compteurs de trafic au niveau de la microseconde.

Repenser les réseaux pour l’IA #

Les clusters de formation à l’IA nécessitent une approche fondamentalement nouvelle de la construction des réseaux. La congestion du trafic dans un seul flux peut ralentir l’ensemble du cluster d’IA, car la charge de travail doit attendre que la transmission retardée se termine.

Les clusters d’IA doivent être architecturés avec une capacité massive pour accueillir ces modèles de trafic à partir de GPU distribués, avec une latence déterministe et des fabrics Deep Buffer sans perte, capables de supprimer la congestion indésirable.

Les caractéristiques clés des plateformes Etherlink d’Arista comprennent :