Qualcomm dévoile AI200 et AI250

N°170 - Juin2025

En ligne :

Rechercher

Nouveaux produits

Qualcomm dévoile AI200 et AI250

Publication: 28 octobre

Partagez sur

Redéfinition des performances d’inférence à l’échelle du rack pour l’ère de l’IA...

Les solutions Qualcomm AI200 et AI250 offrent des performances à l’échelle du rack et une capacité mémoire supérieure pour une inférence IA générative rapide dans les data centers, avec un coût total de possession (TCO) au meilleur niveau du marché. Qualcomm AI250 introduit une architecture mémoire innovante, apportant un saut générationnel en bande passante mémoire effective et en efficacité pour les workloads IA.

Les deux solutions intègrent une pile logicielle riche et une compatibilité fluide avec les principaux frameworks IA, permettant aux entreprises et aux développeurs de déployer une IA générative sécurisée et scalable dans les data centers.

Les produits s’inscrivent dans une feuille de route multi-générations pour l’inférence IA en data center, avec une cadence annuelle.

Qualcomm Technologies, Inc. annonce aujourd’hui le lancement de ses solutions de nouvelle génération optimisées pour l’inférence IA en data center : les cartes accélératrices basées sur puces Qualcomm® AI200 et AI250, ainsi que des racks. S’appuyant sur le leadership technologique de l’entreprise en matière de NPU, ces solutions offrent des performances à l’échelle du rack et une capacité mémoire supérieure pour une inférence IA générative rapide, avec une performance par dollar et par watt élevée — marquant une avancée majeure vers une IA générative scalable, efficiente et flexible dans tous les secteurs.

Qualcomm AI200 introduit une solution d’inférence IA conçue spécifiquement au niveau du rack, destinée à offrir un faible TCO et des performances optimisées pour l’inférence de grands modèles de langage et multimodaux (LLM, LMM) ainsi que d’autres workloads IA. Elle prend en charge 768 Go de LPDDR par carte pour une capacité mémoire accrue et un coût réduit, permettant une échelle et une flexibilité exceptionnelles pour l’inférence IA.

La solution Qualcomm AI250 fera ses débuts avec une architecture mémoire innovante basée sur du calcul proche de la mémoire (near-memory computing), apportant un saut générationnel d’efficacité et de performances pour les workloads d’inférence IA en offrant une bande passante mémoire effective supérieure de plus de 10× et une consommation énergétique nettement inférieure. Cela permet une inférence IA désagrégée pour une utilisation efficiente du matériel, tout en répondant aux exigences de performance et de coût des clients.

Les deux racks intègrent un refroidissement liquide direct pour une efficacité thermique, PCIe pour le scale-up, Ethernet pour le scale-out, du confidentialcomputing pour des charges de travail IA sécurisées, et une consommation électrique par rack de 160 kW.

« Avec Qualcomm AI200 et AI250, nous redéfinissons ce qui est possible pour l’inférence IA à l’échelle du rack. Ces nouvelles solutions d’infrastructure IA innovantes permettent aux clients de déployer l’IA générative avec un TCO sans précédent, tout en conservant la flexibilité et la sécurité requises par les data centers modernes », a déclaré Durga Malladi, SVP & GM, Technology Planning, Edge Solutions & Data Center, Qualcomm Technologies, Inc. « Notre pile logicielle riche et notre support d’écosystème ouvert facilitent plus que jamais l’intégration, la gestion et la montée en charge de modèles IA déjà entraînés sur nos solutions d’inférence IA optimisées. Grâce à une compatibilité fluide avec les principaux frameworks IA et un déploiement des modèles en un clic, Qualcomm AI200 et AI250 sont conçus pour une adoption sans friction et une innovation rapide. »

Notre pile logicielle IA de niveau hyperscaler, qui couvre de bout en bout de la couche applicative à la couche logicielle système, est optimisée pour l’inférence IA. Elle prend en charge les principaux frameworks de machine learning (ML), moteurs d’inférence, frameworks d’IA générative, ainsi que des techniques d’optimisation de l’inférence LLM/LMM comme le service désagrégé (disaggregatedserving). Les développeurs bénéficient d’une intégration fluide des modèles et d’un déploiement en un clic des modèles Hugging Face via la bibliothèque Efficient Transformers de Qualcomm Technologies et la Qualcomm AI Inference Suite. Notre logiciel propose des applications et agents IA prêts à l’emploi, ainsi que des outils, bibliothèques, API et services complets pour la mise en production de l’IA.

Qualcomm AI200 et AI250 devraient être disponibles commercialement en 2026 et 2027, respectivement. Qualcomm Technologies s’engage sur une feuille de route data center avec une cadence annuelle à l’avenir, axée sur des performances d’inférence IA de premier plan, une efficacité énergétique élevée et un TCO au meilleur niveau du secteur.