La poussée de NVIDIA autour de DAQIRI met en lumière un problème plus vaste pour les agents IA : l’autonomie dépend d’une infrastructure de données en temps réel

NVIDIA avance un nouvel argument d’infrastructure pour l’ère des agents IA : l’autonomie s’effondre si les systèmes ne peuvent pas ingérer, traiter et exploiter des données fraîches assez vite. Le récent billet technique de l’entreprise présentant NVIDIA DAQIRI, un pipeline d’acquisition de données pour instruments et capteurs à grande vitesse, arrive parallèlement à un message plus large de TMForum selon lequel les agents IA ont besoin d’un tissu de données en temps réel pour fonctionner à grande échelle.

Pris ensemble, ces éléments pointent vers le même basculement. Le goulot d’étranglement de l’IA avancée n’est plus seulement la qualité des modèles ou l’accès aux GPU. C’est le chemin entre les signaux bruts et les décisions en direct : la manière dont les données circulent depuis les capteurs, les appareils, les systèmes d’entreprise et les flux d’événements vers des logiciels capables de filtrer, d’inférer et de déclencher des actions sans attendre un flux de travail traditionnel de collecte puis de stockage. Pour les bâtisseurs d’agents IA, c’est une question pratique, pas un slogan d’architecture.

Pourquoi l’histoire concerne vraiment les agents IA, et pas seulement le matériel scientifique

Le cadrage de TMForum est large et orienté entreprise : les agents IA ont besoin d’un tissu de données en temps réel pour permettre l’autonomie à grande échelle. Le texte intégral de cet article n’était pas disponible dans le matériel स्रोत, donc les arguments et exemples précis ne peuvent pas être vérifiés ici. Mais le thème correspond à une tendance croissante sur le marché. Les agents sont présentés comme des logiciels capables d’observer le contexte, de raisonner sur l’état et d’agir à travers différents systèmes. Cela exige une vue stable, à faible latence, des entrées changeantes.

La contribution de NVIDIA est plus étroite mais plus concrète. Dans son billet technique, l’entreprise décrit NVIDIA DAQIRI comme une bibliothèque d’acquisition de données à haut débit et centrée sur le logiciel au sein de la plateforme NVIDIA Holoscan. L’argument vise des environnements à grande bande passante comme les instruments scientifiques, les scanners industriels et les radios définies par logiciel, où les données arrivent trop vite pour les pipelines hérités qui collectent d’abord, stockent ensuite, puis analysent.

Cela compte au-delà des laboratoires. Le même problème de conception apparaît dans les agents IA d’entreprise reliés à des logiciels d’exploitation, à la robotique, à des outils d’observabilité, à des systèmes de support client et à des équipements de fabrication. Un agent ne peut pas être véritablement autonome s’il agit sur des enregistrements obsolètes, des flux d’événements incomplets ou des boucles de rétroaction retardées.

Ce que NVIDIA DAQIRI est conçu pour faire

Selon NVIDIA, NVIDIA DAQIRI déplace l’acquisition de données hors des chemins matériels à fonction fixe et vers une couche logicielle plus adaptable. L’entreprise affirme que le logiciel peut streamer directement dans la mémoire GPU des sorties de détecteurs et de capteurs à grande bande passante pour un traitement en flux, réduisant ainsi à la fois la latence et la charge CPU.

L’affirmation technique la plus notable concerne le chemin de transport. NVIDIA indique que NVIDIA DAQIRI utilise le Data Plane Development Kit, ou DPDK, pour contourner le noyau Linux et acheminer les paquets depuis une carte réseau NVIDIA ConnectX directement vers des tampons DMA du GPU avec un accès sans copie. Dans la description de l’entreprise, cela permet aux flux entrants d’atteindre le GPU prêts pour des opérations immédiates comme le filtrage, l’inférence, la compression, la sélection d’événements et le contrôle adaptatif.

NVIDIA présente aussi NVIDIA DAQIRI comme une brique d’une pile plus large plutôt que comme un outil isolé. Le billet met en avant une intégration avec NVIDIA Holoscan Platform pour les workflows multimodaux en temps réel, TensorRT pour l’inférence à faible latence et NVIDIA nvCOMP pour la compression en flux. Les développeurs peuvent construire ces pipelines avec une configuration pilotée par YAML ainsi que des interfaces C++ et Python, selon NVIDIA.

Ce cadrage au niveau de la pile est important. La leçon pour les équipes IA n’est pas simplement « utilisez cette bibliothèque ». C’est que l’intelligence en temps réel dépend autant de la plomberie que des modèles. Si l’on attend des agents qu’ils surveillent l’état, appellent des outils et mettent à jour leurs plans en continu, alors le logiciel autour du modèle doit prendre en charge l’ingestion, la transformation et l’action à haute fréquence.

CERN offre un exemple concret de l’importance du filtrage en temps réel

Le cas d’usage le plus fort dans le matériel source vient du CERN. NVIDIA indique que le projet A-GHOST utilise NVIDIA DAQIRI pour relier des cartes matérielles basées sur FPGA à des fermes de calcul GPU afin que les chercheurs puissent analyser des flux de données qui seraient autrement rejetés par les chemins standards de sélection d’événements.

Le contexte est la mise à niveau du High-Luminosity Large Hadron Collider. Selon le billet de NVIDIA, le HL-LHC augmentera la luminosité d’un facteur 10 par rapport à la conception initiale. NVIDIA affirme que le système de sélection mis à niveau du détecteur ATLAS portera la bande passante des événements sélectionnés après la première étape à 1 MHz contre 100 kHz, puis après la deuxième étape vers le stockage à 10 kHz contre 1 kHz. Même avec cette hausse, plus de 99 % des collisions seront encore rejetées dans le système en ligne, selon l’entreprise.

C’est le problème opérationnel dans sa forme extrême : trop de données en direct, pas assez de temps pour décider ce qui compte. NVIDIA affirme qu’A-GHOST explore si des modèles d’IA tels que les Convolutional Auto-Encoders, les réseaux neuronaux convolutifs temporels et des modèles basés sur des transformers peuvent inspecter le flux qui serait autrement abandonné.

Pour les bâtisseurs d’agents IA, l’exemple du CERN se traduit par une leçon plus familière. La plupart des systèmes autonomes n’échouent pas parce qu’ils manquent d’un appel de modèle. Ils échouent parce qu’ils ne peuvent pas trier, classer, compresser ou acheminer assez vite un flot de signaux entrants pour prendre des décisions en temps opportun. Autrement dit, l’autonomie dépend d’une attention sélective mise en œuvre dans l’infrastructure.

La base de preuves est solide sur l’architecture, plus mince sur la preuve marché

Le mélange de sources ici compte. TMForum fournit un cadrage marché, mais le texte de l’article n’était pas disponible dans les notes de reporting, donc ses arguments ne peuvent pas être cités ni évalués indépendamment en détail. Le billet technique de NVIDIA est la principale source technique, et il contient les informations factuelles les plus claires sur la conception de NVIDIA DAQIRI, ses intégrations et ses cas d’usage visés.

Mais il s’agit toujours d’une source contrôlée par le fournisseur. Cela signifie que les affirmations les plus fortes de cette histoire sont rapportées par le fournisseur. NVIDIA indique que NVIDIA DAQIRI peut gérer des données Ethernet, y compris UDP et RoCE v2, à des débits de plusieurs centaines de gigabits par seconde et au-delà, avec le matériel approprié et un réglage correct du CPU/NUMA. L’entreprise affirme aussi que l’architecture réduit la latence à pratiquement le temps de transit PCIe pour un accès direct des tampons circulaires NIC aux tenseurs GPU. Ces affirmations sont plausibles dans le contexte du contournement du noyau et des chemins GPU-direct, mais le matériel source n’inclut ni benchmarks indépendants, ni méthodologie de test tierce, ni preuve large de déploiement en production.

De même, le matériel du CERN décrit un effort de R&D, et non un déploiement commercial à grande échelle pleinement éprouvé. Selon NVIDIA, le projet A-GHOST implique CERN Openlab, l’Université de Chicago et des scientifiques de l’UCL, et les modèles décrits doivent être testés avec du matériel prototype. C’est une validation significative de l’intérêt, mais ce n’est pas la même chose qu’une référence de production mature pour des acheteurs d’entreprise.

La conclusion est donc solide sur l’orientation et l’architecture, mais pas encore sur des résultats de performance universels ni sur l’étendue de l’adoption.

Pourquoi cela compte pour les bâtisseurs et les acheteurs d’entreprise

Pour les équipes qui construisent des agents IA, l’implication pratique est que les frameworks d’orchestration ne suffisent pas. Que la pile utilise des microservices pilotés par événements, des flux d’observabilité en temps réel, des boucles de contrôle industrielles ou des journaux d’interactions clients, la couche manquante est souvent un chemin durable et à faible latence entre les données en direct, l’inférence et l’action.

Cela crée plusieurs exigences de conception.

Premièrement, la fraîcheur de l’état devient une exigence produit. Si un agent utilise un contexte obsolète, l’usage des outils devient fragile et l’automatisation peut se transformer en propagation d’erreurs. Le mouvement de données en temps réel est donc directement lié à la fiabilité de l’agent.

Deuxièmement, l’économie de l’inférence change lorsque le filtrage se produit plus tôt. Si les systèmes peuvent éliminer les événements à faible valeur ou compresser les charges utiles avant l’exécution du modèle, les ressources GPU sont consacrées aux décisions qui comptent. L’accent mis par NVIDIA sur le filtrage et la compression en flux répond directement à ce problème de coût.

Troisièmement, l’architecture de déploiement devient plus distribuée. Le billet de NVIDIA évoque des systèmes edge allant de NVIDIA DGX Spark à NVIDIA IGX Platform et à des serveurs à l’échelle du rack. L’implication plus large pour le marché est que tous les flux de travail d’agents ne s’exécuteront pas de manière centralisée dans une couche applicative cloud. Certains devront fonctionner près des instruments, des machines ou des sources d’événements locales.

Quatrièmement, l’interopérabilité comptera autant que le débit brut. NVIDIA affirme que NVIDIA DAQIRI peut streamer vers des plateformes personnalisées spécifiques à des instruments, en plus de la pile logicielle NVIDIA. Pour l’IA d’entreprise, ce même principe s’applique à travers ERP, CRM, systèmes informatiques et technologies opérationnelles. Un tissu de données en temps réel n’aide que si l’agent peut accéder aux systèmes environnants et leur faire confiance.

Ce qu’il faut surveiller ensuite

Le prochain signal à surveiller est de savoir si NVIDIA étend ce message au-delà du calcul scientifique vers des cas d’usage plus grand public d’agents IA d’entreprise et industriels. Si NVIDIA DAQIRI ou des composants adjacents de NVIDIA Holoscan Platform commencent à apparaître dans l’automatisation industrielle, la robotique, les opérations télécom ou la surveillance de sécurité, cela renforcerait l’idée qu’il s’agit d’un pari d’infrastructure plus large pour les agents.

Un deuxième signal est la validation tierce. Des benchmarks indépendants sur la latence, le débit, les économies de CPU et la complexité opérationnelle compteraient davantage que des chiffres rapportés par le fournisseur. Les acheteurs voudront aussi voir des études de cas de déploiement plus claires, et pas seulement des collaborations de R&D.

Troisièmement, il faut surveiller si les fournisseurs d’infrastructure et les entreprises de plateformes d’agents convergent vers un langage commun autour de l’état, des flux d’événements et des boucles d’action. Si le cadrage de TMForum autour du « tissu de données en temps réel » gagne du terrain, il pourrait devenir un raccourci utile pour une exigence de marché qui couvre à la fois l’IA d’entreprise et les systèmes du monde physique.

Enfin, surveillez la conception même des modèles. L’exemple de CERN cité par NVIDIA mentionne des Convolutional Auto-Encoders et des modèles basés sur des transformers opérant sur des flux en direct. Si davantage de systèmes d’agents adoptent des modèles légers, toujours actifs, pour le triage avant de transmettre à de plus grands modèles de raisonnement, l’infrastructure temps réel deviendra encore plus centrale.

Perspective Creati.ai

La partie la plus importante de cette histoire n’est pas NVIDIA DAQIRI en tant que produit unique. C’est le rappel que les agents IA ne sont autonomes qu’à la hauteur de leur chemin de données. Le marché a passé les deux dernières années à parler de modèles, de copilotes et de couches d’orchestration. Le problème plus difficile est de relier ces systèmes à l’état vivant avec une latence suffisamment faible et une fiabilité suffisamment élevée pour que l’action puisse être digne de confiance.

Pour les startups et les équipes d’entreprise, cela suggère un déplacement de la source de l’avantage concurrentiel. De meilleurs prompts et des frameworks d’agents peuvent aider à la marge, mais la différenciation durable viendra probablement davantage de la maîtrise du pipeline d’événements, de la couche de politique et des interfaces en temps réel entre les modèles et les systèmes opérationnels. NVIDIA défend cette idée du côté de l’infrastructure. Le reste du marché devra la prouver en production.