Les architectures qui supportent les usages d’intelligence artificielle évoluent rapidement sous l’effet de contraintes très concrètes : latence, volumétrie des requêtes et proximité avec les utilisateurs finaux. Ces transformations amènent les acteurs historiques de l’infrastructure à revoir leur positionnement, notamment autour de l’edge et de la distribution des capacités de calcul.
À la tête des activités françaises de Akamai Technologies, Jérôme Renoux observe ces mutations depuis plusieurs années, dans une entreprise historiquement positionnée sur la diffusion de contenu, et désormais structurée autour de la cybersécurité et du cloud.
Comment évoluent aujourd’hui les architectures qui supportent les usages d’IA en production ?
Jérôme Renoux : Nous constatons une évolution assez nette dans la manière dont les architectures sont pensées. Historiquement, les modèles étaient très centralisés, avec des ressources de calcul concentrées dans des datacenters. Aujourd’hui, avec l’IA et en particulier les usages liés aux modèles de langage, la question de la proximité devient centrale. L’inférence, c’est-à-dire le moment où l’utilisateur interagit avec un modèle, génère énormément de requêtes, avec des attentes fortes en termes de latence et de performance.
De notre côté, nous avons une particularité qui vient de notre histoire dans le CDN (Content Delivery Network, désigne une infrastructure distribuée de serveurs permettant d’acheminer et d’accélérer la diffusion de contenus et d’applications au plus près des utilisateurs, ndlr). Nous opérons aujourd’hui près de 400 000 serveurs, répartis sur plus de 4 200 points de présence dans le monde. Cette capillarité nous permet d’envisager des architectures où la capacité de calcul n’est plus uniquement centralisée, mais distribuée en périphérie de l’Internet, au plus proche des utilisateurs.
Nous avons étendu cette logique avec notre activité cloud, développée à partir du rachat de Linode, en ajoutant des capacités de calcul directement sur cette infrastructure distribuée. Cela permet de traiter des workloads d’IA, notamment d’inférence, au plus près des points d’accès, plutôt que de systématiquement remonter vers un cloud centralisé.
Comment les entreprises abordent-elles désormais le déploiement de leurs applications ?
Les entreprises que nous accompagnons, qui sont majoritairement des grands groupes, déploient de plus en plus leurs applications avec une logique globale dès le départ. Cela implique de gérer des utilisateurs répartis sur plusieurs zones géographiques, avec des exigences homogènes en termes de performance.
« Les API sont devenues le cœur des applications »
Nous observons que les applications reposent de plus en plus sur des API, qui sont devenues le cœur des échanges entre les différents composants. C’est encore plus vrai avec l’IA, puisque les modèles sont souvent appelés via des API, avec des volumes très importants de requêtes. Cela crée des contraintes nouvelles en matière de gestion des flux, de performance et de sécurité.
Dans ce contexte, la distribution des ressources devient un levier. Le fait de pouvoir s’appuyer sur une infrastructure très déployée permet de rapprocher les traitements des utilisateurs, mais aussi de mieux absorber les pics de charge. C’est une évolution que nous voyons de manière assez homogène, que ce soit en Europe, aux États-Unis ou dans d’autres régions.
Quels sont les principaux enjeux techniques rencontrés sur ces nouveaux usages ?
Le premier enjeu, très concret, concerne les API. Elles sont au cœur de toutes les applications modernes, et encore davantage avec l’IA. Or, nous constatons qu’elles ne sont pas toujours suffisamment maîtrisées. Il existe beaucoup de shadow API, c’est-à-dire des interfaces qui ne sont pas forcément documentées ou maintenues correctement. Cela pose des problèmes de sécurité, mais aussi de gouvernance.
Le second enjeu concerne la visibilité sur les flux. Dans des architectures distribuées, avec des composants qui communiquent en permanence, il devient essentiel de comprendre qui parle à qui, à quel moment, et dans quel volume. C’est là que les approches de type Zero Trust prennent leur sens, avec des mécanismes de segmentation et de micro-segmentation.
Nous partons du principe qu’un réseau sera compromis à un moment ou à un autre. L’objectif est donc de limiter la propagation d’une attaque, en cloisonnant les différents segments. Cela suppose de cartographier précisément les flux, puis de définir des politiques adaptées. C’est un travail assez structurant pour les équipes techniques.
Enfin, il y a un enjeu de capacité de calcul. L’inférence nécessite beaucoup de ressources, en particulier des GPU. Nous avons, par exemple, engagé un partenariat avec NVIDIA pour déployer des GPU de nouvelle génération directement sur notre infrastructure, afin de répondre à ces besoins.
Comment les organisations adaptent-elles leurs infrastructures pour y répondre ?
Nous voyons les organisations évoluer progressivement vers des architectures plus distribuées. Cela ne se fait pas du jour au lendemain, mais il y a une prise de conscience des limites des modèles très centralisés, notamment dès que l’on travaille sur des applications temps réel ou à forte volumétrie.
Concrètement, cela passe par une meilleure répartition des charges, avec des traitements qui peuvent être exécutés à différents endroits du réseau. L’edge joue ici un rôle important, parce qu’il permet de rapprocher les ressources des utilisateurs, tout en conservant une capacité à gérer des volumes importants.
« L’edge permet de rapprocher les traitements des utilisateurs »
Nous observons aussi une montée en complexité des environnements. Les entreprises combinent plusieurs briques : des clouds publics, des infrastructures privées, des solutions de sécurité, des plateformes d’API. Cela renforce le besoin d’avoir une vision globale, notamment sur les flux et les dépendances entre les composants.
Dans ce contexte, le rôle des partenaires est important. Nous travaillons principalement en indirect, avec des intégrateurs et des sociétés de services qui accompagnent les clients dans ces transformations. Ce sont eux qui vont aider à concevoir et déployer ces architectures, en fonction des contraintes spécifiques de chaque organisation.
Quels critères guident aujourd’hui les choix technologiques des DSI sur ces sujets ?
Nous constatons que plusieurs critères reviennent de manière récurrente. Le premier, c’est la performance, notamment en termes de latence. Avec l’IA, les utilisateurs attendent des réponses quasi immédiates, ce qui impose de rapprocher les traitements.
Le deuxième critère, c’est la résilience. Lorsque vous gérez une infrastructure distribuée avec plusieurs centaines de milliers de serveurs, vous avez forcément des incidents au quotidien. La question est de savoir comment ils sont absorbés, et s’ils ont un impact sur les utilisateurs finaux. De notre côté, le fait d’être très déployé et très redondant nous permet de limiter fortement ces impacts.
Nous mettons aussi en avant la disponibilité. Sur les périodes que nous observons, nous maintenons des niveaux très élevés, ce qui est un point de différenciation important pour des applications critiques. Enfin, il y a un enjeu de cohérence globale. Les DSI cherchent à éviter de multiplier les briques et les fournisseurs, et s’intéressent à des approches qui permettent de couvrir plusieurs besoins, que ce soit la diffusion de contenu, la sécurité ou le cloud. C’est dans cette logique que nous avons structuré notre offre autour de ces trois piliers, qui restent très complémentaires dans les architectures actuelles.
À lire également : Pourquoi le Crédit Agricole PF&M mise sur le Zero Trust ?




