jcpjr - Fotolia

Sur AWS, 83 % des dépenses liées aux conteneurs sont « gaspillées » au repos (étude Datadog)

Si les clients d’AWS ont augmenté leurs dépenses de 40 % dans les instances GPU, preuve d’un certain engouement autour de l’IA, le rapport State of Cloud Costs de Datadog démontre que ces entreprises ont encore beaucoup de mal à gérer les dépenses liées à la conteneurisation et à prédire leur consommation.

Dans une étude nommée « State of Cloud Costs » menée à partir de données réelles collectées entre mai 2023 et avril 2024, Datadog, spécialiste de l’observabilité, s’intéresse aux dépenses liées aux instances EC2 chez une centaine de ses clients AWS.

Une hausse de 40 % des dépenses dans les instances GPU… les moins chères

Sans surprise, les clients d’AWS ont augmenté leurs dépenses dans les instances GPU. Sur le panel étudié, cette hausse s’élève à 40 % en moyenne au cours de l’année écoulée. Les instances équipées de GPU représenteraient 14 % de leurs coûts liés aux services EC2, contre 10 % l’année précédente. Et Datadog de préciser d’emblée que ces serveurs GPU coûtent généralement plus cher que leurs voisins qui ne sont pas dotés de puces graphiques.

Surtout, 74 % des entreprises qui adoptent des serveurs GPU sélectionnent les instances G4dn, les moins chères du catalogue AWS. Ces dernières sont dotées de un à huit GPU Nvidia T4, chacun équipé de 16 Go de VRAM GDDR6 et d’une bande passante de 320 Go/s. En clair, c’est l’entrée de gamme des GPU datacenter chez Nvidia, dont la commercialisation a débuté… en 2018.

« Cela suggère que de nombreux clients expérimentent l’IA, en appliquant le G4dn à leurs premiers efforts en matière d’IA adaptative, d’inférence de machine learning et d’entraînement à petite échelle », avancent les auteurs du rapport chez Datadog. « Nous pensons qu’au fur et à mesure que ces organisations développeront leurs activités d’IA et les mettront en production, elles consacreront une part plus importante de leur budget d’informatique en cloud aux GPU ».

Il est aussi fort probable que les entreprises n’aient pas forcément accès aux instances les mieux dotées. D’après les retours des clients et des éditeurs, la disponibilité des machines est limitée chez l’ensemble des fournisseurs cloud.

La difficile gestion des coûts de la conteneurisation

Les autres instances EC2, elles, sont de plus en plus utilisées pour exécuter des conteneurs. Ces charges de travail représentent environ 35 % des dépenses dans la gamme EC2, contre 30 % l’année précédente. « Cela inclut les instances EC2 déployées en tant que nœuds de contrôle ou de travail Kubernetes dans les clusters autogérés, ainsi que les instances qui s’exécutent dans les clusters ECS et EKS », indiquent les auteurs du rapport. Il faut aussi compter sur une frange minoritaire de très gros utilisateurs. Environ 25 % de la centaine de clients dont les données ont été analysées alloue plus de 75 % de leurs dépenses EC2 à l’exécution de conteneurs.

« Environ 54 % de ces dépenses inutiles sont liées à l’inactivité des clusters, c’est-à-dire au coût de l’approvisionnement excessif de l’infrastructure des clusters. »
Rapport « State of Cloud Costs »Datadog

Là encore, Datadog s’attend à une « croissance continue » des dépenses allouées à la conteneurisation, du fait des gains généralement associés à cette technique. Pour autant, la gestion des coûts des conteneurs s’avère largement inefficiente, souligne l’éditeur. Approximativement, 83 % des coûts liés aux conteneurs correspondent à la consommation de ressources au repos. Le problème serait principalement dû à un surdimensionnement des clusters. « Environ 54 % de ces dépenses inutiles sont liées à l’inactivité des clusters, c’est-à-dire au coût de l’approvisionnement excessif de l’infrastructure des clusters. Les 29 % restants sont liés à l’inactivité de la charge de travail, qui provient de demandes de ressources plus importantes que celles requises par la charge de travail », expliquent les chercheurs de Datadog.

Il n’y aurait pas de recettes miracles, reconnaissent-ils. Prévoir la consommation de ressources par plusieurs équipes de développement, les allouer correctement, anticiper de possibles changements de tendances dans l’usage d’une application demeure complexe. L’autoscaling également. « [Avec l’autoscaling] les équipes peuvent optimiser les paramètres de mise à l’échelle en fonction des modèles de trafic des charges de travail, mais les améliorations en matière d’efficacité sont souvent marginales et imperceptibles », signalent-ils.

Il faut ajouter à cela le fait que 83 % des entreprises du panel utilisent encore des instances de précédente génération, qui représenteraient environ 17 % de leur budget EC2. Quant aux volumes EBS GP2, ils représentent en moyenne 58 % de leurs dépenses dans cette gamme de stockage en bloc, contre 68 % l’année dernière, alors que les espaces EBS GP3 coûteraient 20 % moins cher.

Cette adoption lente des nouvelles instances se justifierait par la nécessaire migration de large volume de données, et donc l’obligation de planifier ces changements en interne en faisant travailler, le plus souvent, plusieurs équipes. Néanmoins, les coûts plus faibles des nouvelles gammes de produits chez AWS devraient motiver les migrations, estime Datadog.

Des coûts de transferts entre zones de disponibilités qui pèsent lourd

L’autre pôle de dépense important pour les clients n’est autre que le transfert de données. En moyenne, 48 % des coûts proviennent des transferts de données entre zones de disponibilité cloud. C’est « pratiquement autant » que les dépenses engagées dans les autres types de transferts de données combinés, à savoir le trafic VPN, les passerelles, les ingress et egress.

Cela affecte 98 % des entreprises du panel. « Cela suggère qu’il serait possible d’optimiser les coûts du cloud en colocalisation des ressources dans une seule AZ [Availability Zone, ou zone de disponibilité, N.D.R.], quand cela est possible », commente Datadog.

Si le Data Act de l’Union européenne a permis de supprimer une partie des frais de sortie du cloud (suivant certaines conditions), les coûts de transfert intracloud demeurent. « Si les fournisseurs abaissent encore les coûts de transferts, ces coûts entre zones de disponibilité pourraient devenir moins problématiques », anticipent les auteurs du rapport.

Une sous-utilisation des rabais sur engagement

Hormis les optimisations techniques, les fournisseurs cloud offrent des « rabais » si les clients s’engagent. Or la part d’entreprises qui engagent des budgets avec AWS baisse, légèrement (67 % contre 72 % d’une année sur l’autre).

C’est surtout le niveau d’engagement qui blesse. « Seulement 29 % des entreprises investissent suffisamment pour couvrir plus de la moitié des dépenses cloud éligibles », observent les auteurs.

Plusieurs raisons sont évoquées pour tenter d’expliquer le fait que les entreprises ne profitent pas réellement des rabais sur engagement. Difficulté de prédire les coûts, manque de clarté dans la chaîne de décision ou, tout simplement, une difficulté à lire les factures cloud, voilà les hypothèses de l’éditeur. Des défis régulièrement remontés par les clients des services cloud.

Dans le cas d’EC2 plus spécifiquement, 59 % des entreprises utilisent les Saving Plans, tandis que 15 % d’entre eux exploitent les instances réservées. La première méthode de discount serait plus simple à gérer – puisqu’il s’agit d’établir un budget – plutôt que d’essayer de trouver les bonnes instances à déployer, quand et où.

En revanche, les clients d’AWS auraient très bien compris l’intérêt d’adopter les instances ARM, à savoir celles équipées des puces Graviton 2. Près de 65 % des clients ont adopté les machines T4g. Pour autant, ces instances comptent pour une faible portion des dépenses (en moyenne, 18 %), car, là encore, les entreprises doivent adapter leurs applications à cette architecture.

Pour approfondir sur IaaS

Close