Panne AWS : la région us-east-1, point faible connu mais persistant
Perplexity, Signal, Snapchat, Uber, le site Internet du fisc britannique… Quantité de services numériques ont connu, ce 19 octobre, des perturbations liées à un incident chez AWS.
Pas de bilan officiel pour l’heure, mais le dernier message sur la page de statut AWS donne une bonne idée de l’enchaînement des événements.
Il est environ 9 heures du matin en France quand les problèmes commencent. Les erreurs et la latence s’accroissent dans la région us-east-1. La conséquence d’un souci de résolution DNS au niveau des points de terminaison DynamoDB.
Vers 11 h 30, le fonctionnement est rétabli. Mais des désagréments persistent dans des briques dépendantes de DynamoDB. Par exemple, le sous-système qui lance les instances EC2.
AWS constate aussi des problèmes d’équilibrage de charge qui déteignent sur des services comme CloudWatch et Lambda. Ils sont définitivement éliminés vers 18 h30 après avoir plafonné temporairement des opérations telles que le traitement des files d’attente SQS.
Vers minuit, tout était revenu à la normale, selon le groupe américain. Avec cependant un backlog à écouler sur des services comme AWS Config, AWS Connect et Amazon Redshift.
Plusieurs niveaux de dépendance à la région us-east-1
AWS reconnaît – sans toutefois s’y attarder – que l’incident a impacté des services non localisés dans la région us-east-1, mais qui en dépendent. Il mentionne notamment l’IAM.
Ce dernier fait partie, dans sa nomenclature, des « services globaux uniques par partition« . Globaux, parce que leurs plans de contrôle et de données n’existent pas indépendamment dans chaque région. Leurs ressources sont « mondiales », en tout cas à l’échelle de leur partition AWS (ici, le cloud public/commercial, par opposition à celles dédiées à la Chine ou au gouvernement américain).
Pour la plupart de ces services, le plan de données est distribué, tandis que le plan de contrôle est hébergé dans une seule région AWS. Il se trouve ainsi dans la région us-east-1 pour l’IAM, comme pour AWS Organizations et Account Management (gestion des comptes cloud), ainsi que le DNS privé Route 53. Son indisponibilité est donc susceptible de compromettre les opérations CRUDL (create, read, update, delete, list) à l’échelle globale.
Les « services globaux en périphérie » ont eux aussi un plan de contrôle monorégion (leur plan de données étant distribué entre points de présence, et potentiellement aussi entre régions). Cette catégorie comprend, entre autres, le DNS public Route 53, AWS Shield Advanced (anti-DDoS) et le CDN CloudFront (ainsi que son WAF et son gestionnaire de contrôle d’accès).
Il existe aussi des services régionaux ou zonaux dépendants d’autres régions. Sur Amazon S3, par exemple, diverses opérations (tagging, réplication, monitoring, ACL…) passent par la région us-east-1. Dans cett même région se trouve doans le plan de contrôle Route 53, sollicité pour créer des enregistrements DNS lors du provisionnement de ressources sur un éventail de services : PrivateLink (endpoints VPC), API Gateway (API REST et HTTP), ELB (répartiteurs de charge), OpenSearch Service (domaines), ECS (découverte de services), etc.
Il y a également des services qui utilisent des endpoints globaux par défaut. Illustration avec STS (Security Token Service, qui génère des jetons d’authentification éphémères). Exploité dans le SDK ou le CLI AWS, il utilise par défaut la région us-east-1. Autres exemples : IAM Identity Center et S3 Storage Lens. Le premier utilise par défaut l’endpoint SAML global hébergé sur us-east-1. Avec le second, la configuration du dashboard et les métriques associées sont, en standard, stockées dans cette même région.
La région des nouveautés… et des tutos
Localisée en Virginie, sur le campus d’Ashburn, la région us-east-1 réunit, au dernier pointage, 159 datacenters. Elle est d’autant plus structurante pour le cloud AWS qu’elle en a été la base : c’est avec elle que tout a commencé, en 2006 (lancement de S3).
Parallèlement à son ancienneté, us-east-1 accueille plus de charges de travail que toute autre région AWS. Ce qui contribue d’autant plus à en faire, de manière générale, un point de défaillance potentiel.
Son attrait peut s’expliquer par une tarification historiquement plus basse, quoique l’écart avec les autres régions s’est réduit au fil du temps. Elle a aussi la particularité d’être, aujourd’hui encore, souvent la première à accueillir les nouveaux services AWS. Beaucoup de tutos et d’articles la mettent par ailleurs en avant et elle est la valeur par défaut dans nombre d’outils.
Les frais de réseau peuvent de surcroit s’avérer dissuasifs pour qui voudrait mettre en place une redondance multirégions. Même si AWS a fait évoluer en partie sa politique, en particulier pour peupler sa région us-east-2 (prix ramené au niveau de celui du trafic interzones).
La centralisation des plans de contrôle peut se justifier lorsqu’une cohérence immédiate est nécessaire, comme pour l’authentification ou la facturation. Une décentralisation aurait plus globalement un coût non négligeable pour AWS, tout en compromettant éventuellement les engagements de disponibilité.
Illustration © blackboard – Adobe Stock
The post Panne AWS : la région us-east-1, point faible connu mais persistant appeared first on Silicon.fr.