La fournaise londonienne a eu raison d'un data center Google Cloud mardi, encore perturbé vingt-quatre heures plus tard, du fait d'une panne liée au refroidissement.
Mardi, le thermomètre s'est affolé et a entraîné une panne majeure du data center londonien de Google Cloud. L'un des bâtiments qui héberge une partie de la capacité de la zone « europe-west2-a » a subi un incident, seulement partiellement résolu. Il faut dire qu'hier, il faisait plus de 40 °C à Londres, la capitale anglaise a essuyé une vague de chaleur sans précédent, ou presque. Fort heureusement, elle est désormais passée, avec une baisse de la température comprise entre 10 et 15 degrés 24 heures après.
Une défaillance du data center liée au refroidissement
Mardi 19 juillet à 01 h 13 du matin heure locale, le tableau de bord des services Google Cloud a signalé un incident sur sa région de Londres (le centre de données, donc). Il a ainsi évoqué une « défaillance liée au refroidissement » de l'un de ses bâtiments sur site.
La défaillance a alors provoqué un arrêt partiel de la capacité du data center, « entraînant des arrêts de machines virtuelles pour un petit groupe de clients ». Les techniciens de Google Cloud ont préféré mettre hors tension une partie de la zone et limiter les lancements Google Compute Engine (une offre d'infrastructure qui permet aux clients de l'entreprise de lancer des charges de travail sur du matériel Google).
Google a indiqué, autour de 12 h mardi, que le problème a été, dans l'ensemble, résolu pour tous les clients touchés par la panne qui avait eu lieu dans la nuit, avec une restauration du système de refroidissement dans le centre de données londonien.
Des services encore victimes de perturbations, 24 heures après
Mais la console Google Cloud Service Health nous indique l'interruption, encore mercredi, de plusieurs services Cloud sur la région. C'est le cas notamment de API Gateway, qui permet à ses utilisateurs de développer, déployer et sécuriser les API à l'aide d'une passerelle entièrement gérée. Le service App Engine, plateforme sans serveur entièrement gérée pour le développement et l'hébergement d'applications web, reste aussi soumis à des difficultés. D'ordinaire, il est censé permettre de choisir parmi différents langages, bibliothèques et frameworks (Go, PHP, Java, Python, Node.js, etc.) pour développer ses applications.
C'est le cas aussi des services Google Cloud SQL, GC Storage, Google Kubernetes Engine ou de Persistent Disk (déjà touché la veille et qui aide à offrir de hautes performances pour les instances de machines virtuelles). Cloud Tasks, le service d'exécution asynchrone de tâches en dehors d'une requête utilisateur, subit toujours des perturbations lui aussi.
Ces produits connaissent actuellement des taux d'erreur, des latences ou tout simplement une indisponibilité de service, toujours en lien avec l'incident de refroidissement de la veille. On ignore encore quand ces derniers seront pleinement rétablis. Notons qu'un autre acteur majeur du Cloud, Oracle, subit aussi quelques perturbations à Londres, liées à la chaleur.
Source : Google Cloud Service Health