Google présente ses excuses et publie un rapport d'incident pour une panne de cloud qui a duré plusieurs heures

Google s'est excusé pour une panne majeure qui, selon la société, a été causée par plusieurs couches de mises à jour récentes défectueuses.
L'entreprise a publié un rapport d'incident vendredi soir expliquant les heures d'interruption de service survenues jeudi. Plus de 70 services cloud de Google ont cessé de fonctionner correctement à travers le monde , perturbant ou perturbant des dizaines de services tiers, dont Cloudflare. , OpenAI et Shopify . Gmail, Google Calendar, Google Drive, Google Meet et d’autres produits propriétaires ont également mal fonctionné.
« Nous nous excusons sincèrement pour l'impact de cette panne », a écrit Google dans le rapport d'incident. « Les clients de Google Cloud et leurs utilisateurs font confiance à Google, et nous ferons mieux. Nous nous excusons pour l'impact que cela a eu, non seulement sur les activités de nos clients et leurs utilisateurs, mais aussi sur la confiance que nous accordons à nos systèmes. Nous nous engageons à apporter des améliorations afin d'éviter de telles pannes à l'avenir. »
Thomas Kurian, PDG de l'unité cloud de Google, a également publié un article sur la panne dans un article publié jeudi sur X , déclarant : « Nous regrettons la perturbation que cela a causée à nos clients. »
En mai, Google a ajouté une nouvelle fonctionnalité à ses « vérifications de quotas » pour évaluer les requêtes entrantes automatisées. Cependant, cette fonctionnalité n'a pas été immédiatement testée en situation réelle, a indiqué l'entreprise dans le rapport d'incident. Par conséquent, les systèmes de l'entreprise ne savaient pas comment gérer correctement les données de cette nouvelle fonctionnalité, qui incluaient des entrées vides. Ces entrées vides ont ensuite été envoyées à toutes les régions des centres de données Google Cloud, ce qui a provoqué les plantages, a précisé l'entreprise.
Selon l'entreprise, les ingénieurs ont résolu le problème en 10 minutes. Cependant, l'incident a duré sept heures, entraînant une surcharge dans certaines régions plus importantes.
Lors du lancement de la fonctionnalité, Google n'a pas utilisé d'indicateurs de fonctionnalité, une pratique de plus en plus courante dans le secteur qui permet une mise en œuvre lente afin de minimiser l'impact en cas de problème. Les indicateurs de fonctionnalité auraient permis de détecter le problème avant que la fonctionnalité ne soit largement disponible, a déclaré Google.
À l'avenir, Google modifiera son architecture afin que, même en cas de panne d'un système, celui-ci puisse continuer à fonctionner sans problème, a indiqué l'entreprise. Google a également annoncé qu'elle auditerait tous ses systèmes et améliorerait ses communications « tant automatisées qu'humaines, afin que nos clients reçoivent au plus vite les informations dont ils ont besoin pour réagir aux problèmes ».
— Jordan Novet de CNBC a contribué à ce rapport.
CNBC