Seleziona la lingua

Italian

Down Icon

Seleziona Paese

America

Down Icon

Google pubblica scuse e un rapporto sull'incidente per l'interruzione del cloud durata ore

Google pubblica scuse e un rapporto sull'incidente per l'interruzione del cloud durata ore

Google si è scusata per un'importante interruzione che, secondo l'azienda, era stata causata da molteplici livelli di aggiornamenti recenti imperfetti.

L'azienda ha pubblicato un rapporto sull'incidente nella tarda serata di venerdì, spiegando le ore di inattività di giovedì. Oltre 70 servizi cloud di Google hanno smesso di funzionare correttamente in tutto il mondo , interrompendo o bloccando decine di servizi di terze parti, tra cui Cloudflare. , OpenAI e Shopify Anche Gmail, Google Calendar, Google Drive, Google Meet e altri prodotti proprietari hanno funzionato male.

"Ci scusiamo profondamente per l'impatto che questa interruzione ha avuto", ha scritto Google nel rapporto sull'incidente. "I clienti di Google Cloud e i loro utenti affidano le loro attività a Google e faremo meglio. Ci scusiamo per l'impatto che questo ha avuto non solo sulle attività dei nostri clienti e sui loro utenti, ma anche sulla fiducia nei nostri sistemi. Ci impegniamo ad apportare miglioramenti per evitare interruzioni come questa in futuro."

Anche Thomas Kurian, CEO della divisione cloud di Google, ha parlato dell'interruzione in un post su X giovedì, affermando: "Ci rammarichiamo per il disagio che questo ha causato ai nostri clienti".

A maggio, Google ha aggiunto una nuova funzionalità ai suoi "controlli delle quote policy" per la valutazione delle richieste automatiche in arrivo, ma la nuova funzionalità non è stata immediatamente testata in situazioni reali, ha scritto l'azienda nel rapporto sull'incidente. Di conseguenza, i sistemi dell'azienda non sapevano come gestire correttamente i dati provenienti dalla nuova funzionalità, che includevano voci vuote. Queste voci vuote venivano quindi inviate a tutte le regioni dei data center di Google Cloud, causando i crash, ha scritto l'azienda.

Secondo l'azienda, gli ingegneri hanno risolto il problema in 10 minuti. Tuttavia, l'intero incidente si è protratto per sette ore, con l'incidente che ha causato un sovraccarico in alcune aree più estese.

Al momento del rilascio della funzionalità, Google non ha utilizzato i feature flag, una pratica sempre più diffusa nel settore che consente un'implementazione lenta per minimizzare l'impatto in caso di problemi. I feature flag avrebbero individuato il problema prima che la funzionalità diventasse ampiamente disponibile, ha affermato Google.

In futuro, Google modificherà la sua architettura in modo che, in caso di guasto di un sistema, possa comunque funzionare senza crash, ha affermato l'azienda. Google ha inoltre affermato che verificherà tutti i sistemi e migliorerà le sue comunicazioni "sia automatizzate che umane, in modo che i nostri clienti ricevano le informazioni necessarie il prima possibile per reagire ai problemi".

— Jordan Novet della CNBC ha contribuito a questo articolo.

GUARDA: Le acquisizioni di Google evidenziano il taglio dei costi tecnologici nel contesto del boom degli investimenti in intelligenza artificiale

CNBC

CNBC

Notizie simili

Tutte le notizie
Animated ArrowAnimated ArrowAnimated Arrow