Descargar PDF

Abrir en Causelink

ENTRENAMIENTO de ACR

La capacitación en análisis de causa raíz de Sologic proporciona las herramientas, las habilidades y el conocimiento necesarios para resolver problemas complejos en cualquier sector, dentro de cualquier disciplina y en cualquier escala.

Lea más
 

SOFTWARE

Sologic tiene el software de análisis de causa raíz adecuado para Usted y su organización. Los usuarios individuales pueden optar por instalar el software localmente o utilizar la nube. Nuestro software insignia a escala empresarial se entrega On Premise, instalado en la red de la organización, o como SaaS, en la nube. 

 Lea más

NOTA DE SOLOGIC: Este resumen fue proporcionado por Google. Usamos este resumen para crear el cuadro de causa y efecto.

RESUMEN:

El viernes 5 de agosto de 2016, algunos clientes de Google Cloud Platform experimentaron una mayor latencia de red y pérdida de paquetes en Google Compute Engine (GCE), Cloud VPN, Cloud Router y Cloud SQL, por una duración de 99 minutos. Si fuiste afectado por este problema, te pedimos disculpas. Tenemos la intención de proporcionar una mayor confiabilidad de nivel que esto, y estamos trabajando para aprender de este tema y hacer que esto sea una realidad.

Person in front of computers DESCRIPCIÓN DETALLADA DEL IMPACTO:

El viernes 5 de agosto de 2016, de 00:55 a 02:34 PDT, se interrumpieron varios servicios:

Parte del tráfico TCP y UDP de Google Compute Engine tuvo una latencia elevada. La mayoría del tráfico ICMP, ESP, AH y SCTP entrante desde el exterior de la red de Google se eliminó silenciosamente, lo que provocó que las conexiones existentes cayeran y las nuevas conexiones caducaran al conectarse.

La mayoría de las conexiones de primera generación de Google Cloud SQL de fuentes externas a Google fallaron con un tiempo de espera de conexión. Las conexiones de segunda generación de Cloud SQL pueden haber tenido una mayor latencia pero no fallas.

Los túneles de la VPN de Google Cloud permanecieron conectados, sin embargo, hubo una pérdida completa de paquetes para los datos a través de la mayoría de los túneles. Como las sesiones BGP de Cloud Router atraviesan Cloud VPN, todas las sesiones se cancelaron.

El resto del tráfico no se vio afectado, incluidas las conexiones internas entre los servicios de Google y los servicios proporcionados a través de las API de HTTP.

CAUSA PRINCIPAL:

Al eliminar un enrutador defectuoso del servicio, se utilizó un nuevo procedimiento para desviar el tráfico del enrutador. Este procedimiento aplica una nueva configuración que dio como resultado el anuncio de algunas direcciones IP de Google Cloud Platform desde un único punto de presencia en el suroeste de los EE. UU. Como estos anuncios fueron muy específicos, tuvieron prioridad sobre las rutas normales a la red de Google y provocaron que una proporción sustancial del tráfico de los rangos de la red afectados se dirigiera a este único punto de presencia. Este desajuste provocó directamente la latencia adicional que experimentaron algunos clientes.

Además, esta configuración errónea envió tráfico afectado a la infraestructura de próxima generación que se estaba probando. Esta nueva infraestructura aún no estaba configurada para manejar el tráfico de Cloud Platform y aplicó un filtro de paquetes excesivamente restrictivo. Esto bloqueó el tráfico en las direcciones IP afectadas que se enrutaron a través del punto de presencia afectado a Cloud VPN, Cloud Router, Cloud SQL de primera generación y GCE en protocolos distintos de TCP y UDP.

REMEDIACIÓN Y PREVENCIÓN:

La mitigación comenzó a las 02:04 PDT cuando los ingenieros de Google revertieron el cambio en la infraestructura de red que causó este problema, y ​​todas las rutas de tráfico volvieron a la normalidad a las 02:34. El sistema involucrado se hizo seguro contra las recurrencias al arreglar la configuración errónea. Esto incluye cambios en el filtrado BGP para evitar esta clase de anuncios incorrectos.

Estamos implementando pruebas de integración adicionales para nuestras políticas de enrutamiento para garantizar que los cambios en la configuración se comporten como se espera antes de implementarlos en la producción. Además, estamos mejorando nuestra telemetría de producción externa a la red de Google para detectar mejor los problemas de interconexión que sobrepasan nuestras pruebas.

Conozca más sobre Sologic RCA

Contáctenos


ENTRENAMIENTO de ACR

La capacitación en análisis de causa raíz de Sologic proporciona las herramientas, las habilidades y el conocimiento necesarios para resolver problemas complejos en cualquier sector, dentro de cualquier disciplina y en cualquier escala.

Lea más
 

SOFTWARE

Sologic tiene el software de análisis de causa raíz adecuado para Usted y su organización. Los usuarios individuales pueden optar por instalar el software localmente o utilizar la nube. Nuestro software insignia a escala empresarial se entrega On Premise, instalado en la red de la organización, o como SaaS, en la nube. 

 Lea más