Monitoreo y Guardias
David Rodríguez
Created on September 5, 2024
Over 30 million people build interactive content in Genially.
Check out what others have designed:
ANCIENT EGYPT
Learning unit
MONSTERS COMIC "SHARING IS CARING"
Learning unit
PARTS OF THE ANIMAL CELL
Learning unit
PARTS OF A PROKARYOTIC CELL
Learning unit
PARTS OF THE PLANT CELL
Learning unit
Transcript
Sí, ayuda 😭
¿Estás de guardia y llegó una alerta?
Monitoreo y guardias
Kibana
Logs
Pasos a seguir
Es momento de aplicar lo aprendido
OpsGenie
Guardias y alertas
DataDog
Métricas y tableros
Recursos
Documentación
NewRelic
Trazas
El objetivo de este contenido es ayudarte a conocer mejor las herramientas de monitoreo y a reaccionar ante una alerta durante tu guardia
Índice
El objetivo de este contenido es darte una introducción básica al monitoreo, pero te recomendamos revisar estos otros recursos para complementar tu aprendizaje
Información adicional
Recursos
- Guardias efectivas: onboarding guardias, métricas y configuración de alertas
- Introducción a troubleshooting
- Tracing distribuído
- Documentación de monitoreo y observabilidad
- Documentación framework de guardias
- Best practices
Recursos
A través de esta herramienta es que recibirás alertas, notificaciones de guardia y llevarás registro de las incidencias.
Guardias y alertas
OpsGenie
Vista General
EJERCICIO
Este es el orden de escalamiento, es decir que si la persona en guardia no marca como Acknowledged en la ventana de tiempo establecida, esta escalará a la siguiente persona en esta lista.
¿Quién está de guardia?
Aquí puedes consultar quien estuvo, está y estará de guardia para una aplicación
Volver a vista general
Al presionar aquí puedes hacer un override de la guardia
Alertas
Aquí puedes consultar las alertas de tus aplicaciones. Es recomendable usar el filtro owner: me para visualizar sólo las que te corresponden a ti.¡Recuerda que cuando hay una alerta nueva, lo primero que debes hacer es marcarla como Ack!
Barra de búsqueda
Estatus, Ack
No. Alerta, Criticidad, Nombre de alerta
Volver a vista general
Notificaciones
Aquí puedes definir reglas que alteren cómo y cuándo se envían las notificaciones a los usuarios. Por ejemplo, puedes especificar diferentes métodos de notificación (correo electrónico, SMS, llamadas telefónicas) para diferentes circunstancias.
Volver a vista general
Overrides
Si dos o más personas desean sobreescribir la guardia actual por algún motivo, esto se puede hacer a través de este menú.
Volver a vista general
Ejercicio
- Ingresa a OpsGenie
- Configura tus notificaciones (para este ejecicio recomendamos todos en "immediately")
- Crea una alerta para Default API y asígnate como responsable
- Recibirás alertas por diferentes medios
- Marca la alerta como Ack
Presionar Ack
Volver a vista general
Aquí podrás supervisar el rendimiento de tus aplicaciones utilizando tableros que ofrecen métricas detalladas sobre el uso de infraestructura y el tráfico, así como otros aspectos clave del rendimiento.
Métricas y tableros
DataDog
Vista General
Filtro por vistas y scope
Filtro por fecha
Estos tableros te darán información general de la aplicación, también puedes configurarlos para obtener información más personalizada. Úsalos para diagnosticar posibles puntos de falla o comportamientos anómalos
Vista de Infraestructura
Filtro por aplicación, scope y versión
Filtro por fecha
Para acceder a esta vista debes ingresar a tu aplicación desde fury -> ops -> infrastructure y seleccionar el scope que deseas monitorear.
En esta herramienta podrás consultar los logs que hayas configurado dentro de tu aplicación. Estos te serán útiles para diagnosticar su comportamiento y obtener información adicional.
Logs
Kibana
Vista General
Barra de búsqueda
Filtro por fecha
Filtrado por tags
Aquí puedes seleccionar el scope del que te gustaría revisar los logs, además se te muestra el porcentaje de actividad de estos.
Aquí puedes seleccionar la versión de la que te gustaría revisar los logs.
Aquí puedes seleccionar la instancia de la que te gustaría revisar los logs.
Los logs son muy útiles para observar el comportamiento interno de la aplicación, asegúrate de filtrar adecuadamente para poder identificar posibles causas de fallos en una aplicación.
Aquí podrás supervisar el rendimiento de tus aplicaciones a través de tableros que ofrecen trazas detalladas para rastrear transacciones y detectar problemas a nivel de código, así como métricas sobre el uso de infraestructura y el tráfico.
Trazas
New Relic
Vista General
Lista de scopes
Búsqueda por aplicación
Vista de Infraestructura
Aquí puedes obtener información relacionada con el tráfico de tu aplicación, úsala para identificar posibles puntos de falla o problemas de comunicación.
- Mantén la calma.
- Analiza el impacto al negocio.
- Detecta lo antes posible cómo puedes volver a una situación estable.
- Dar visibilidad.
- Escalar.
- ¿Qué ha cambiado?
- Mitigar
- Dive in
- Resolución
- Post-mortem
Pasos a seguir
Sigue estos pasos y toooodo estará bien.
NOTA
¡Recuerda que en caso de que aplique, debes marcar la alerta como acknowledged lo antes posible!
Somos un gran equipo y todos juntos vamos a solucionar esto, aunque el problema haya sido por error nuestro, son cosas que pasan y no hay que entrar en pánico.
IMPORTANTE: Las alertas sólo deben hacerse para incidentes urgentes y sólo al equipo responsable de la reparación.
Si es necesario para entrar a un War Room, de visibilidad a tu equipo que esté asignado en este rol.
Si no sabes cómo solucionarlo, o no entiendo cómo solucionarlo. Escale a otras personas/equipos para solucionar el problema.
- Identificar el momento exacto en que comenzó el incidente;
- ¿Cambió algo en ese momento? (¿tráfico, código, configuración, saturación, latencia, tamaño del body?);
- Obtener información de error detallada;
Descubre la causa raíz (probablemente después del incidente)
Más fácil, más rápido: Rollback, turn it off, drop traffic, boost, contact on-call, escalar.
- Asegúrate de que el incidente se resuelva por completo para el usuario, verifica por algún tiempo y comunícate internamente;
- Si se requiere comunicación externa, verifica con BU leads;
Escribir el post-mortem y ejecutar action items
¿Cómo está afectando esto al cliente/usuario?El impacto depende de cada BU y debemos ser conscientes de ello.¿Es peor impactar 1% de los usuarios en 100% del tiempo o 100% de los usuarios en 1% del tiempo?Veamos algunos ejemplos de análisis de impacto, según el negocio:👉1º Ejemplo: 100% de los recibos realizados con Mercado Pago, están gravados al 35%, independientemente de la tarifa real que deba cobrarse. Este impacto alcanzó 1% de los usuarios de MP. >> ALTO IMPACTO👉2º Ejemplo: 100% de los usuarios no pueden finalizar el pago de la Food Dog, que es el piloto de comida a domicilio de Meli en 1% de las veces que intentan completar la compra. Este piloto está disponible para 300 usuarios. >> BAJO IMPACTODespués de analizar qué impacta en las métricas de core, la primera acción que debes tomar es analizar si puedes ayudar y, de ser así, unirte a una War Room.
Análisis de impacto