Want to make interactive content? It’s easy in Genially!

Over 30 million people build interactive content in Genially.

Check out what others have designed:

Transcript

Sí, ayuda 😭

¿Estás de guardia y llegó una alerta?

Monitoreo y guardias

Kibana

Logs

Pasos a seguir

Es momento de aplicar lo aprendido

OpsGenie

Guardias y alertas

DataDog

Métricas y tableros

Recursos

Documentación

NewRelic

Trazas

El objetivo de este contenido es ayudarte a conocer mejor las herramientas de monitoreo y a reaccionar ante una alerta durante tu guardia

Índice

El objetivo de este contenido es darte una introducción básica al monitoreo, pero te recomendamos revisar estos otros recursos para complementar tu aprendizaje

Información adicional

Recursos

  • Guardias efectivas: onboarding guardias, métricas y configuración de alertas
  • Introducción a troubleshooting
  • Tracing distribuído
  • Documentación de monitoreo y observabilidad
  • Documentación framework de guardias
  • Best practices

Recursos

A través de esta herramienta es que recibirás alertas, notificaciones de guardia y llevarás registro de las incidencias.

Guardias y alertas

OpsGenie

Vista General

EJERCICIO

Este es el orden de escalamiento, es decir que si la persona en guardia no marca como Acknowledged en la ventana de tiempo establecida, esta escalará a la siguiente persona en esta lista.

¿Quién está de guardia?

Aquí puedes consultar quien estuvo, está y estará de guardia para una aplicación

Volver a vista general

Al presionar aquí puedes hacer un override de la guardia

Alertas

Aquí puedes consultar las alertas de tus aplicaciones. Es recomendable usar el filtro owner: me para visualizar sólo las que te corresponden a ti.¡Recuerda que cuando hay una alerta nueva, lo primero que debes hacer es marcarla como Ack!

Barra de búsqueda

Estatus, Ack

No. Alerta, Criticidad, Nombre de alerta

Volver a vista general

Notificaciones

Aquí puedes definir reglas que alteren cómo y cuándo se envían las notificaciones a los usuarios. Por ejemplo, puedes especificar diferentes métodos de notificación (correo electrónico, SMS, llamadas telefónicas) para diferentes circunstancias.

Volver a vista general

Overrides

Si dos o más personas desean sobreescribir la guardia actual por algún motivo, esto se puede hacer a través de este menú.

Volver a vista general

Ejercicio

  1. Ingresa a OpsGenie
  2. Configura tus notificaciones (para este ejecicio recomendamos todos en "immediately")
  3. Crea una alerta para Default API y asígnate como responsable
  4. Recibirás alertas por diferentes medios
  5. Marca la alerta como Ack

Presionar Ack

Volver a vista general

Aquí podrás supervisar el rendimiento de tus aplicaciones utilizando tableros que ofrecen métricas detalladas sobre el uso de infraestructura y el tráfico, así como otros aspectos clave del rendimiento.

Métricas y tableros

DataDog

Vista General

Filtro por vistas y scope

Filtro por fecha

Estos tableros te darán información general de la aplicación, también puedes configurarlos para obtener información más personalizada. Úsalos para diagnosticar posibles puntos de falla o comportamientos anómalos

Vista de Infraestructura

Filtro por aplicación, scope y versión

Filtro por fecha

Para acceder a esta vista debes ingresar a tu aplicación desde fury -> ops -> infrastructure y seleccionar el scope que deseas monitorear.

En esta herramienta podrás consultar los logs que hayas configurado dentro de tu aplicación. Estos te serán útiles para diagnosticar su comportamiento y obtener información adicional.

Logs

Kibana

Vista General

Barra de búsqueda

Filtro por fecha

Filtrado por tags

Aquí puedes seleccionar el scope del que te gustaría revisar los logs, además se te muestra el porcentaje de actividad de estos.

Aquí puedes seleccionar la versión de la que te gustaría revisar los logs.

Aquí puedes seleccionar la instancia de la que te gustaría revisar los logs.

Los logs son muy útiles para observar el comportamiento interno de la aplicación, asegúrate de filtrar adecuadamente para poder identificar posibles causas de fallos en una aplicación.

Aquí podrás supervisar el rendimiento de tus aplicaciones a través de tableros que ofrecen trazas detalladas para rastrear transacciones y detectar problemas a nivel de código, así como métricas sobre el uso de infraestructura y el tráfico.

Trazas

New Relic

Vista General

Lista de scopes

Búsqueda por aplicación

Vista de Infraestructura

Aquí puedes obtener información relacionada con el tráfico de tu aplicación, úsala para identificar posibles puntos de falla o problemas de comunicación.

  1. Mantén la calma.
  2. Analiza el impacto al negocio.
  3. Detecta lo antes posible cómo puedes volver a una situación estable.
  4. Dar visibilidad.
  5. Escalar.
  6. ¿Qué ha cambiado?
  7. Mitigar
  8. Dive in
  9. Resolución
  10. Post-mortem

Pasos a seguir

Sigue estos pasos y toooodo estará bien.

NOTA

¡Recuerda que en caso de que aplique, debes marcar la alerta como acknowledged lo antes posible!

Somos un gran equipo y todos juntos vamos a solucionar esto, aunque el problema haya sido por error nuestro, son cosas que pasan y no hay que entrar en pánico.

IMPORTANTE: Las alertas sólo deben hacerse para incidentes urgentes y sólo al equipo responsable de la reparación.

Si es necesario para entrar a un War Room, de visibilidad a tu equipo que esté asignado en este rol.

Si no sabes cómo solucionarlo, o no entiendo cómo solucionarlo. Escale a otras personas/equipos para solucionar el problema.

  1. Identificar el momento exacto en que comenzó el incidente;
  2. ¿Cambió algo en ese momento? (¿tráfico, código, configuración, saturación, latencia, tamaño del body?);
  3. Obtener información de error detallada;

Descubre la causa raíz (probablemente después del incidente)

Más fácil, más rápido: Rollback, turn it off, drop traffic, boost, contact on-call, escalar.

  1. Asegúrate de que el incidente se resuelva por completo para el usuario, verifica por algún tiempo y comunícate internamente;
  2. Si se requiere comunicación externa, verifica con BU leads;

Escribir el post-mortem y ejecutar action items

¿Cómo está afectando esto al cliente/usuario?El impacto depende de cada BU y debemos ser conscientes de ello.¿Es peor impactar 1% de los usuarios en 100% del tiempo o 100% de los usuarios en 1% del tiempo?Veamos algunos ejemplos de análisis de impacto, según el negocio:👉1º Ejemplo: 100% de los recibos realizados con Mercado Pago, están gravados al 35%, independientemente de la tarifa real que deba cobrarse. Este impacto alcanzó 1% de los usuarios de MP. >> ALTO IMPACTO👉2º Ejemplo: 100% de los usuarios no pueden finalizar el pago de la Food Dog, que es el piloto de comida a domicilio de Meli en 1% de las veces que intentan completar la compra. Este piloto está disponible para 300 usuarios. >> BAJO IMPACTODespués de analizar qué impacta en las métricas de core, la primera acción que debes tomar es analizar si puedes ayudar y, de ser así, unirte a una War Room.

Análisis de impacto