Ir al contenido

Observabilidad y Confiabilidad

Esta materia se centra en la observabilidad y confiabilidad en la ingeniería de sistemas, introduciendo la ingeniería de confiabilidad en sitios (SRE) y la composición de equipos. Se abordan conceptos clave como SLOs, SLIs, SLAs y presupuestos de errores, así como la observabilidad y el monitoreo a través de la recolección de datos de métricas, logs y trazas. Se discute la diferencia entre monitoreo de rendimiento de aplicaciones y servidores, la instrumentación de código y la ingeniería del caos. Además, se exploran prácticas relacionadas con la gestión de incidentes y la elaboración de informes de análisis de causas raíz, así como los servicios de “on-call”.

Contenidos:

  • Introducción.
  • Ingeniería “Site reliability”.
  • Composición de un equipo de SRE.
  • Definiciones para lograr una adecuada confiabilidad.
  • SLOs. SLIs. SLAs. Error budgets.
  • Observabilidad y monitoreo.
  • Recolección de datos para medición (métricas, bitácoras y huellas).
  • Monitoreo de rendimiento de aplicaciones vs monitoreo de rendimiento de servidores (APMs).
  • Instrumentación de código.
  • Clientes sintéticos.
  • Ingeniería del caos.
  • Las cuatro señales de oro.
  • Incidentes. Elaboración de reportes de análisis de causas raíces.
  • Servicios de “on-call” .