Observabilidad y Confiabilidad

Esta materia se centra en la observabilidad y confiabilidad en la ingeniería de sistemas, introduciendo la ingeniería de confiabilidad en sitios (SRE) y la composición de equipos. Se abordan conceptos clave como SLOs, SLIs, SLAs y presupuestos de errores, así como la observabilidad y el monitoreo a través de la recolección de datos de métricas, logs y trazas. Se discute la diferencia entre monitoreo de rendimiento de aplicaciones y servidores, la instrumentación de código y la ingeniería del caos. Además, se exploran prácticas relacionadas con la gestión de incidentes y la elaboración de informes de análisis de causas raíz, así como los servicios de “on-call”.

Contenidos:

Introducción.
Ingeniería “Site reliability”.
Composición de un equipo de SRE.
Definiciones para lograr una adecuada confiabilidad.
SLOs. SLIs. SLAs. Error budgets.
Observabilidad y monitoreo.
Recolección de datos para medición (métricas, bitácoras y huellas).
Monitoreo de rendimiento de aplicaciones vs monitoreo de rendimiento de servidores (APMs).
Instrumentación de código.
Clientes sintéticos.
Ingeniería del caos.
Las cuatro señales de oro.
Incidentes. Elaboración de reportes de análisis de causas raíces.
Servicios de “on-call” .