Observabilidad y Confiabilidad
Esta materia se centra en la observabilidad y confiabilidad en la ingeniería de sistemas, introduciendo la ingeniería de confiabilidad en sitios (SRE) y la composición de equipos. Se abordan conceptos clave como SLOs, SLIs, SLAs y presupuestos de errores, así como la observabilidad y el monitoreo a través de la recolección de datos de métricas, logs y trazas. Se discute la diferencia entre monitoreo de rendimiento de aplicaciones y servidores, la instrumentación de código y la ingeniería del caos. Además, se exploran prácticas relacionadas con la gestión de incidentes y la elaboración de informes de análisis de causas raíz, así como los servicios de “on-call”.
Contenidos:
- Introducción.
- Ingeniería “Site reliability”.
- Composición de un equipo de SRE.
- Definiciones para lograr una adecuada confiabilidad.
- SLOs. SLIs. SLAs. Error budgets.
- Observabilidad y monitoreo.
- Recolección de datos para medición (métricas, bitácoras y huellas).
- Monitoreo de rendimiento de aplicaciones vs monitoreo de rendimiento de servidores (APMs).
- Instrumentación de código.
- Clientes sintéticos.
- Ingeniería del caos.
- Las cuatro señales de oro.
- Incidentes. Elaboración de reportes de análisis de causas raíces.
- Servicios de “on-call” .