La observabilidad activa ahorra más de 0 por instancia al mes

La observabilidad activa ahorra más de $720 por instancia al mes

Los métodos de observabilidad activa para el procesamiento de gráficos simplificaron las operaciones de una gran empresa minorista y ahorraron más de $720 por mes por instancia al automatizar la resolución de incidentes y evitar costos innecesarios en la nube. Desafío empresarial Una empresa del Reino Unido con la que trabajamos enfrentó una clara necesidad de metodologías de observabilidad para garantizar operaciones fluidas. Al utilizar Datadog como proveedor de servicios, su objetivo es consolidar métricas, registros y seguimientos en una única fuente de verdad. Sin embargo, gestionar incidentes resultantes de múltiples fallas simultáneamente ha resultado ser un desafío. Esto nos impulsó a explorar opciones de automatización dentro del ecosistema de Datadog y PagerDuty. Solución Como parte de nuestra estrategia DevOps, identificamos problemas comunes en el procesamiento de gráficos, un proceso clave para el cliente. Hemos identificado dos problemas principales que activan alertas de monitoreo: las instancias no se cierran correctamente después de finalizar las tareas relacionadas con la computación gráfica y los trabajadores de Jenkins dejan de responder durante compilaciones simultáneas de alto uso. Optamos por la función de automatización del flujo de trabajo de Datadog para automatizar la reparación. Cierre automático de instancias En el primero de nuestros casos de uso, cerramos automáticamente las instancias utilizadas para representar imágenes de realidad virtual. Este proceso suele tardar unos 15 minutos y la instancia debería finalizar automáticamente después de generar correctamente la imagen. Sin embargo, existía el riesgo de que el script de shell responsable de este proceso fallara por varias razones, lo que resultaría en un uso prolongado de costosas instancias g5.type y costos innecesarios en la nube. Para mitigar este riesgo, hemos introducido un monitor específico diseñado para identificar todas las instancias del tipo g5 que se ejecutan durante más de 3600 segundos. Cuando se activa, este monitor activa un controlador conectado a una automatización del flujo de trabajo. DevOps configura esta automatización del flujo de trabajo para extraer metadatos sobre la instancia capturada por el monitor y ejecutar una acción de AWS preconfigurada relevante utilizada para extraer y transformar la información en un formato que Datadog pueda entender. Estos datos transformados luego fueron utilizados por la acción preconfigurada «Finalizar instancia EC2» para cerrar automáticamente la instancia, evitando así el uso prolongado y reduciendo costos innecesarios en la nube. Estabilidad del trabajador de Jenkins Nuestro segundo caso de uso es increíblemente relevante para la salud general de los sistemas CICD. Usar Jenkins como herramienta de CI para crear compilaciones de Unity puede ser un desafío debido al uso de recursos que cambia rápidamente, especialmente CPU y memoria. Esto se vuelve aún más complejo cuando se ejecutan varias compilaciones al mismo tiempo en el mismo trabajador, como en nuestro proyecto. En tales escenarios, a menudo encontramos problemas como la pérdida de conexión con los trabajadores de EC2 porque la sobrecarga de memoria en la instancia impedía que el agente SSH respondiera rápidamente. Como resultado, perdimos la pista de los estados de construcción, lo que obstaculizó una mayor planificación y, en el peor de los casos, interrumpió las construcciones que ya estaban en ejecución. Estas compilaciones suelen tardar entre 1 y 3 horas cada una. Debido a limitaciones arquitectónicas, no podíamos simplemente ampliar o reducir una instancia estática. En este caso, nuestro procedimiento implicó reiniciar la máquina, solucionar problemas de conectividad del agente SSH y reasignar compilaciones ya procesadas para utilizar mejor los recursos de los trabajadores. Para simplificar este proceso, implementamos la automatización del flujo de trabajo basada en un monitor que monitorea la métrica “jenkins.node_status.up”. Este parámetro indica si el maestro de Jenkins se conecta con el agente trabajador. La automatización del flujo de trabajo se activa para reiniciar la máquina cada vez que el parámetro indica una falta de conexión durante más de 5 minutos (para excluir cualquier pico intermitente). La observabilidad activa ahorra más de $720 por instancia al mes La implementación de métodos de observabilidad activa para automatizar los pasos de resolución de incidentes ha demostrado ser extremadamente beneficiosa. Ahorro de costos Con este sistema implementado, vimos importantes ahorros de costos al evitar que las instancias se ejecutaran desapercibidas, ahorrando más de $720 por instancia al mes. En un año, nuestro flujo de trabajo cerró con éxito más de 20 instancias, lo que generó importantes reducciones de costos. Eficiencia del tiempo Al automatizar la resolución de incidentes, nuestro socio ahorra mucho tiempo que de otro modo se habría dedicado a compilaciones fallidas. Dado que cada compilación tarda aproximadamente una hora y media, evitar errores significa maximizar el tiempo de desarrollo y acelerar el tiempo de comercialización de nuevas mejoras. ¿Está luchando con una complejidad creciente, una sobrecarga del sistema o un tiempo de inactividad devastador para el negocio? Superar a la competencia, ya que el 70% de las empresas aún están rezagadas en observabilidad (The State of Observability 2023). Nuestro equipo de DevOps le ayuda a determinar y cuantificar sus objetivos. Su taller le mostrará cómo Observability restaura inmediatamente sus sistemas y responde a cualquier incidente. ¡Haga clic a continuación para contactarnos! Reserva mis consultas gratuitas ahora

About Francisco

Check Also

¿El secreto para mejores productos?  Deje que los ingenieros impulsen la visión

¿El secreto para mejores productos? Deje que los ingenieros impulsen la visión

A mitad de mis cinco años y medio en SpaceX, la gerencia decidió cambiar la …

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *