Home TecnologíaNetflix: Observabilidad E2E con Grafos de Conocimiento y Ontología

Netflix: Observabilidad E2E con Grafos de Conocimiento y Ontología

by Editor de Tecnologia

Prasanna Vijayanathan y Renzo Sanchez-Silva, ambos ingenieros de Netflix, presentaron Ontology‐Driven Observability: Building the E2E Knowledge Graph at Netflix Scale en QCon London 2026, donde discutieron el diseño y la implementación de un grafo de conocimiento de extremo a extremo que modela la experiencia del usuario de Netflix como interacciones de un grafo conectado de usuarios, clientes, servicios e infraestructura.

La Observabilidad de Extremo a Extremo (E2E) se define como la capacidad de monitorear, comprender y depurar todo el estado de un sistema complejo, desde la experiencia del usuario en el frontend hasta los servicios de backend y la infraestructura en la nube subyacente.

Vijayanathan comenzó su presentación invitando a la audiencia a imaginar un sistema que pudiera detectar problemas de inmediato, priorizar el impacto y la clasificación de un incidente, proporcionar automáticamente la causa raíz y predecir de forma proactiva.

En una reciente investigación de un incidente en Netflix, se necesitaron cuatro horas desde la alerta inicial hasta su resolución. Durante ese tiempo, se realizó una clasificación, depuración e identificación de la causa raíz, involucrando a nueve equipos y a más de 30 ingenieros, además de tres incidentes relacionados.

Los desafíos típicos para la observabilidad E2E incluyen numerosas fuentes de datos aisladas, alertas desconectadas y sin contexto, complejidad en la clasificación y la resolución de problemas, y métodos de detección inadecuados.

El concepto de Conectividad implica cerrar brechas y romper silos. En Netflix, los datos conectados en su observabilidad E2E incluyen el enriquecimiento de datos para una única fuente de verdad, la minimización de la duplicación de esfuerzos, la capacidad de clasificar y solucionar problemas complejos que ofrecen información agregada y causas raíz, y una mayor precisión en el diagnóstico.

leer más  MindRank: Fármaco adelgazante con IA en fase 3 en China

Vijayanathan introdujo la Capa MELT (Métricas, Eventos, Registros, Eventos), como una capa de observabilidad unificada para usuarios, dispositivos y servicios que puede mejorar el tiempo de resolución de incidentes.

Sanchez-Silva continuó su presentación introduciendo el concepto de Ontología, definida como una especificación formal de tipos, propiedades y relaciones. La ontología es una forma de codificar el conocimiento; no se trata solo de los datos, sino de las relaciones entre ellos.

La estructura de datos de la ontología, El Triple, es una tupla (Sujeto | Predicado | Objeto) que define un hecho en un grafo de conocimiento que puede ser consultado.

Un ejemplo de dicho triple es:

  api-gateway | rdf:type | ops:Application api-gateway | ops:ownedBy | "Team Bedrock" INC-5377 | rdf:type | ops:Incident INC-5377 | ops:affects | api-gateway  

Los 12 Espacios de Nombres Operacionales conectan todos los elementos de la infraestructura de Netflix. Estos incluyen: Slack, Alertas, Métricas, Registros, Incidentes, E2E y Harvest.

Sanchez-Silva señaló que el conocimiento sobre incidentes puede estar disperso entre los 12 espacios de nombres operacionales, lo que genera un caos operativo. Sin embargo, la ontología proporciona orden al capturar, estructurar y preservar una estructura de datos triple legible por máquina.

El Volante del Conocimiento (Knowledge Flywheel) genera resiliencia, ya que cada rotación presenta tres estados – Observar, Enriquecer e Inferir – como entrada para la adaptación. Cada rotación codifica el conocimiento para rotaciones posteriores más inteligentes.

Utilizando Claude como un co-desarrollador, cada recolección (harvest) se ejecuta en su propio árbol de trabajo git. Dos volantes pueden “girar juntos” en un mismo sistema. Por ejemplo:

Volante 1: Conocimiento

Slack –> Enriquecer –> Inferir –> Adaptar

leer más  iPhone 16: Oferta Boulanger y precio rebajado

Volante 2: Código (árbol de trabajo git)

Árbol de trabajo –> Claude –> PR–> Revisar –> Fusionar

Ambos volantes trabajan juntos de tal manera que Claude puede proponer una solicitud de extracción (PR) y un humano puede revisar la PR y fusionar la solicitud.

Sanchez-Silva afirmó que la ontología es el contrato entre el caos y la comprensión. El resultado se muestra en esta visualización de la ontología de un incidente.

De cara al futuro, Netflix planea automatizar los análisis de causa raíz, proporcionar la auto-remediación y crear una infraestructura auto-reparable.

You may also like

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.