Los datos de series de tiempo son un componente importante para que los dispositivos de IoT, como automóviles inteligentes o equipos médicos, funcionen correctamente porque recopilan mediciones basadas en valores de tiempo. Para obtener más información sobre el papel crucial que desempeñan los datos de series temporales en el mundo conectado de hoy, invitamos a Evan Kaplan, director ejecutivo de InfluxData, a nuestro podcast para hablar sobre este tema. Aquí hay una versión editada y abreviada de esa conversación: ¿Qué son los datos de series temporales? En realidad, es bastante fácil de entender. Básicamente es la idea de que estás recopilando mediciones o instrumentación en función de valores de tiempo. La forma más sencilla de pensar en ello es, por ejemplo, sensores, análisis de sensores o cosas así. Los sensores pueden medir presión, volumen, temperatura, humedad, luz y, por lo general, se registran como mediciones basadas en el tiempo, una marca de tiempo si se prefiere, cada 30 segundos, cada minuto o cada nanosegundo. La idea es que estás instrumentando sistemas a gran escala y por lo tanto quieres ver cómo se comportan. Uno, buscar anomalías, pero dos, entrenar futuros modelos de IA y cosas así. Y así, la instrumentación se realiza, normalmente, en base a series de tiempo. En años anteriores, esto se podría haber hecho en una base de datos general, pero cada vez más, debido a la cantidad de datos que ingresan y los requisitos de rendimiento en tiempo real, se han creado bases de datos especializadas. Una base de datos especializada para manejar este tipo de cosas realmente cambia las reglas del juego para los arquitectos de sistemas que construyen estos sofisticados sistemas en tiempo real. Entonces, digamos que tiene un sensor en un dispositivo médico y simplemente está eliminando datos, como usted dijo, rápidamente. Ahora bien, ¿se está dando cuenta de todo o simplemente está informando de una anomalía que surge? Se trata tanto de datos en movimiento como de datos en reposo. Se trata de recopilar datos y hay algunas aplicaciones que admitimos, que son miles de millones de puntos por segundo; piense en cientos o miles de sensores que leen cada 100 milisegundos. Y estamos observando los datos a medida que se escriben y están disponibles para ser consultados casi instantáneamente. Casi no hay tiempo, pero es una base de datos, por lo que almacena datos, los preserva y puede realizar análisis a largo plazo sobre los mismos datos. Entonces, ¿el espacio de almacenamiento es un gran problema? Si se borraran todos estos datos y no hubiera anomalías, ¿se podrían recopilar horas de datos sin que nada cambiara? Si recibe datos (algunas industrias reguladas requieren que los conserve durante un período de tiempo muy largo), es muy importante que tenga habilidad para comprimirlos. También es muy importante que puedas proporcionar un formato de almacenamiento de objetos, lo cual no es fácil para un sistema basado en el rendimiento, ¿verdad? Y también es muy importante poder submuestrearlo. Y reducir la resolución significa que tomamos medidas cada 10 milisegundos, pero cada 20 minutos queremos resumirlas. Queremos submuestrearlo para buscar la señal que está presente en esa ventana de 10 o 20 minutos. Y lo submuestreamos y eliminamos muchos de los datos y solo conservamos los datos resumidos. Entonces tienes que ser muy bueno en ese tipo de cosas. La mayoría de las bases de datos no son buenas para podar o reducir la resolución, por lo que es un conjunto de habilidades realmente específico que las hace extremadamente útiles, no sólo para nosotros, sino también para nuestros competidores. Estábamos hablando de dispositivos edge y ahora entra en juego la inteligencia artificial. Entonces, ¿cómo mejoran los datos de series temporales estos sistemas? ¿Beneficiarse de estos avances? ¿O cómo pueden ayudar a que las cosas sigan avanzando? Creo que es bastante crucial. El concepto de datos de series temporales existe desde hace mucho tiempo. Entonces, si creó un sistema hace 30 años, es probable que lo haya creado en Oracle, Informatica o IBM Db2. El ejemplo canónico son los datos financieros de Wall Street, donde se sabe cómo se negocian las acciones minuto a minuto, de un segundo a otro. Así que existe desde hace mucho tiempo. Pero lo nuevo y diferente en el espacio es que percibimos el mundo físico a un ritmo increíblemente rápido. Mencionaste dispositivos médicos, pero las ciudades inteligentes, el transporte público, tus automóviles, tu hogar, tus fábricas industriales, todo se detecta. Sé que no es una palabra real, pero es fácil de entender. Y entonces los sensores hablan de series temporales. Ésta es su lengua franca. Hablan de presión, volumen, humedad, temperatura, lo que sea que estés midiendo a lo largo del tiempo. Y resulta que si se quiere construir un sistema más inteligente, hay que empezar con instrumentación sofisticada. Por eso quiero tener un excelente automóvil autónomo, así que quiero tener una imagen de muy alta resolución de lo que hace ese automóvil y de lo que hace el entorno que lo rodea en todo momento. Entonces puedo entrenar un modelo con toda la conciencia potencial que un conductor humano, o mejor, podría tener en el futuro. Para ello tengo una herramienta. Luego tengo que observar, luego tengo que reinstrumentarme y luego tengo que observar. Paso por ese proceso de observación, corrección y re-instrumentación una y más de 4 mil millones de veces. Entonces, ¿cuáles son algunas de las cosas que podríamos esperar en términos de casos de uso? Mencionaste algunos ahora con, ya sabes, ciudades y automóviles y cosas así. Entonces, ¿en qué otras áreas cree que esto podría avanzar? Entonces, en primer lugar, los sectores en los que éramos realmente fuertes son el energético, el aeroespacial, el comercio financiero, las redes y la telemetría. Nuestros clientes más importantes son de todo, desde JPMorgan Chase hasta AT&T, Salesforce y una variedad de cosas. Entonces es una capacidad horizontal, esa capacidad de instrumentación. Creo que lo que es realmente importante en nuestro espacio, y lo que se está volviendo cada vez más relevante, es el papel que desempeñan los datos de series temporales en la inteligencia artificial y la importancia de comprender cómo se comportan los sistemas. Básicamente, lo que intenta hacer con la IA es intentar contar qué sucedió para entrenar su modelo y qué sucederá para obtener respuestas de su modelo y hacer que su sistema funcione mejor. Y entonces “¿qué pasó?” es nuestra lengua franca, es algo clave que hacemos, obtener una imagen muy precisa de todo lo que sucede alrededor de ese sensor durante ese período, todo ese tipo de cosas, recopilar datos de alta resolución y luego introducirlos en modelos de entrenamiento en los que las personas construir modelos de aprendizaje sofisticados o máquinas de entrenamiento robóticas y luego actuar en base a esos datos. Entonces, sin estos datos de instrumentación, al material de IA básicamente le faltan los fundamentos, especialmente la IA del mundo real, no necesariamente hablando de LLM generativos, sino de automóviles, robots, ciudades, fábricas, atención médica, ese tipo de cosas.
Check Also
La estabilidad general de la aplicación mejora a medida que las sesiones sin fallos se acercan al 100%
Instabug ha publicado el informe Outlook 2024 de estabilidad de aplicaciones móviles, que arroja luz …