Las organizaciones están cada vez más atrapadas en el círculo vicioso de la IA y la IA generativa, pero en muchos casos carecen de la base de datos necesaria para ejecutar proyectos de IA. Un tercio de los ejecutivos cree que menos del 50% de los datos de su organización son consumibles, lo que subraya el hecho de que muchas organizaciones no están preparadas para la IA. Por este motivo, es fundamental sentar las bases adecuadas antes de embarcarse en una iniciativa de IA. Al evaluar su nivel de preparación, estas son las consideraciones clave: Disponibilidad: ¿Dónde están sus datos? Catálogo: ¿Cómo documentarás y armonizarás tus datos? Calidad: Tener datos de buena calidad es fundamental para el éxito de sus iniciativas de IA. La IA destaca el problema de la entrada y salida de basura: si introduce datos en el modelo de IA que son de mala calidad, inexactos o irrelevantes, su resultado también lo será. Estos proyectos son demasiado complejos y costosos, y hay mucho en juego, como para comenzar con datos incorrectos. La importancia de los datos para la inteligencia artificial Los datos son el activo de la inteligencia artificial; se entrena con datos y luego los procesa para un propósito diseñado. Cuando planea utilizar IA para resolver un problema, incluso cuando utiliza un modelo de lenguaje grande existente, como una herramienta de IA generativa como ChatGPT, deberá proporcionarle el contexto adecuado para su tarea (por ejemplo, buenos datos) para adaptarse. respuestas al contexto empresarial (por ejemplo, para una generación de recuperación aumentada). No se trata sólo de conectar datos a un modelo. Y si está creando un modelo nuevo, necesita saber qué datos utilizará para entrenarlo y validarlo. Esos datos deben separarse para que pueda entrenarlos con un conjunto de datos y luego validarlos con un conjunto de datos diferente y determinar si funciona. Los desafíos de establecer la base de datos adecuada Para muchas empresas, saber dónde se encuentran sus datos y su disponibilidad es el primer gran desafío. Si ya tiene cierto nivel de comprensión de sus datos (qué datos existen, en qué sistemas existen, cuáles son las reglas para esos datos, etc.), este es un buen lugar para comenzar. Sin embargo, el hecho es que muchas empresas no tienen este nivel de comprensión. Los datos no siempre están fácilmente disponibles; Puede residir en muchos sistemas y silos. En particular, las grandes empresas tienden a tener panoramas de datos muy complicados. No tienen una única base de datos seleccionada donde todo lo que el modelo necesita esté perfectamente organizado en filas y columnas donde puedan simplemente buscarlo y usarlo. Otro desafío es que los datos no sólo se encuentran en muchos sistemas diferentes, sino también en muchos formatos diferentes. Hay bases de datos SQL, bases de datos NoSQL, bases de datos de gráficos, lagos de datos y, a veces, solo se puede acceder a los datos a través de API de aplicaciones propietarias. Hay datos estructurados y datos no estructurados. Hay algunos datos en los archivos, y tal vez algunos provengan de los sensores de sus fábricas en tiempo real, y así sucesivamente. Dependiendo de la industria en la que opere, sus datos pueden provenir de una gran variedad de sistemas y formatos diferentes. Armonizar estos datos es difícil; La mayoría de las organizaciones no tienen las herramientas o sistemas para hacer esto. Incluso si puede encontrar sus datos y ponerlos en un formato común (modelo canónico) que la empresa entienda, ahora debe pensar en la calidad de los datos. Los datos son confusos; Puede parecer bueno desde lejos, pero cuando miras más de cerca, estos datos contienen errores y duplicaciones porque los obtienes de múltiples sistemas y las inconsistencias son inevitables. No se pueden alimentar datos de entrenamiento de baja calidad de la IA y esperar resultados de alta calidad. Cómo sentar las bases adecuadas: tres pasos hacia el éxito El primer componente de su proyecto de IA es comprender sus datos. Debe tener la capacidad de articular qué datos está capturando su empresa, en qué sistemas vive, cómo se implementa físicamente en relación con la definición lógica de la empresa, cuáles son las reglas comerciales para ello. A continuación, debe poder evaluar sus datos. Esto se reduce a preguntar: «¿Qué significan unos buenos datos para mi empresa?» Necesita una definición de lo que significa buena calidad, reglas para validarla y limpiarla, y una estrategia para mantener la calidad durante todo su ciclo de vida. Si puedes obtener datos en un modelo canónico de sistemas heterogéneos y luchar contra ellos para mejorar su calidad, aún tienes que lidiar con la escalabilidad. Este es el tercer paso fundamental. Muchos modelos requieren una gran cantidad de datos para entrenarlos; También se necesitan muchos datos para la generación de recuperación aumentada, que es una técnica para mejorar los modelos de IA generativa utilizando información obtenida de fuentes externas que no se incluyeron en el entrenamiento del modelo. Y todos estos datos cambian y evolucionan constantemente. Necesita una metodología sobre cómo crear la canalización de datos adecuada que sea escalable para manejar la carga y el volumen de datos que podría incluir en ella. Inicialmente, está tan atascado en descubrir de dónde obtener los datos, cómo limpiarlos, etc., que es posible que no haya pensado completamente en lo difícil que será cuando intente escalar con datos en constante cambio. Por lo tanto, debe considerar qué plataforma está utilizando para construir este proyecto para que esa plataforma pueda escalar al volumen de datos que ingerirá. Crear el entorno para datos confiables Cuando se trabaja en un proyecto de IA, tratar los datos como una ocurrencia tardía es una receta segura para obtener malos resultados comerciales. Cualquiera que se tome en serio la creación y el mantenimiento de ventajas comerciales mediante el desarrollo y el uso de la IA debe comenzar primero con los datos. La complejidad y el desafío de catalogar y preparar datos para su uso con fines comerciales es una preocupación importante, especialmente porque el tiempo es esencial. Por eso no tienes tiempo para cometer errores; Es fundamental disponer de una plataforma y una metodología que le ayuden a mantener datos de alta calidad. Comprenda y evalúe sus datos, luego planifique la ampliación y estará en el camino hacia mejores resultados comerciales.
Check Also
Correcciones adicionales en el panel: instantánea del navegador Vivaldi 3491.4
En la instantánea de hoy hay mejoras adicionales en el experimento del panel de la …