IA para la gestión de documentos de viaje. Procesamiento de PDF (PoC) más rápido

La industria de viajes lucha por organizar el transporte, las reservas de hoteles, los tours y la información de excursiones recopilada de múltiples proveedores. Esto conduce a una ola de documentos PDF no estructurados. Sin embargo, las soluciones de inteligencia artificial para la extracción de datos PDF facilitan este proceso. Desafíos comerciales Nuestro socio, una agencia de viajes, administraba muchos archivos PDF no estructurados que contenían detalles cruciales del viaje del usuario. Estos documentos, a menudo en diferentes idiomas y formatos inconsistentes, requieren una gestión detallada para extraer información relevante. Los desafíos clave incluyen: Diferentes formatos de documentos. El formato inconsistente dificulta la extracción de la información. Las barreras del idioma. Los documentos en varios idiomas añaden complejidad al proceso de extracción. Sobrecarga de información. Los detalles esenciales se distribuyen en múltiples fuentes y archivos. Procesamiento manual. La extracción manual requiere mucho tiempo y es propensa a errores. El cliente esperaba una prueba de concepto (PoC) rápida para ver si es posible la extracción automatizada de datos. La PoC validó el potencial para automatizar la extracción y organización de datos de viajes críticos, sentando las bases para una operación más eficiente y optimizada. Objetivos del proyecto Para abordar estos desafíos, el proyecto tuvo como objetivo extraer la siguiente información: números de reserva, nombres, detalles de vuelo, información de alojamiento, detalles de alquiler de automóviles, especificaciones de traslado, detalles de excursiones. El objetivo es organizar esta información en objetos relacionales para permitir su migración fluida a bases de datos para ejecutar consultas SQL analíticas y obtener información valiosa basada en datos para optimizar los procesos comerciales. Solución implementada El proyecto utiliza Python, la biblioteca LangChain y los modelos ChatGPT de OpenAI. A continuación se ofrece un vistazo detallado a los dos enfoques que hemos identificado. Primer enfoque: mensajes personalizados y cadenas MapReduce Nuestro enfoque inicial se basó en mensajes personalizados y cadenas LangChain MapReduce. Inicialmente, el mensaje del mapa extraía detalles esenciales de archivos PDF, incluidos alojamiento, traslados y alquileres. Luego, se ejecutó la cadena Reducir para convertir los resultados del mensaje del Mapa en objetos JSON. Desafíos: Alucinaciones LLM. El modelo generó datos incorrectos. Problemas con datos confidenciales. En ocasiones, la modelo rechazaba tareas que implicaban datos personales. Salida en formato JSON incorrecto. Información faltante. A menudo se perdían datos entre las fases de Mapa y Reducción. Desafortunadamente, no estábamos contentos con los resultados y resultó difícil crear sugerencias efectivas para lograr resultados consistentes. Sin embargo, esta técnica funcionó para manejar numerosos archivos de entrada que exceden el tamaño del contexto LLM. Segundo enfoque: cadenas de minería integradas y funciones API Para nuestro siguiente intento, utilizamos las cadenas de minería integradas de LangChain y las funciones API de OpenAI. Para ejecutar esta cadena, necesitábamos proporcionar un objeto que describiera el patrón de propiedades que queríamos extraer. Hemos preparado muchos campos bien descritos para alojamiento y transferencia de documentos, obteniendo resultados precisos. Seleccionamos manualmente solo los archivos necesarios, simulando un escenario en el que los archivos ya estaban etiquetados. Podríamos automatizar este proceso o pedirle al cliente que proporcione solo archivos valiosos. Los nombres y descripciones clave bien investigados tienen un impacto significativo en la calidad de los datos devueltos. Esquema de ejemplo: tenga en cuenta que esta estructura está diseñada en función de los archivos PDF analizados para un caso de uso específico. Debe preparar un esquema personalizado diferente para otro conjunto de datos. Desafíos: Alucinaciones ocasionales. Aunque se redujeron, todavía se produjeron alucinaciones (por ejemplo, LLM registró incorrectamente una transferencia de automóvil que no estaba presente en los datos). Problemas con el formato JSON. Algunos objetos JSON requirieron corrección manual. Largos tiempos de procesamiento. Después de cambiar el modelo de GPT3.5 a GPT4, algunos archivos tardaron varios minutos en procesarse. Precisión de datos mejorada. El procesamiento puede tardar un poco más, pero la precisión de los resultados ha aumentado significativamente. Duplicación de datos. Hubo casos de datos duplicados. Excepciones de la biblioteca. Excepciones ocasionales interrumpieron el proceso. Mejoras adicionales No puede confiar al 100% en los LLM. Si bien brindan valor, siempre debe validar sus resultados a través de fuentes/métodos confiables, especialmente para información crítica. Para actualizar la solución, hemos planificado las siguientes mejoras: Etiquetado y limpieza de datos de entrada. Sólo se procesan los datos necesarios. Filtrado y validación de datos de salida. Buscando duplicados y datos alucinados. Mejores descripciones de campo. Utilizar descripciones y enumeraciones detalladas. Mecanismos de reprobación. Implementación de reintentos de excepción interna. Analizadores de PDF mejorados. Uso de analizadores avanzados para una mejor extracción de datos. Nos llevó una semana validar las ideas y planificar el futuro. Aunque actualmente es una prueba de concepto (PoC), nuestro proyecto ya ha mostrado resultados prometedores en solo una semana de extensa investigación y experimentación. Hemos desarrollado una solución parcialmente funcional que mejora efectivamente la extracción de datos, sentando las bases para un futuro sin trabajo manual de datos. Si bien nuestro sistema fue diseñado para extraer información de alojamiento, ahora lo estamos actualizando para procesar datos de alquiler de automóviles. Nuestro siguiente paso es crear una demostración convincente para mostrar su potencial y practicidad. Nuestro socio validará nuestra solución utilizando inteligencia artificial de vanguardia, modelos de lenguaje avanzados y técnicas de extracción de datos más rápidas. Pueden procesar la información de viajes de manera más eficiente y descubrir conocimientos comerciales a través de análisis basados ​​en datos. No dejes que el papeleo te frene: adopta la IA en la gestión de viajes. Reserve una consulta gratuita para descubrir cómo nuestras herramientas impulsadas por IA simplificarán la gestión de documentos, automatizarán tareas y aumentarán su eficiencia.

About Francisco

Check Also

Libro electrónico: Una guía práctica para construir una estrategia de datos e IA

Libro electrónico: Una guía práctica para crear una estrategia de datos e inteligencia artificial | …

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *