Transformando números en narrativas – Made Tech

Transformando números en narrativas – Made Tech

Bienvenido a Made Tech Insiders, donde entrevistamos a las personas talentosas que dan forma a nuestra organización. Exploraremos trayectorias profesionales, aspectos destacados de los proyectos y tendencias tecnológicas futuras, mostrando lo que hace de Made Tech un excelente lugar para trabajar e innovar. Desde la intrincada tarea de analizar conjuntos de datos masivos hasta abordar los riesgos que surgen de la inteligencia artificial, el campo de la ciencia de datos no es para los débiles de corazón. James Poulten, científico de datos principal de Made Tech, analiza las lecciones clave de sus proyectos recientes y la emoción (en su opinión) de convertir datos sin procesar en conocimientos valiosos basados ​​en datos. P: ¿Cómo llegó a trabajar en la industria tecnológica y qué hace un científico de datos? Mi viaje con los datos comenzó en el mundo académico. No creo que hubiera seguido involucrado en la física tanto tiempo si no hubiera disfrutado analizando datos y respondiendo preguntas. Incluso con un doctorado, luché por entrar en la industria. Comencé como desarrollador junior y asumí todo el trabajo de datos que pude. Como científico de datos en Made Tech, mi trabajo principal es analizar grandes conjuntos de datos y brindar información útil a los clientes. A menudo comienzo proyectos sin mucho contexto o conocimiento previo, recibo datos sin procesar y me piden que extraiga valor de ellos. Se trata de no dejarse intimidar por grandes cantidades de datos y hacer las preguntas adecuadas para comprender el problema en cuestión. P: ¿Qué habilidades necesita un científico de datos? La ciencia de datos se trata principalmente de su capacidad para crear y presentar una historia utilizando datos. Comunicar información técnica a partes interesadas no técnicas y presentarla es su pan de cada día. En segundo lugar, es útil tener una base sólida en programación en Python o R, así como experiencia en análisis estadístico y algoritmos de aprendizaje automático. P: ¿Cuáles son algunos de los desafíos cuando se trata de trabajar en proyectos de datos? Obtener los datos correctos Las organizaciones generalmente proporcionan lo que creen que son los datos correctos, pero a menudo tengo que hacer preguntas adicionales para recopilar contexto adicional y asegurarme de que los datos que me han proporcionado estén realmente relacionados con el problema en cuestión. Los clientes no intentan ocultar nada; Realmente quieren ayuda para comprender y utilizar mejor sus datos. Sin embargo, es posible que no siempre proporcionen toda la información correcta desde el principio. El conocimiento que es una segunda naturaleza para ellos a menudo no es obvio para un extraño que mira hacia adentro. Mala gobernanza de datos ¡Mi némesis es Excel porque les da a todos suficiente poder para causar muchos problemas! Los problemas de versión y la mala gestión de los datos pueden afectar gravemente a los proyectos de gestión de datos. Una hoja de cálculo de Excel bien formateada con animaciones y degradados se ve muy bien, pero en realidad puede resultar difícil sacar algo significativo de ella. Primero tengo que eliminar todas las comodidades para llegar a los datos sin procesar, y eso es todo antes de descubrir que cada uno tiene su propia versión de «real_final_final_report_v3.xls». Calidad de los datos históricos Si retrocede unos años, la calidad de los datos era significativamente peor que la actual. Entonces, por ejemplo, si estoy desarrollando modelos predictivos, tengo que mirar hacia atrás para mirar hacia adelante, y cuanto más retrocedo, peor es la calidad de los datos. Los costos han comenzado a disminuir y las organizaciones se están dando cuenta de que la calidad de sus datos afectará su capacidad futura para implementar herramientas de inteligencia artificial y aprendizaje automático (ML). Como resultado, he visto que la calidad de los datos realmente comienza a mejorar. P: ¿Cuál es el primer paso en un proyecto de datos? La primera pregunta que siempre hago es sobre la madurez de los datos de un cliente. Es importante comprender su nivel actual de gestión de datos. Si no están seguros de lo que realmente significa «madurez de los datos», una pregunta más simple como «¿Dónde almacena sus datos?» puede ayudar a arrojar luz sobre la situación. Los clientes a menudo se jactan de tomar decisiones basadas en datos, pero en realidad suele ser solo una persona la que intenta interpretar un gráfico. Estas personas a menudo no tienen la formación de un analista o científico de datos y pueden sentirse abrumadas por los datos que han heredado. P: ¿Puede darme un ejemplo de un proyecto de datos en el que trabajó y los beneficios que proporcionó? Un ejemplo que me viene a la mente es un trabajo de modelado de datos que realizamos recientemente con Skills for Care, un organismo de planificación estratégica que monitorea el sector de atención social para adultos. Actualmente, el gobierno no exige a los proveedores de atención médica que informen la cantidad de cuidadores que emplean o cuántos trabajan en una instalación específica. Esto significa que el gobierno actualmente tiene una visibilidad limitada de la verdadera escala del sector de la salud. Si bien Skills for Care utilizó el aprendizaje automático para estimar el tamaño de la industria, todavía carecían del tiempo y la experiencia para explotar verdaderamente todo el potencial de los datos que tenían. Después de unirme al proyecto, realicé rápidamente algunos análisis exploratorios iniciales, antes de crear un modelo de datos predictivo que incorporaba características como la ubicación geográfica y otras características del hogar de ancianos. El modelo mejorado ahora puede predecir con mucha más precisión el número de cuidadores en un entorno específico, proporcionando información valiosa al Gobierno sobre el tamaño del sector de atención social para adultos, que incluye decenas de miles de residencias de ancianos. Algunas residencias de ancianos ya informan sus cifras de forma fiable, pero nuestro modelo ha mejorado significativamente la experiencia en la calidad de los datos sanitarios. Ahora saben qué preguntas hacer y cuentan con procesos automatizados para facilitar la carga de datos. Benefits Skills for Care inicialmente utilizó solo dos funciones para crear un modelo estadístico (de regresión) simple con sus datos, lo que le llevó al equipo de análisis alrededor de seis meses prepararlo y ejecutarlo, logrando una precisión (valor R cuadrado) de aproximadamente el 56 %. Cuando completamos nuestro proyecto en marzo, habíamos revolucionado su proceso de procesamiento de datos. Lo que antes llevaba seis meses ahora es un trabajo automatizado de 20 minutos que se ejecuta cada dos semanas. Ampliamos su modelo de dos funciones a 58, aumentando la precisión a un valor R cuadrado del 86-90 %. Para mí, la parte más gratificante es la mejora en la calidad de los datos y los informes. Estos datos ahora se incluyen en los informes proporcionados a la Oficina del Gabinete y, si bien no podemos controlar las decisiones gubernamentales, podemos garantizar que tengan acceso a datos precisos para una toma de decisiones informada. P: ¿Puede contarme más sobre la intersección de la ciencia de datos y la inteligencia artificial? Para ser claros, la inteligencia artificial es una rama de la ciencia de datos. En los últimos años, la atención se ha centrado en la IA generativa o generativa y los modelos de lenguaje grande (LLM). Pero la realidad es que estas herramientas no son tan nuevas como parecen. Los científicos de datos han estado utilizando técnicas similares durante años. La promoción está impulsada por intereses de marketing y capital riesgo. Las empresas están utilizando la IA como palabra de moda para atraer inversores e impulsar los precios de sus acciones. En mi experiencia, existe un límite en el impacto que puede tener un chatbot sofisticado. Sin intervención humana, los modelos de IA pueden inducir a error y causar importantes problemas legales y éticos. Las alucinaciones, en las que la inteligencia artificial genera información falsa, ya están causando estragos. Otra área en la que las organizaciones tropiezan regularmente es la del cumplimiento. Si utiliza modelos de inteligencia artificial como ChatGPT y Claude Three antrópico, sus datos se cargarán en servidores en Estados Unidos. Esto genera preocupaciones sobre la privacidad y viola regulaciones como el GDPR. En cambio, el verdadero potencial de la inteligencia artificial y el arte de la ciencia de datos radica en aumentar los procesos humanos, ofrecer un mayor nivel de conocimiento a los líderes y tomadores de decisiones, y proporcionar análisis en tiempo real que les permitan tomar mejores decisiones. IA responsable Comprender cómo interactúa su modelo de IA con sus datos para producir resultados es fundamental. La explicabilidad de su IA debe ser una máxima prioridad. En última instancia, sea cual sea el modelo matemático con el que esté trabajando, ya sea un modelo de regresión, clasificación o agrupamiento, son en última instancia las matemáticas detrás de él las que impulsan los resultados. Por ejemplo, si su modelo clasifica a una persona como «A» o predice un monto de gasto de «B», es esencial poder explicar por qué se tomaron estas decisiones. Algunos pueden pedir claridad sobre estos puntos, y poder desglosar el proceso del modelo es un aspecto fundamental de la ciencia de datos. Esta transparencia es lo que entendemos por IA responsable y explicabilidad. P: ¿Qué pueden hacer las organizaciones para protegerse cuando utilizan GenAI? Hace un par de años, mi respuesta habría sido evitar su uso por completo: hay demasiados problemas de seguridad y responsabilidad. También existe toda una subdisciplina de ciencia de datos, el procesamiento del lenguaje natural (NLP), que proporcionaría el 90% del valor sin riesgo ni costo (pero estos servicios son costosos de integrar). Dicho esto, GenAI ha seguido desarrollándose y, hoy en día, las organizaciones pueden reducir significativamente el riesgo. Estas son algunas de las opciones: Implemente instancias locales de modelos GenAI; ahora puede ejecutar LLM en su dispositivo local. Entonces todos sus datos permanecen en su computadora. Utilice servicios en la nube como Azure OpenAI. Estos le brindan un mejor control, le permiten comprender cómo se utilizan sus datos y le brindan la posibilidad de crear instancias personalizadas. Por ejemplo, Zurich Insurance Group ahora utiliza una versión personalizada de ChatGPT para agilizar los extensos documentos de reclamaciones de seguros. Explore plantillas más pequeñas, locales o de código abierto, que también brindan transparencia y opciones de personalización. Estos modelos, aunque son mucho menos costosos, aún ofrecen un nivel similar de rendimiento en comparación con las costosas alternativas de código cerrado. El mundo de la ciencia de datos y la inteligencia artificial ha sido un viaje apasionante para mí. Ya sea mejorando la calidad de los datos para una mejor toma de decisiones o garantizando que los modelos de IA sean transparentes, los principios siguen siendo los mismos. Se trata de descomponer datos, comprender las relaciones matemáticas detrás de ellos y convertir la información sin procesar en información que realmente marque la diferencia. Y al final, nunca olvides que todo es solo matemática. Ya sea que esté trabajando en un modelo de regresión simple o implementando IA generativa avanzada, comprender las matemáticas subyacentes siempre le indicará la solución correcta. Si desea obtener más información sobre los trabajos en Made Tech, explore nuestras carreras o eche un vistazo a algunos de los servicios de datos e inteligencia artificial que brindamos a los clientes. Acerca del autor James Poulten tiene un doctorado en física cuántica experimental y trabajó durante cuatro años como consultor para organizaciones del sector público. James, actualmente científico principal de datos en Made Tech, ha trabajado con varias organizaciones importantes del sector público, incluidas Border Force, Cabinet Office y Number 10 Data Science. También ha prestado su experiencia al Departamento de Nivelación, Vivienda y Comunidades, Habilidades de Atención y a la Oficina Meteorológica.

About Francisco

Check Also

¿El secreto para mejores productos?  Deje que los ingenieros impulsen la visión

¿El secreto para mejores productos? Deje que los ingenieros impulsen la visión

A mitad de mis cinco años y medio en SpaceX, la gerencia decidió cambiar la …

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *