Proyecto de código abierto de la semana de SD Times: Data Profiler

Perfilador de datos es una biblioteca Python de código abierto que se originó en Capital One para analizar conjuntos de datos y detectar si la información contenida en ellos es información confidencial, como números de cuentas bancarias, información de tarjetas de crédito o números de seguridad social.

Según la compañía, cuando los flujos de datos crecen lo suficiente, puede resultar bastante difícil monitorear los datos que llegan, lo que abre la posibilidad de que pasen datos confidenciales. El objetivo del proyecto es poder detectar cuándo ese tipo de información está presente en un conjunto de datos.

La empresa proporcionó un ejemplo de cómo se podría utilizar Data Profiler imaginando a un joyero en el negocio de compra y venta de diamantes. Tienen una gran base de datos con todos los detalles de sus clientes y transacciones, en un formato estructurado de filas y columnas. Data Profiler se puede utilizar en el conjunto de datos para obtener estadísticas de cada columna.

“Aprenderás la distribución exacta del precio de los diamantes, que el corte es una columna categórica de varios valores únicos, que los quilates están organizados en orden ascendente y, lo más importante, aprenderás la clasificación de cada columna para datos confidenciales. . Nuestro modelo de aprendizaje automático clasificará automáticamente las columnas como información de tarjeta de crédito, correo electrónico, etc. Esto le ayudará a descubrir si existen datos confidenciales en columnas en las que no deberían existir”, Grant Eden, ingeniero principal de software en Capital One. , explicado en un entrada en el blog.

Data Profiler viene con un conjunto predeterminado de 19 etiquetas que se utilizan para reconocer categorías de datos, como DIRECCIÓN, TARJETA_CRÉDITO, DIRECCIÓN_EMAIL, NÚMERO_TELÉFONO, SSN, etc.

“Nuestra biblioteca tiene una lista de etiquetas de las cuales un subconjunto se considera información no pública de identificación personal… el etiquetador de datos puede usar ese modelo de aprendizaje profundo para identificar dónde existe en un conjunto de datos… y indica dónde existe. ese usuario que está haciendo el análisis”, dijo Jeremy Goodsitt, ingeniero líder de aprendizaje automático en Capital One. SD Times anteriormente.

El modelo de etiquetadora puede también ser personalizado para satisfacer casos de uso específicos. En el ejemplo del joyero, podrían personalizar el etiquetador de datos para ayudarles a identificar tipos de gemas específicos.

Al momento de escribir este artículo, el proyecto tiene 1.600 estrellas en GitHub, se ha bifurcado 146 veces y 48 personas contribuyen a él.


Source link

About David Lopez

Informático y experto en redes. Redactor en varios blogs tecnológicos desde hace 4 años y ahora en Steamachine.net

Check Also

Costo de desarrollo de aplicaciones Fintech: una guía completa

Las tecnologías emergentes como la IA generativa, las API o la cadena de bloques en …

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *