La transformación de datos es la tercera fase en la metodología para proyectos de Data Science de DS4B.

Si no conoces la metodología puedes leer este post: cómo hacer un proyecto de data science

La transformación de datos es una fase PRIMORDIAL, tanto que en ella pasarás entre el 60%-70% del tiempo total del proyecto.

En este video te explico en qué consiste, cómo hacerla y te doy ejemplos de aplicación en proyectos reales.

Si prefieres leer que ver el video, más abajo te describo el contenido del video un poco más resumido.

Y si quieres meterte a fondo y adquirir las competencias para hacer transformación de datos en proyectos reales te recomiendo que eches un ojo al programa de Machine Learning Predictivo de DS4B

Con la tranformación de datos perseguimos 2 grandes objetivos:

1) Estructurar los datos de forma que los algoritmos analíticos sean capaces de extraer la máxima información de ellos

2) Crear variables adaptadas al negocio concreto y que aporten tanto gran valor por si mismas como para su inclusión en los modelos que desarrollaremos posteriormente

Vamos a verlas por separado

1) Estructurar los datos de forma que los algoritmos analíticos sean capaces de extraer la máxima información de ellos

En todo proyecto partiremos de la info recogida en las variables originales.

Pero también podemos coger esas variables originales y “retorcerlas”, combinarlas, transformarlas y crear nuevas variables que van a enriquecer la capacidada predictiva de los modelos.

Es como una escultura. Partes de un bloque de piedra, pero en función de cómo lo trabajes puedes terminar con una estatua ecuestre o de una persona por ejemplo.

Te voy a poner un ejemplo práctico para que lo entiendas mejor:

Imagina que estás haciendo un proyecto para una operadora de telecomunicaciones, y entre todas las variables originales tienes una que es “número de minutos que el cliente ha llamado a móviles” por mes.

Cualquiera podría coger el conjunto de variables iniciales y sobre ellas hacer un modelo. No hace falta gran cualificación para ello.

Pero los resultados serían bastante pobres.

Imagina sin embargo si coges esa variable y comienzas a crear sintéticas para retorcerla desde diferentes ángulos. Por ejemplo:

– Medias de los minutos llamados en ventanas de 3 meses, 6 meses o 12 meses: esto nos daría una predicción mucho más estable al suavizar los picos que pueden existir en meses concretos

– Tendencia de minutos llamados: es decir si el cliente cada vez llama más o menos. Si llama más podría ser síntoma de que necesita una tarifa mayor o si cada vez llama menos de que se puede estar desvinculando

– Indicador de si ha crecido o bajado en más de un 50% sus minutos llamados: de nuevo es un indicador que puede disparar campañas de venta cruzada o de prevención de abandono

– Discretización de los minutos llamados: discretizar consiste en crear tramos en lugar de usar la variable en su formato contínuo. Por ejemplo no nos importa mucho si un cliente ha llamado 17 minutos o 18. Lo que importa es que este cliente está en el tramo de los clientes que llaman poco. Podríamos discretizar esa variable por ejemplo en “poco”,”poco-medio”,”medio”,”medio-mucho” o “mucho”

¿Ves la diferencia de crear todas estas variables frente a usar sólo la original?

Posteriormente en la pre-selección de variables chequearemos cual de ellas funciona mejor en el caso que estamos haciendo y descartaremos el resto (no es bueno meter en el modelo final variables muy correlacionadas)

Es como exprimir una naranja para quedarte con el zumo y tirar toda la piel y pulpa

Te he explicado sólo algunos ejemplos para ejemplificar el concepto, pero lógicamente se pueden hacer muchas más transformaciones

2) Crear variables adaptadas al negocio concreto y que aporten tanto gran valor por si mismas como para su inclusión en los modelos que desarrollaremos posteriormente

En este caso ya no pensamos técnicamente si no en el negocio.

Solamente la creación de este tipo de variables, sin llegar a aplicar todavía modelos avanzados, ya resulta de un gran valor para el cliente y normalmente le produce un efecto WOW que te da muchos puntos e incrementa exponencialmente su confianza en ti y en el proyecto.

Para que te hagas una idea te voy a poner como ejemplo algunas variables que yo construyo en el sector seguros (en el video te cuento muchas más):

Variables del mediador: el mediador tiene mucho poder en este sector, por lo que si le va mejor o peor con la aseguradora puede condicionar hacia donde “guie” al cliente

– Evolución de las comisiones

– Incremento o decremento de anulaciones contra periodos anteriores

– Incremento o decremento de nueva producción contra periodos anteriores

– Etc

Variables del cliente: normalmente esta info existe repartida entre varias variables, pero al construir estas sintéticas se condensa y produce muy buenos resultados predictivos

– Número de ramos diferentes que tiene el cliente

– Indicadores de contratación o anulación de otras pólizas

– Cambio a pago fraccionado

– Etc

Variables de póliza: lo mismo, simplemente condensar la info en nuevas variables va a generar unos insights directos para el cliente que le van a encantar

– Prima de póliza vs nueva producción

– Indicador de rehuse (si el cliente ha presentao un siniestro que no se le cubre)

– Tendencia del volumen total de primas por ramo

– Etc

Como ves estas variables recogen situaciones o eventos que desde el negocio se sabe que son muy importantes.

Crear este tipo de variables(tanto las técnicas como las de negocio) haciendo transformación de datos puede suponer un incremento en la capacidad predictiva del modelo final de entre el 40% y el 80%

Y sobre todo, de cara al cliente diferencia entre el buen data scientist que entiende y se preocupa de su negocio, del que simplemente ejecuta comandos y algoritmos por defecto

Si quires aprender en detalle transformación de variables, junto con el resto de fases a aplicar en el desarrollo de un proyecto real de Data Science, y convertirte en un data scienstist de alto valor y con gran enfoque de negocio, échale un ojo al programa de Machine Learning Predictivo de DS4B