Índice de contenidos
- 1 Lo primero es identificar el problema
- 2 ¿Entonces cual es el verdadero problema?
- 3 Para mí el 10% en Data Science que te va a generar el 90% de los resultados está en esquema que te he comentado.
- 4 En resumen, sigue estos paso si quieres que tu aprendizaje efectivo en Data Science pase de 6 años a 6 meses:
“Llevo varios años trabajando con datos, en posiciones de business intelligence, pero quiero evolucionar hacia cosas más avanzadas de data science. El problema es que no sé ni por dónde empezar!”
Esa es la duda que una chica me preguntó hace unos días.
Realmente el email era más largo, pero básicamente ese era el mensaje.
Entonces me puse a pensar cómo podía responder a una pregunta tan amplia de una forma breve y concreta.
Saqué una hoja y me puse a dibujar cajitas (mi manera de pensar siempre es en cajitas).
Al final quedé tan contento de mi propia obra 🙂 que pensé que ese esquema podría ayudar a más gente y decidí transformarlo en post.
Así que que aquí va el esquema y su explicación por si a ti también te ayuda.
Lo primero es identificar el problema
En mi opinión lo que está debajo de esta duda que tiene tanta gente es el hecho de que analytics es un mundo muy amplio.
Y la gente tiene la FALSA creencia de que tiene que aprenderlo todo!!
Y lo que es peor, todo a la vez.
Supongo que conoces al amigo Pareto, al fin y al cabo somos analíticos, no?
Pareto definió la famosa ley de que el 20% de los elementos generan el 80% de los resultados.
Es posiblemente una de las verdades más universales y se cumple en todos los ámbitos.
Piensa en algo en lo que tú seas experto (tocar la guitarra, hablar japonés, lo que sea). ¿A que con el 20% del total de cosas consigues el 80% de los resultados?
¿Entonces cual es el verdadero problema?
Pues que precisamente necesitas ser un experto para identificar cual es el 20% bueno, y si estás intentando aprender algo es porque no eres un experto lógicamente.
Por ejemplo, a mi me gustan las artes marciales, y las llevo practicando desde pequeño.
Ahora, a mis 40 años yo sé que el 90% de lo que he practicado no vale para nada.
Y que si hubiera centrado todos esos años en el 10% que sí vale mi nivel sería muy superior al que es.
El problema es, cómo sin saber de algo identificas ese 10% y pones todos tus esfuerzos en ese 10%.
Para mí el 10% en Data Science que te va a generar el 90% de los resultados está en esquema que te he comentado.
Primero veámoslo y luego te lo explico.
Estos son los 3 pasos prácticos que yo te recomiendo seguir para empezar:
1. Elige una herramienta de análisis
Si quieres hacer Data Science de forma profesional antes o después tendrás que aprendera alguna herramienta de “código”.
Existen muchas en el mercado, tanto comerciales como open source. Para empezar te recomendaría empezar por una open source, las dos principales son R o Python.
Consejo: elige una y aprende primero con ella. El motivo es que una vez que sepas usar la herramienta vas a empezar a aplicarla y a poner en práctica los diferentes tipos de análisis. Y si en el futuro tienes que aprender otra te va a resultar mucho más fácil porque ya sabes lo que vas buscando.
Por ejemplo, aprendes R, y aprendes cómo se hace una regresión logística con R. Si dentro de un año tienes que usar Python tú ya sabes que una cosa que vas a querer hacer es “sacar los coeficientes de mi regresión” por lo que es mucho más fácil hacer una búsqueda sobre “cómo sacar los coeficientes de una regresión logística en Pyhton” que ya es algo concreto.
2. Elige un tipo de análisis
Hay muchas formas de clasificar las técnicas analíticas. Para mi la primera sería por el tipo de información que quieres analizar.
Diría que hay 3 grandes tipos de información que puedes tener en un entorno empresarial:
– Estructurada: la típica estructura de filas y columnas
– Texto: semi estructurado o totalmente libre
– Imágenes: bien fotos o videos
El 90% de los proyectos en empresas los vas a hacer sobre datos estructurados, así que mi consejo en este punto es centrarte ahí, y dejar texto e imágenes para más adelante.
Además, también podemos clasificar las técnicas entre supervisadas o no supervisadas.
Simplificando mucho, supervisadas es cuando quieres predecir algo, por ejemplo si un cliente va a comprar o no un producto.También se les llama modelos predictivos.
Mientras que en las no supervisadas no quieres predecir nada, si no más bien agrupar o separar cosas. El ejemplo más típico es una segmentación de clientes.
Pues bien, de nuevo me mojo, empieza por supervisadas.
¿Por qué?
Pues básicamente porque son las más usadas en los casos de uso como los que te voy a hablar a continuación en los proyectos que generan más dinerito para las empresas.
Y al final, de una forma u otra, más dinero para las empresas significa más dinero para tí.
3. Elige un caso de uso
Casos de uso hay muchos, te voy a poner solamente 3 ámbitos de los más frecuentes:
– Marketing: Personalización comercial, abandono de clientes, …
– Riesgos: riesgo de impago de un cliente, recuperación de mora, ..
– Operaciones: identificación de fraude, mantenimiento preventivo, …
Elige uno e intenta especializarte en él.
El motivo es que el momento en el que uno pasa de ser simplemente un técnico más (en este caso en data science) a un profesional altamente demandado es cuando sabe cómo aplicar las técnicas analíticas a un problema de negocio concreto, sabe hablar el lenguaje de ese negocio y sobre todo sabe cómo generar resultados.
Y creéme las empresas valoran mucho la diferencia entre uno y otro, y tu cuenta corriente también lo va a notar.
En resumen, sigue estos paso si quieres que tu aprendizaje efectivo en Data Science pase de 6 años a 6 meses:
1- Elige una herramiénta y domínala
2- Elige un tipo de análisis y hazte un experto (te recomiendo modelos predictivos)
3- Elige un caso de uso y profundiza en él hasta saber más que tus futuros clientes
4- Dieta estricta: trabaja sobre esos 3 puntos y olvídate de lo demás durante 6 meses
Te aseguro que notarás un cambio bestial en tus compentecias como data scientist.
Si esta guía te ha ayudado a poner orden y a facilitar tu aprendizaje me encantaría saberlo! escríbeme un email o por linkedin, etc
Saludos!!
Isaac
www.datascience4business.com
Buenas tardes, me ha parecido muy interesante el enfoque tan sencillo que haces. Cierto que buscando en la red es un poco complejo todo.
Te hago una pregunta, actualmente estoy realizando el curso Microsoft Professional Program Data Analysis y me está gustando. Lo siguiente sería el curso de Microsoft Data Science, que además comparten muchos cursos en común dentro de cada programa, ya que veo que el Big Data es más complejo. Creo que elegiría R, ya que por lo que he leído es más fácil que Python. Yo soy economista y curro en banca, es un reciclaje para poder cambiar de trabajo. Conoces el/los programa/s? te parece/n bueno/s? no es muy caro y todo el mundo dice que tener el aval de Microsoft en este mundillo es positivo. Tendría que buscar luego como tu propones que caso dentro de análisis información estructurada, me gusta más y ver donde puedo sacar información, y como practicar sobre él.
Gracias de antemano por la información y si tienes cualquier consejo, no dudes en decírmelo, siempre es bienvenido.
Hola Ricardo,
Sobre R o Python mi experiencia es que es relativo. Normalmente a la gente que viene más del mundo de la analítica, como matemáticos o estadísticos les suele resultar más sencillo R. Mientras que a la gente que viene del desarrollo como informáticos o ingenieros les suele resultar más sencillo Python. Siendo economista creo que quizá R te encajaría mejor, pero no es ciencia exacta.
La verdad es que no he hecho los cursos de Microsoft. Obviamente tiene mucha marca. Mi experiencia es que cuando tuve que hacer un proyecto en R con Visual Studio por requerimiento del cliente no me gustó mucho, prefiero 1000 veces Rstudio, pero de nuevo puede ser por lo que estés acostumbrado. Así que te diría que revises el contenido para ver que se trabaje bastante con el R opensource que al final es lo que más se usa y que no esté demasiado cargado de Visual Studio, Azure Machine Learning y otras soluciones propietarias de Microsoft (salvo que quieras explícitamente especializarte en Microsoft claro)
Lo que sí te recomiendo es el Desafío Machine Learning, que es gratis y en muy poco tiempo vas a tener un buen contacto con R, Rstudio, machine learning y un caso de uso. Puedes apuntarte aquí: https://www.datascience4business.com/mlc-optin