Big Data es el término de moda en los últimos años, aunque su uso está un poco sobre explotado (ver mi post “Por qué lo llaman Big Data cuando quieren decir Analytics”).

Sin embargo, a pesar de toda esa popularidad, o quizá precisamente debido a ella, se hace difícil para alguien que no provenga de este ámbito entender qué es exactamente.

Generalmente la gente intuye que es algo que puede generar muchos beneficios sobre el negocio pero no acaba de entender en qué se traduce ni qué implica operativamente.

Y no es su culpa, ya que en la mayoría de los casos el interesado se encuentra con una amalgama de tecnologías, jerga técnica, proveedores con diferentes mensajes y casos de uso que se focalizan mucho en los resultados pero que pocas veces explican el cómo.

En este post y en la serie que le seguirá voy a intentar explicar cómo entender Big Data y cómo poder aplicarlo para mejorar los resultados de negocio sin necesidad de ser un técnico o tener gran experiencia en este ámbito.

Mi objetivo es convertir esta serie de posts en la mejor manera de comprender Big Data, explicándolo para que se entienda, de forma práctica y aplicada a negocio.

Así que empecemos,

¿Qué es Big Data?

Big Data es una conjunto de tecnologías, creadas por los grandes de internet (Google, Yahoo, Facebook, LinkedIn,…), capaz de procesar grandes volúmenes de información de forma eficiente, segura y escalable.

Seguramente habrás escuchado que además también se utiliza para procesar información de distinta tipología e información en tiempo real.

Lo que da lugar a las famosas tres Vs de Volumen, Variedad y Velocidad.

Aunque es cierto que la tecnología ha evolucionado así, en mi opinión la característica inicial, y la más definitoria de Big Data (que no necesariamente la más importante) es la capacidad de procesar grandes volúmenes.

Entonces, la gran pregunta es

¿Qué se entiende por grandes volúmenes?

No hay un criterio definido pero dado que, como veremos, la clave de Big Data está en la paralización de máquinas la respuesta práctica sería:

Utilizaremos esta tecnología cuando el volumen de datos no pueda ser procesado en una sola máquina o el coste de la misma no sería operativo.

A partir de aquí se empieza a complicar la cosa, debido a que se comienza a mezclar la tecnología con los conceptos y es dónde la gente empieza a perderse.

Se empiezan a escuchar palabras como Hadoop, Spark, Yarn, Hive, Pig, Hbase, NoSql, y muchas veces da la sensación de que incluso existe intencionadamente la idea de no explicar demasiado.

No caigamos en ese error y acompáñame primero en un recorrido por los principales conceptos que hay que entender.

El gran truco de Big Data es …

Decíamos que el objetivo original de Big Data era procesar grandes volúmenes de información.

Pues bien, más allá de toda la jerga y confusión, el gran truco que utiliza Big Data es realmente sencillo y se podría resumir en estos dos puntos:

  • Dividir la gran tarea en tareas más pequeñas
  • Asignar de forma paralela y escalable las tareas pequeñas a diferentes máquinas encargadas de procesarlas

Imaginemos que eres el dueño de un hotel de 25 habitaciones. En limpiar cada habitación se tarda 18 minutos. Por tanto una persona podría limpiar las 25 habitaciones en su jornada de trabajo.

Pero el negocio crece y compras otro edificio que añade otras 75 habitaciones. ¿Qué haces? Pues posiblemente divides el hotel en 4 secciones de 25 habitaciones cada una y contratas 3 personas de limpieza más.

Pues ese es ni más ni menos el gran concepto de qué es Big Data. Dividir y paralelizar.

Ahora bien, realmente vas a tener una ocupación del 100% en temporada alta, pero pongamos que decae al 50% durante el resto del año.

¿Vas a tener en plantilla las 4 personas de limpieza durante todo el año?. El negocio no lo soportaría.

Seguramente tendrías 2 trabajadores fijos durante todo el año y contratarías otros dos de apoyo adicional en Semana Santa, Navidad y verano.

Pues ese es el segundo gran concepto de qué es Big Data, ser capaz de adecuar de forma dinámica y escalable la infraestructura necesaria en cada momento. Flexibilizando costes y teniendo virtualmente la capacidad de poder analizar cualquier caso de negocio por grande que sea.

Otras características de Big Data

Además aporta otra serie de características técnicas interesantes como:

  • Gestiona automáticamente todo el proceso de dividir en total de los datos en partes pequeñas y distribuirlos entre los diferentes procesadores
  • Optimiza el almacenamiento de los datos lo que permite guardar gran volumen de información de forma muy eficiente
  • Tiene un sistema automático de réplicas (genera varias copias de las partes de los datos) y los guarda en diferentes máquinas para que no haya pérdidas

¿Y todo esto para qué sirve?

Simplemente con las características que hemos visto ya existen importantes beneficios de negocio como:

  • Podemos dejar almacenados datos de forma eficiente (coste) aunque no los vayamos a usar inmediatamente, pero sí en el futuro à Data Lakes
  • Podemos adecuar el procesamiento (y el coste) a las necesidades de cada momento, levantando más máquinas en “temporada alta” y apagándolas cuando no se necesiten (Cloud)
  • La capacidad de análisis se vuelve potencialmente infinita

Más adelante en la serie habrá un post sobre los casos de negocio en el que ampliaré la lista anterior

Especialmente con los casos de incremento de ingresos a través de Big Data Analytics que es el foco principal de este blog.

De momento lo dejamos aquí, espero que a nivel conceptual ya tengas más claro qué es Big Data.

En próximos post sobre Big Data

En el siguiente post nos meteremos a entender el stack tecnológico, los famosos Hadoop, Spark, Cassandra, Hbase, Sqoop, Flume, Yarn, etc

Por favor comenta! Dime qué te ha parecido el post, si hay algo que no se entienda bien o si quieres que profundice en algún aspecto concreto

Enjoy the knowledge!

¿QUIERES APRENDER MUCHO MAS SOBRE ESTE TEMA? MIRA MI NUEVO LIBRO