Mientras que el resto de aplicaciones Big Data Analytics como business intelligence, descubrimiento interactivo, o analítica predictiva puede ser explotado directamente por un perfil más analítico/negocio, el streaming analyitics necesita de la participación de equipos multidisciplinares con ingenieros de datos y arquitectos Big Data
Índice de contenidos
El problema del real time analytics
¿Alguna vez te has enfrentado a un proyecto de real time analytics?
Si tu background es más de negocio, como en mi caso, seguramente habrás percibido que tiene un “regustillo” diferente al resto de proyectos de Big Data Analytics
Es como el hermano pequeño y rebelde de la familia
En el sentido de que tiene un acercamiento más áspero que los tradicionales proyectos batch analíticos
Real time analytics, o streaming analytics, tiene en su estado actual un planteamiento mucho más técnico
Necesita configuraciones más complejas de arquitectura, integraciones avanzadas y el uso es mediante programación más compleja muy basada en el mundo Java
Ello provoca que, aunque existen casos de uso muy interesantes para real time analytics, normalmente las empresas empiezan por los proyectos “batch” y sólo abordan el real time cuando ya tienen madurez analítica
Pero, ¿qué pasaría si se eliminara esa barrera de entrada mediante alguna plataforma que permitiera hacer sencillos los proyectos de real time analytics?
Eso es precisamente lo que quiere hacer HortonWorks con el lanzamiento de la nueva versión de HortonWorks Dataflow (HDF)
Suena interesante, así que vamos a revisar lo que nos ofrece HDF
Real time analytics: Análisis del concepto HDF
Si has leído mi Manifiesto Analytics habrás visto que soy un convencido del uso de plataformas para llevar Big Data al negocio
Big Data debe empezar a dejar de centrarse en la tecnología y focalizarse en lo que podemos hacer con ella
Y la forma más directa es mediante plataformas que se ocupen de toda la complejidad de instalación y configuración y nos permitan poner foco en analizar los datos
El concepto que quiere proponer HortonWorks con HDP es que podamos desarrollar y explotar un sistema de streaming analytics sin usar una línea de código
Todo mediante una interfaz visual con componentes de arrastrar y soltar sobre un tapiz central
Con ello configuraríamos la arquitectura y el flujo del sistema y posteriormente podremos parametrizar también visualmente cada uno de los componentes
Es un estilo muy similar a un IBM Modeler, SAS Miner o RapidMiner pero centrado en analítica de tiempo real
Por tanto el concepto me parece realmente atractivo y creo que este modelo será el futuro en la explotación de este tipo de proyectos
Reconozco que aún no lo he probado, así que no sé si realmente cumple lo que promete.
Pero sí puedo decir que hace unos meses sí tuve la ocasión de utilizar NiFi, que como veremos después es uno de sus componentes base, y el manejo era todavía un poco áspero y “tricky”
No obstante, más allá del estado actual del producto que habrá que validar, sí creo que el concepto es el futuro del real time analytics, en esta u otras plataformas que seguirán este estilo
Componentes de HDF
HDF tiene tres partes con diferentes componentes en cada una:
- Flow Management: es la parte que accede a los streams de datos en tiempo real y los enruta hacia las diferentes operaciones analíticas que realiza el sistema. También tiene cierta capacidad analítica para realizar por ejemplo filtros y agregaciones y de lógica para tomar sencillas decisiones. Tecnológicamente es Apache Nifi + MniNifi
- Stream processing: es el motor analítico que realiza las operaciones más complejas. Está basado en Kafka + Storm, que es una de las arquitecturas clásicas de real time, por lo que puede hacer desde simples analíticas hasta la aplicación de modelos predictivos
- Enterprise Services: es la capa de gestión que le han metido y que permite controlar todos los aspectos de configuración y seguridad, básicamente con Ambari + Ranger
Fuente: Hortonworks
Uso de la plataforma para real time analytics
Como decíamos antes la intención es que sea completamente visual, tanto en el diseño como en la explotación
- Para el diseño cada operación tiene un elemento que podremos arrastrar para crear los flujos y configurar sus parámetros también visualmente
- Para la explotación podemos crear atractivos cuadros de mando en los que podemos ver los insights de las operaciones analíticas realizadas o el seguimiento en tiempo real de los flujos de datos y KPIs que definamos
La mejor manera de entenderlo es verlo:

Interfaz de diseño. Fuente: Hortonworks

Visualización y explotación. Fuente: Hortonworks
Conclusión
Tengo que decir que la propuesta de Hortonworks con su HDF me ha gustado
Habrá que esperar a probarlo para ver si realmente genera el valor que promete
No es la primera vez que este tipo de plataformas, pese a basarse en un concepto muy potente, en la ejecución no acaban de rodar bien, y al final tienes que invertir más tiempo en aprender cómo funciona todo (aunque sea visual) que si lo hicieras con código
Pero más allá del caso concreto, creo que es el camino correcto a seguir
Y si realmente consigue hacer accesible el real time analytics al usuario de negocio los casos de uso son prácticamente infinitos
Imagina que tu equipo de marketing o analítico puede configurar un sistema de personalización comercial en tiempo real cuando el usuario esté en la web de manera visual, sencilla y sin depender de sistemas
Incluyendo por supuesto todas las funcionalidades avanzadas que nos permite Big Data, como monitorizar en tiempo real, aplicar reglas de negocio para eventos, calcular scorings predictivos en tiempo real etc etc
Y todo pudiendo mantenerlo y evolucionarlo desde las áreas de negocio con rapidez que exige el mismo
O crear tu propio sistema de análisis de redes sociales
O evaluar el riesgo de fraude de una operación integrado con el riesgo crediticio y con el potencial comercial. Y cambiarlo la próxima semana si así lo necesitas
Obviamente todo esto ya se puede hacer ahora, pero la gran promesa es que no necesites proyectos de meses y equipos multidisciplinares para ello, si no que la plataforma abstraiga esa complejidad y te permita centrarte en el negocio con la agilidad que se necesita
Guau, sin duda la promesa es fuerte, iremos viendo si se cumple
¿QUIERES APRENDER MÁS SOBRE REAL TIME ANALYTICS? MIRA MI NUEVO LIBRO