Mientras que el resto de aplicaciones Big Data Analytics como business intelligence, descubrimiento interactivo, o analítica predictiva puede ser explotado directamente por un perfil más analítico/negocio, el streaming analyitics necesita de la participación de equipos multidisciplinares con ingenieros de datos y arquitectos Big Data

El problema del real time analytics

¿Alguna vez te has enfrentado a un proyecto de real time analytics?

Si tu background es más de negocio, como en mi caso, seguramente habrás percibido que tiene un “regustillo” diferente al resto de proyectos de Big Data Analytics

Es como el hermano pequeño y rebelde de la familia

En el sentido de que tiene un acercamiento más áspero que los tradicionales proyectos batch analíticos

Real time analytics, o streaming analytics, tiene en su estado actual un planteamiento mucho más técnico

Necesita configuraciones más complejas de arquitectura, integraciones avanzadas y el uso es mediante programación más compleja muy basada en el mundo Java

Ello provoca que, aunque existen casos de uso muy interesantes para real time analytics, normalmente las empresas empiezan por los proyectos “batch” y sólo abordan el real time cuando ya tienen madurez analítica

Pero, ¿qué pasaría si se eliminara esa barrera de entrada mediante alguna plataforma que permitiera hacer sencillos los proyectos de real time analytics?

Eso es precisamente lo que quiere hacer HortonWorks con el lanzamiento de la nueva versión de HortonWorks Dataflow (HDF)

Suena interesante, así que vamos a revisar lo que nos ofrece HDF

Real time analytics: Análisis del concepto HDF

Si has leído mi Manifiesto Analytics habrás visto que soy un convencido del uso de plataformas para llevar Big Data al negocio

Big Data debe empezar a dejar de centrarse en la tecnología y focalizarse en lo que podemos hacer con ella

Y la forma más directa es mediante plataformas que se ocupen de toda la complejidad de instalación y configuración y nos permitan poner foco en analizar los datos

El concepto que quiere proponer HortonWorks con HDP es que podamos desarrollar y explotar un sistema de streaming analytics sin usar una línea de código

Todo mediante una interfaz visual con componentes de arrastrar y soltar sobre un tapiz central

Con ello configuraríamos la arquitectura y el flujo del sistema y posteriormente podremos parametrizar también visualmente cada uno de los componentes

Es un estilo muy similar a un IBM Modeler, SAS Miner o RapidMiner pero centrado en analítica de tiempo real

Por tanto el concepto me parece realmente atractivo y creo que este modelo será el futuro en la explotación de este tipo de proyectos

Reconozco que aún no lo he probado, así que no sé si realmente cumple lo que promete.

Pero sí puedo decir que hace unos meses sí tuve la ocasión de utilizar NiFi, que como veremos después es uno de sus componentes base, y el manejo era todavía un poco áspero y “tricky”

No obstante, más allá del estado actual del producto que habrá que validar, sí creo que el concepto es el futuro del real time analytics, en esta u otras plataformas que seguirán este estilo

Componentes de HDF

HDF tiene tres partes con diferentes componentes en cada una:

  • Flow Management: es la parte que accede a los streams de datos en tiempo real y los enruta hacia las diferentes operaciones analíticas que realiza el sistema. También tiene cierta capacidad analítica para realizar por ejemplo filtros y agregaciones y de lógica para tomar sencillas decisiones. Tecnológicamente es Apache Nifi + MniNifi
  • Stream processing: es el motor analítico que realiza las operaciones más complejas. Está basado en Kafka + Storm, que es una de las arquitecturas clásicas de real time, por lo que puede hacer desde simples analíticas hasta la aplicación de modelos predictivos
  • Enterprise Services: es la capa de gestión que le han metido y que permite controlar todos los aspectos de configuración y seguridad, básicamente con Ambari + Ranger

real time analytics

Fuente: Hortonworks

Uso de la plataforma para real time analytics

Como decíamos antes la intención es que sea completamente visual, tanto en el diseño como en la explotación

  • Para el diseño cada operación tiene un elemento que podremos arrastrar para crear los flujos y configurar sus parámetros también visualmente
  • Para la explotación podemos crear atractivos cuadros de mando en los que podemos ver los insights de las operaciones analíticas realizadas o el seguimiento en tiempo real de los flujos de datos y KPIs que definamos

La mejor manera de entenderlo es verlo:

real time analytics

Interfaz de diseño. Fuente: Hortonworks

real time analytics

Visualización y explotación. Fuente: Hortonworks

Conclusión

Tengo que decir que la propuesta de Hortonworks con su HDF me ha gustado

Habrá que esperar a probarlo para ver si realmente genera el valor que promete

No es la primera vez que este tipo de plataformas, pese a basarse en un concepto muy potente, en la ejecución no acaban de rodar bien, y al final tienes que invertir más tiempo en aprender cómo funciona todo (aunque sea visual) que si lo hicieras con código

Pero más allá del caso concreto, creo que es el camino correcto a seguir

Y si realmente consigue hacer accesible el real time analytics al usuario de negocio los casos de uso son prácticamente infinitos

Imagina que tu equipo de marketing o analítico puede configurar un sistema de personalización comercial  en tiempo real cuando el usuario esté en la web de manera visual, sencilla y sin depender de sistemas

Incluyendo por supuesto todas las funcionalidades avanzadas que nos permite Big Data, como monitorizar en tiempo real, aplicar reglas de negocio para eventos, calcular scorings predictivos en tiempo real etc etc

Y todo pudiendo mantenerlo y evolucionarlo desde las áreas de negocio con rapidez que exige el mismo

O crear tu propio sistema de análisis de redes sociales

O evaluar el riesgo de fraude de una operación integrado con el riesgo crediticio y con el potencial comercial. Y cambiarlo la próxima semana si así lo necesitas

Obviamente todo esto ya se puede hacer ahora, pero la gran promesa es que no necesites proyectos de meses y equipos multidisciplinares para ello, si no que la plataforma abstraiga esa complejidad y te permita centrarte en el negocio con la agilidad que se necesita

Guau, sin duda la promesa es fuerte, iremos viendo si se cumple

¿QUIERES APRENDER MÁS SOBRE REAL TIME ANALYTICS? MIRA MI NUEVO LIBRO