¿Quieres saber para qué utilizan en Airbnb data science, cómo lo tienen estructurado y la arquitectura que utilizan?

 

Navegando por la red he encontrado este paper que me ha parecido muy interesante, ya que desde Airbnb nos desvelan a alto nivel cómo usan Data Science para crecer su negocio.

Son 18 páginas en inglés así que, aprovechando que he generado unas notas para mi, las voy a compartir también contigo por si te resultan de utilidad.

  • Estructuran la función de data science en tres grandes áreas: insights de producto, experimentación y modelización predictiva
Data Science

Elaboración propia

  • En Insights de producto plantean la función de “Discovery” clásica, analizando datos para entender por ejemplo qué diferentes perfiles de usuarios existen, por qué algunos apartamentos no se alquilan o qué ciudades comienzan a estar saturadas
  • En experimentación es donde prueban las decisiones de negocio. La gente de producto formula hipótesis y lo testan mediante test A/B y multivariantes
  • En modelización predictiva usan los datos históricos por ejemplo para predecir el precio óptimo al que recomiendan alquilar cada apartamento a su propietario, o el revenue esperado para Airbnb de cada uno de ellos
  • La mayor parte de sus data scientist usan R
  • Aunque lo usan prioritariamente para prototipar y después los ingenieros lo ponen en producción por ejemplo con Python
  • Stack técnico: capturan la información de lo que pasa en sus canales, y guardan los metadatos y los datos transaccionales en MySql, después lo suben a Amazon, donde lo almacenan en HDFS usando S3. Por las noches lanzan lo jobs pesados para agregar la información y hacer todos los ETLs que transforman la información en bruto a un formato de DataWarehouse en estrella. A partir de ahí lo explotan con Tableau para la visualización, consultas en SQL y análisis avanzado en R
Arquitectura Big Data

Elaboración propia

 

Estas son las notas que me han parecido más interesantes a nivel estratégico sobre para qué utilizan data science, cómo lo tienen estructurado y la arquitectura que utilizan.

A partir de aquí el paper ya entra en el detalle concreto de qué técnicas y qué paquetes de R usan en cada una de las 3 funciones principales. Que también es una lectura muy recomendable.

En conclusión, te recomiendo que lo leas como una explicación de un caso de uso práctico, bien explicado, al grano y sin perderse en conceptos vacíos.

Ajunto de nuevo el link: https://peerj.com/preprints/3182.pdf?utm_campaign=Data%2BElixir&utm_medium=email&utm_source=Data_Elixir_151