Wednesday, April 06, 2016

Caso práctico Amazon Redshift en Amazon.com

Uno de los casos prácticos que se explicaron en la conferencia de AWS Amazon Big Data, referente a la aplicación del Data Warehouse Amazon Redshift (ver post AWS Amazon Redshift en Emeshing.com)) fue el de la propia empresa madre Amazon.com


Resulta que en Amazon.com querían seguir estudiando el comportamiento de sus usuarios, tratando de averiguar los motivos por los cuales un usuario deja un producto en la cesta de la compra pero luego no lo llega a comprar. Pero a medida que el número de usuario y de productos iba aumentando, este proceso de análisis era más complicado.

El Weblog análisis de Amazon.com tiene estos órdenes de magnitud:
  • Más de 1B workload
  • 2TB/día
  • Creciendo a un 67% YoY (año tras año)
  • La tabla más grande es de 400 T
Hasta el momento las soluciones que tenían pasaban por:
  • Legacy Data Warehouse: en una 1 hora la query analizaba los datos de 1 semana
  • Hadoop: en 1 hora la query analizaba los datos de 1 mes.

Pues bien, una vez desarrollaron AWS Amazon Redshift, y lo implantaron en el análisis del comportamiento de los usuarios de Amazon.com, pudieron llegar a estas cifras:
  • En 14 minutos procesaban 1PB de datos que eran unos 15 meses de datos
  • Cargar 5B (billones) de líneas en 10 minutos
  • Reducían los 3 días en Hive a 2 horas juntando 21B de líneas con 10B
  • Reducían de 90 horas en Orable a 8 horas en las cargas de pipeline
Todo ello lo conseguían con una infraestrucura de Amazon Redshift de:
  • 64 clusters
  • 800 nodos totales
  • 13PB de almacenamiento aprovisionado
  • 2 DBAs

No comments: