Thursday, December 13, 2018

Big Data Congress 2018: Analytics cultural change in organizations (by Xavier Gonzalez - Caixabank)

A continuación llegó el turno de la conferencia “Analytics cultural change in organizations” por parte de Xavier González, Director de herramientas analíticas de Caixabank.


Según Gartner, el 85% de los proyectos de Big Data fracasan…



Qué es Data Literacy según Gartner, que se podría traducir como Alfabetización de Datos:



Caixabank empezó en 2014 su Big Data con 178 proyectos, 950 usuarios y ROI positivo.



El Data Dictionary de Caixabank cuenta con más de 1 Millón de variables y 15.000 tablas:


Empezaron a surgir preguntas como:

  • ¿ Quién es el propietario de los datos de una variable ? Su definición y su calidad
  • ¿ Quién es el que gobierna CDO ? Duplicidad de datos, procedimientos de calidad e los datos...


Es curioso ver cómo va cambiando el cuadro de herramientas analíticas que publica cada año Firstmark:


Caixabank utiliza Oracle Business Intelligence, SAS, Qlik, DataRobot, Oracle Spatial & Graph, TensorFlow, Jupyter, H2O,. Python, R…


Aunque empezaron con vídeos profesionales para la formación a un precio de 60.000€ por curso, han determinado que debido a las continuas actualizaciones de los productos es mejor realizar vídeos caseros de 5 minutos de duración cada uno explicando cómo utilizar las herramientas. De esta forma los vídeo de formato más casero sólo tienen un coste de 6.000€, un 10% del precio original. Así pueden ir actualizando los vídeos cada vez que hay una nueva versión, sin tener que crecer el presupuesto.



El BigData Committee de CaixaBank se reúne semanalmente con un representante de cada departamento, estableciendo la prioridad de los proyectos en base al ROI y con representantes de C-Level para la toma de decisiones.



Se trabaja con Self Service Data Discovery, consiguiendo involucrar durante 1,5 años a 750 usuarios de negocios y hasta 2.775 insights



Tratan de utilizar lenguajes comunes y establecer colaboración entre los usuarios, reutilizando siempre que pueden el código para necesidades similares




Big Data Congress 2018: How to double sales in e-Commerce thgrough Big Data (by Allan Chung)

A continuación Allan Chung de Retail Rocket realizó su charla titulada “How to double sales in e-Commerce through Big Data" en el marco de las conferencias de Lessons learnt from successful applications

¿Quienes son Retail Rocket?


Más de 1.000 clientes como:



Habló del método HIPPO como Manu Carricano de ESADE:
HIghest Paid Person Opinion, y como evitar que siempre se tomaran las decisiones en base a la persona de mayor rango de las reuniones.


Allan explicó algunos casos en los que haciendo pruebas vieron cómo colocar los productos en la homepage del e-commerce



Al final me dio la impresión que se trataba más de realizar pruebas del tipo prueba y error, que de análisis propiamente de Big Data...




Wednesday, December 12, 2018

Big Data Congress 2018: Predicting churn in subscription with Machine Learning (by Marc Guirao & Oscar Martinez)

Luego se realizó la conferencia Predicting churn in subscription with Machine Learning por parte de Marc Guirao & Oscar Martinez, ambos consultores de BigData de Clearpeaks.

Predicting churn in subscription with Machine Learning (Clearpeaks)


En primer lugar explicaron el proceso que empieza con Business Understanding y Data Understanding:


Modern architectures for BI, Big Data & Machine Learning


How to get started in Big Data, Cloud & Machine Learning:

  1. Think Big, start smart and iterate often
  2. Get advice on use cases, architecture, technology stacks, tools
  3. Startegy to find balance with previous investments
  4. Maintenance - administration - costs
  5. Consider the profiles/skillset of people involved
  6. Big Data = engine ; Cloud = platform & tools



Cualquier modelo de suscripción tiene las siguientes fases:

Subscription Model Lifecycle:

  1. CONSIDER trial options
  2. BUY subscription process
  3. ENGAGE loyalty programs, anniversary offers
  4. GROWTH cross & upselling
  5. RETENTION offers, service increase



El ejemplo que explicaron era el caso de cómo evitar el churn, las bajas, en un modelo de suscripción como el de una ONG

Use case


De esta forma podían tener un dashboard de resultados con el tipo de cliente con más probabilidad de darse de baja, y por tanto en los que debían realizar alguna acción directa de forma inmediata para tratar de avanzarse a la posible baja de la suscripción:

Big Data Congress 2018: Risk analysis of companies in online media (by Juan Francisco García)

La siguiente conferencia sobre la temática Lessons learnt from successful applications la realizó Juan Francisco García, Director BigData & Advances Analytics de DatKnoSys grupo CMC, con el título Risk analysis of companies in online media

Modelo de Gestión de Riesgon On-line

Los datos disponibles actuales para realizar un scoring financiero de una empresa son:


Pero debemos aprovechar todo el potencial de nuestro entorno para controlar todo tipo de riesgo:

De esta forma, de la empresa que debemos analizar podemos recoger todos los mensajes y webs, y realizar un score de riesgo según las temáticas seleccionadas y sus pesos.

De esta forma seremos capaces de calcular on-line el riesgo empresarial total con datos financieros más el score on-line

Algunos resultados analizados:


Y ejemplos de tipos de resultados:


Así podremos dibujar una matriz de riesgo por empresas y tipología de riesgo:


Algunos resultados en forma de KPIs:


En definitiva estas son las conclusiones y beneficios:




Tuesday, December 11, 2018

Big Data Congress 2018: The road to predictive Management of industrial value chains (by Gabriel Aranzadi - Eurecat)

La segunda de las conferencias en este bloque del Big Data Congress 2018 en Barcelona llamado Lessons Learnt from successful applications fue de Gabriel Aranzadi de Eurecat titulada “The road to predictive Management of  industrial value chains”


Algunos challenges que se plantean:

  •          Flexible production
  •           Linking Physical-Virtual
  •           Autonomous Production
  •           Predictive Management
  •           Knowledge Sharing
  •           Zero Waste
  •           Zero Defect


Digital Opportunity:



Inductry Transformation powered by:



Right Decission at the Right Level



Self-Diagnosis, Optimization, Organization


En el desarrollo de proyectos debe aplicarse un acercamiento que contemple tanto a los expertos de datos como también a los expertos del dominio, es decir del tema en el que se está trabajando.



Deploying industrial data driven projects


A.-Problem? Understand the concept and ptoblem objective from domain point of view
B.-Inputs - Outputs?
B.1.-Measurements (Really? How?)
B.2.-Relation with results
B.3.-Output parametres which match objectives
B.4.-Iterative and tireless process
C.-Data Exploration
C.1.-Graphing
C.2.-Strage things (always are there)
C.3.-Meetings to clarify doubts
C.4.-Propose changes / improvements in the structure of the data
C.5.-Homogenize the data
C.6.-Do we have enough data, samples?
D.-Data Processing - Data Cleaning, Feature engineering
D.1.-Time series? Batch?
D.2.-Noise
D.3.-Interest regions
D.4.-Data fusion?
D.5.-Metrics for new models
D.6.-PCA, PLS?
D.7.-Graphical representation
E.Data Modelling
E.1.-Classifier? Regressor? Optimizer? Anormally detector? ...
E.2.-Test framework
E.3.-Test data representations
E.4.-Initial algorithms selection
E.5.-Debugging
E.6.-Improvements, statistics, etc
E.7.-If they do not work
E.8.-Important: Logic of the results. Distrust from excellent outcomes (overfiting)
F.Results: Do not save efforts on tools that facilitate understanding and use of the prediction/prescription models


Un ejemplo práctico con: Predictive Quality: Plastic Injection



Success Stories: KPIs



Lessons Learnt:

  • -          Define the target, question to answer
  • -          Data availability – quality
  • -          Operation accuracy
  • -          Interoperability
  • -          ROI – OEE – TCO – TPM
  • -          Models usability
  • -          Cultural barriers

The Pathway:

  1. Map your Digital Strategy
  2. Create initial Pilot Projects
  3. Define the capabilities you need
  4. Become a virtuoso in data analytics
  5. Transform into a data driven company
  6. Actively plan an ecosystem approach





Big Data Congress 2018: Let’s put data to Work (by Jaume Ferrarons - SmartMonkey)

El siguiente grupo de conferencias en el marco del Big Data Congress 2018 en Barcelona versaron sobre la temática “Lessons Learnt from Successful Applications”, empezando por Jaume Ferrarons de SmartMonkey y su conferencia “Let’s put data to Work”.



Business intelligence 4 Last-Mile Operations con un aumento de más del 20% en productividad con casos de éxito como en Heineken, Volkswagen, Agbar y Suez
What SmartMonkey Do?

How? Tools & profiles & visibility

Long story short

The lesson: People do nasty things (to data)

Asset Geolocalization


1st user case: Asset Geolocalization



2nd User case: Driver profiling





Find the best matching
-          Score driver suitability
-          Using Deep Learning
-          Maximize worker score
-          Less tan time



Nice Data is POWER!