miércoles, diciembre 19, 2018

Big Data Congress 2018: Taming classified ads in Trovit (by Ferran Gali)

A continuación Ferran Galí , Lead Data Engineer en Trovit Search, realizó su conferencia titulada Taming classified ads in Trovit en el marco de la mesa redonda Effective technology stacks presentada por Dani Gonzalez de Eurecat.



Trovit es una empresa que se dedica a clasificar anuncios en las verticales de pisos, coches y empleos.


Web scraping:


Index generation con Apache Solr:


Pros y Contras con la experiencia de Trovit con la herramienta Apache Solr


Para la parte de proceso Trovit entonces incorporó Hadoop Map Reduce:


Con Hadoop Map Reduce era necesario realizar Data Pipeline de varios Jobs de MapReduce:


Y de esta forma se llevaba hasta Apache Solr para la parte de índices:


La experiencia de Trovit con Apache Hadoop resulta con los siguientes puntos a favor y en conctra de la herramienta:


Después incorporaron Kafka Spout:


Y la experiencia de la herramienta Storm:



El proceso pasó a Batch (MR) + Streaming (Storm) + Serving (Solr)


La experiencia de Trovit con la Arquitectura Lambda:


Sincronizando con HBase & Zookeeper:


La experica de TRovit con Apache HBAse es más que negativa que positiva:


Si comparamos MapReduce vs Spark:


La experiencia de Trovit con la herramienta Apache Spark es muy buena ya que ofrece más puntos positivos que negativos:


Unificar batch y código streaming:


Y de esta forma obtenemos un Streaming Pipeline:

No hay comentarios: