
Trovit es una empresa que se dedica a clasificar anuncios en las verticales de pisos, coches y empleos.

Web scraping:

Index generation con Apache Solr:

Pros y Contras con la experiencia de Trovit con la herramienta Apache Solr

Para la parte de proceso Trovit entonces incorporó Hadoop Map Reduce:

Con Hadoop Map Reduce era necesario realizar Data Pipeline de varios Jobs de MapReduce:

Y de esta forma se llevaba hasta Apache Solr para la parte de índices:

La experiencia de Trovit con Apache Hadoop resulta con los siguientes puntos a favor y en conctra de la herramienta:

Después incorporaron Kafka Spout:

Y la experiencia de la herramienta Storm:

El proceso pasó a Batch (MR) + Streaming (Storm) + Serving (Solr)

La experiencia de Trovit con la Arquitectura Lambda:

Sincronizando con HBase & Zookeeper:

La experica de TRovit con Apache HBAse es más que negativa que positiva:

Si comparamos MapReduce vs Spark:

La experiencia de Trovit con la herramienta Apache Spark es muy buena ya que ofrece más puntos positivos que negativos:

Unificar batch y código streaming:

Y de esta forma obtenemos un Streaming Pipeline:

Tweet
No hay comentarios:
Publicar un comentario