Build Enterprise Data Lake without Drowing
¿Qué es Data Lake?
Es un método de almacenar los datos en un sistema o repositorio, en su forma natural (ya sea estructurada o desestructurada)
3 son los objetivos a conseguir mediante el Data Lake.
El primer objetivo es que hay que romper los Silos:
- Technology Silos - no hay conexión entre las distintas tecnologías que integran una empresa para almacenar su información
- Department Silos - por razones tecnológicas o políticas, no está la información en los mismos sistemas
El segundo objetivo es que hay que poner toda la información en el mismo repositorio, y si puede ser en la misma tecnología
El tercer objetivo es poner Big Data Analytics arriba de toda la estrategia.
Hay que tener en cuenta que hay que gestionar el overlap que existe entre el BI Business Intelligence que conocemos hasta la fecha con el Data Warehouse, con el nuevo Big Data y el necesario Data Lake.
Otro punto importante a gestionar es que es importante tener en cuenta el software open source, y siempre con la necesidad de incluir soporte.
Por otro lado también es importante gestionar la disrupción de las estrategias en infraestructuras que nos llevan a apostar más por el Cloud en lugar de tener que asumir los continuos cambios en el on-premise. Pero es que además la rápida aceleración de los ciclos de vida de la tecnología de software hacen que no podemos estar siempre al día, y es mejor delegar esta continua actualización.
Hay un montón de tecnologías, con lo que hay que escoger un stack vendor para conseguir la herramienta lo mejor posible, con las personas que mejor dominen la tecnología, y gestionando el coste.
Además, para poner en producción cualquier plataforma de Big Data es muy necesario tener en cuenta los siguientes factores:
- Development chain
- High availability
- Disaster recovery
- SLAs
- Support
- Automation
Y la plataforma de Big Data empresarial debe permitir/incluir:
- Security
- Integration
- Monitoring
- Processes
- Reports
Con la necesaria colaboración de un equipo de Data Science podremos poner en producción nuestra plataforma de Big Data:
- Solution Developers
- Data Scientists
- Platform Engineers
Tweet
No hay comentarios:
Publicar un comentario