De acuerdo con Amazon Web Services la definición de Data Lake es:
Repositorio centralizado que permite almacenar todos los datos estructurados y no estructurados a cualquier escala. Puede almacenar los datos tal cual, sin tener que estructurarlos primero, y ejecutar diferentes tipos de análisis, desde cuadros de mando y visualizaciones hasta grandes procesamientos de datos, análisis en tiempo real y aprendizaje automático para tomar mejores decisiones.
El término Data Lake (literalmente, lago de datos en inglés) fue acuñado por James Dixon, director tecnológico de Pentaho, y hace referencia a la naturaleza particular de los datos de este sistema, en contraste con los datos limpios y procesados guardados en los sistemas tradicionales de almacenes de datos o Data Mart.
Otros temas de interés
¿Cómo NO seleccionar una herramienta de Business Intelligence?