Del Dataware House al Data Lake: diferencias
En este post hablaremos sobre del Data Warehouse y el Data Lake, seguramente son dos términos que habrás oído raramente o quizás nunca y lo primero que te preguntarás será qué es un Data Warehouse y qué es un Data Lake, qué utilidades tienen cada uno de ellos, qué tienen en común y en qué se diferencian.
Pues bien, a continuación, vamos a resolver todas estas dudas y preguntas que ahora mismo se están planteando.
Tabla de contenidos
¿Qué entendemos por Data Warehouse?
Un Data Warehouse es un almacén electrónico donde generalmente una empresa u organización tiene almacenada y mantiene una gran cantidad de información. Los datos que se encuentran en un data warehouse deben almacenarse de forma segura y fiable, a parte de ser de fácil de recuperación y deben ser fáciles de administrar.
Algun experto en el tema ha definido un data warehouse como una colección de datos que a la vez el contenido de estos datos está orientado a un tema específico, integrado, variante en el tiempo y no volátil, y que soporta el proceso de toma de decisiones. Si quieres aprender más en profundidad qué es y como funciona el Data Warehouse, ¡infórmate en nuestro blog!
¿En qué consiste el Data Lake?
El Data Lake surge en el entorno del Data Management o gestión de datos y va más allá del Data Warehouse superando algunas de sus limitaciones. Estas limitaciones pueden ser que los almacenes de datos se hayan empezado a quedar pequeños, cuando esto ocurre hay que buscar nuevas fuentes de información. Un repositorio dondeno sea necesario tener que elegir, donde se pueda trabajar con los datos que se emplearán mañana y que mientras tanto, el rendimiento de la herramienta para consultas, procesamiento y análisis no se ve perjudicado.
Un Data Lake es un entorno de datos compartidos, en su formato original, que comprende múltiples repositorios y aprovecha las tecnologías de Big Data. Contiene grandes cantidades de datos en bruto, estos datos se mantienen allí almacenados hasta que sean necesarios para cualquier uso en la organización. La diferencia entre un Data Warehouse y un Data Lake es en el tipo de estructura de almacenamiento, un Data Warehouse tiene una estructura jerárquica y almacena datos en ficheros o carpetas, a diferencia de un Data Lake que utiliza una arquitectura plana para el almacenaje de datos.
Podríamos decir que Data Lake mejora la experiencia de búsqueda del usuario ya que a cada elemento de un Data Lake se le asigna un identificador único y se etiqueta con un conjunto de etiquetas de metadatos extendidas. Cuando debemos tomar una decisión de negocios y para ella necesitamos realiza una consulta al histórico de datos, podemos solicitarle al Data Lake los datos que estén relacionados con esa cuestión. Una vez obtenidos podemos analizar ese conjunto de datos más pequeño para ayudar a obtener una respuesta.
El Data Lake no significa necesariamente un reemplazo del Data Warehouse, sino que juntos se complementan, se suman los esfuerzos existentes en cada una de ambas herramientas y dan soporte al descubrimiento de nuevas preguntas.
Data Lake vs Data Warehouse
Es importante remarcar que el Data Warehouse es el primer paso para ayudar a la toma de decisiones en una empresa y no debemos prescindir de él. El Data Lake nos permitirá ir más allá mejorando ineficiencias del repositorio de datos tradicional. No se trata de un desplazamiento del Data Warehouse con la llegada del Data Lake, sino de mejorar las capacidades de la organización en lo que refiere a la gestión de datos con ambas herramientas.
Algunas de las diferencias entre Data Lake y Data Warehouse son las siguientes:
- Datos: un Data Warehouse sólo almacena datos que han sido modelados o estructurados, mientras que un Data Lake no hace esta distinción de datos sino que lo almacena todo, estructurado, semiestructurado y no estructurado.
- Procesamiento: antes de que una empresa pueda cargar datos en un Data Warehouse primero debe darles forma y estructura, es decir, los datos deben ser modelados. En un Data Lake se cargan los datos sin procesar, tal y como están, y cuando están listos para usar los datos, es cuando se le da forma y estructura.
- Almacenamiento: el coste de almacenamiento para las teconologías big data es inferior al de un Data Warehouse.
- Agilidad: un Data Warehouse, a diferencia de un Data Lake, está altamente estructurado y no es fácil cambiar su estructura. Un Data Lake carece de la estructura que tiene un Data Warehouse lo que facilita su configuración y cambios posteriores.
- Seguridad: La tecnología del Data Warehouse existe desde hace décadas y genera más confianza en aspectos de seguridad mientras que la tecnología de Big Data (base de un Data Lake) es relativamente nueva y genera más desconfianzas.
¿Si tuvieras que implementar una de estas herramientas en tu organización, qué opción elegirías? ¿Data Warehouse, Data Lake o Data Warehouse & Data Lake? ¿Cómo lo justificarías?
Curso relacionado: Curso de Big Data
Te interesa leer sobre...