Del Dataware House al Data Lake
11/01/2018

Del Dataware House al Data Lake

Gestión de Empresas

En este post hablaremos sobre del Data Warehouse y el Data Lake, seguramente son dos términos que habrás oído raramente o quizás nunca y lo primero que te preguntarás será qué es un Data Warehouse y qué es un Data Lake, qué utilidades tienen cada uno de ellos, qué tienen en común y en qué se diferencian.

Pues bien, a continuación, vamos a resolver todas estas dudas y preguntas que ahora mismo se están planteando.

¿Qué entendemos por Data Warehouse?

Primero de todo definiremos que es un Data Warehouse o lo que es lo mismo, almacén de datos.

Un Data Warehouse es un almacén electrónico donde generalmente una empresa u organización tiene almacenada y mantiene una gran cantidad de información. Los datos que se encuentran en un data warehouse deben almacenarse de forma segura y fiable, a parte de ser de fácil de recuperación y deben ser fáciles de administrar.

Algun experto en el tema ha definido un data warehouse como una colección de datos que a la vez el contenido de estos datos está orientado a un tema específico, integrado, variante en el tiempo y no volátil, y que soporta el proceso de toma de decisiones. En el data warehouse se guardan todos los datos que recogen los diversos sistemas de información de una empresa que permitirá a ejecutivos y analistas de negocio organizar, comprender y utilizar sus datos para tomar decisiones estratégicas.

El repositorio puede ser físico o lógico y se capturan datos que provienen diversas fuentes de información, estos datos son sobre todo para fines analíticos y de acceso. Cada vez más los data warehouse se encuentran en la nube, aunque también los hay ubicados en el servidor corporativo, la tendencia es que estén en la nube.

¿En qué consiste el Data Lake?

El Data Lake surge en el entorno del Data Management o gestión de datos y va más allá del Data Warehouse superando algunas de sus limitaciones. Estas limitaciones pueden ser que los almacenes de datos se hayan empezado a quedar pequeños, cuando esto ocurre hay que buscar nuevas fuentes de información. Un repositorio dondeno sea necesario tener que elegir, donde se pueda trabajar con los datos que se emplearán mañana y que mientras tanto, el rendimiento de la herramienta para consultas, procesamiento y análisis no se ve perjudicado.

Un Data Lake es un entorno de datos compartidos, en su formato original, que comprende múltiples repositorios y aprovecha las tecnologías de Big Data. Contiene grandes cantidades de datos en bruto, estos datos se mantienen allí almacenados hasta que sean necesarios para cualquier uso en la organización. La diferencia entre un Data Warehouse y un Data Lake es en el tipo de estructura de almacenamiento, un Data Warehouse tiene una estructura jerárquica y almacena datos en ficheros o carpetas, a diferencia de un Data Lake que utiliza una arquitectura plana para el almacenaje de datos.

Podríamos decir que Data Lake mejora la experiencia de búsqueda del usuario ya que a cada elemento de un Data Lake se le asigna un identificador único y se etiqueta con un conjunto de etiquetas de metadatos extendidas. Cuando debemos tomar una decisión de negocios y para ella necesitamos realiza una consulta al histórico de datos, podemos solicitarle al Data Lake los datos que estén relacionados con esa cuestión. Una vez obtenidos podemos analizar ese conjunto de datos más pequeño para ayudar a obtener una respuesta.

El Data Lake no significa necesariamente un reemplazo del Data Warehouse, sino que juntos se complementan, se suman los esfuerzos existentes en cada una de ambas herramientas y dan soporte al descubrimiento de nuevas preguntas.

Data Lake vs Data Warehouse

Es importante remarcar que el Data Warehouse es el primer paso para ayudar a la toma de decisiones en una empresa y no debemos prescindir de él. El Data Lake nos permitirá ir más allá mejorando ineficiencias del repositorio de datos tradicional. No se trata de un desplazamiento del Data Warehouse con la llegada del Data Lake, sino de mejorar las capacidades de la organización en lo que refiere a la gestión de datos con ambas herramientas.

Algunas de las diferencias entre Data Lake y Data Warehouse son las siguientes:

  • Datos: un Data Warehouse sólo almacena datos que han sido modelados o estructurados, mientras que un Data Lake no hace esta distinción de datos sino que lo almacena todo, estructurado, semiestructurado y no estructurado.
  • Procesamiento: antes de que una empresa pueda cargar datos en un Data Warehouse primero debe darles forma y estructura, es decir, los datos deben ser modelados. En un Data Lake se cargan los datos sin procesar, tal y como están, y cuando están listos para usar los datos, es cuando se le da forma y estructura.
  • Almacenamiento: el coste de almacenamiento para las teconologías big data es inferior al de un Data Warehouse.
  • Agilidad: un Data Warehouse, a diferencia de un Data Lake, está altamente estructurado y no es fácil cambiar su estructura. Un Data Lake carece de la estructura que tiene un Data Warehouse lo que facilita su configuración y cambios posteriores.
  • Seguridad: La tecnología del Data Warehouse existe desde hace décadas y genera más confianza en aspectos de seguridad mientras que la tecnología de Big Data (base de un Data Lake) es relativamente nueva y genera más desconfianzas.

¿Si tuvieras que implementar una de estas herramientas en tu organización, qué opción elegirías? ¿Data Warehouse, Data Lake o Data Warehouse & Data Lake? ¿Cómo lo justificarías?

Curso relacionado: Curso de Big Data

Comparte en:

Titulada en Ingeniería de Edificación e Ingeniería en Organización Industrial por la Universidad Politécnica de Cataluña y curso en Project Management. Experiencia en el área de Supply Chain y Logística en diferentes compañías así como delineante y técnica de proyectos.

Por que es buena idea crear un ecommerce con Prestashop
14/09/2018
Anna Mercadé

Por que es buena idea crear un ecommerce con Prestashop

Cuando estamos decididos a montar un ecommerce tenemos claro cuál es el objetivo pero se nos abren un conjunto de dudas, especialmente a nivel técnico.

Claves para reinventarse profesionalmente
13/09/2018
Susana Chamorro

Claves para reinventarse profesionalmente

María tiene 44 años. En su empresa han hecho un expediente de regulación de empleo y se ha quedado en desempleo. ¿Cómo reinventarse profesionalmente?

¿Qué es y en qué consiste la amortización de activos?
17/08/2018
Susana Chamorro

¿Qué es y en qué consiste la amortización de activos?

 

Comentarios

No hay comentarios.

Añadir nuevo comentario