¿Qué es y para qué sirve el Data Lake?
12/02/2018

¿Qué es y para qué sirve el Data Lake?

Gestión de Empresas

Hoy explicaremos que es y para qué sirve el Data Lake, primero de todo empezaremos con la definición. Un Data Lake es un repositorio donde se almacenan todos los datos de la compañía, una gran cantidad de datos en bruto, estructurados y sin estructurar, sin ningún tipo de pre procesamiento (raw data) y sin ningún tipo de esquema, se mantienen allí almacenados has que son necesarios para ser analizados.

La información que se almacena en el Data Lake procede de diversas de fuentes de datos, por lo que guarda datos de todo tipo: procedentes de bases de datos, documentos ofimáticos, registros de servidores, recursos extraídos de Internet, redes sociales, textos, etc. con el objetivo de ser estudiados y analizados posteriormente.

Las empresas vierten los datos en estos almacenes y los recuperan cuando son necesarios. Es en ese momento, cuando las empresas tienen la necesidad de los datos, que estos son ordenados y se diseña una estructura de análisis apropiada. Podríamos describir el data lake como un almacenamiento de bajo coste y el acceso a la información original es directo al disponer de todos los datos en bruto.

Un data lake funciona de la siguiente manera: se asigna un identificado único a cada elemento del data lake y se etiqueta con un conjunto de etiquetas de metadatos extendidas. Cuando en la empresa se presenta una cuestión sobre el negocio que debemos resolver y requerimos de datos, podemos solicitarle al data lake los datos que estan relacionados con esa cuestión. Una vez obtenidos podemos analizar ese conjunto de datos más pequeño para ayudar a obtener una respuesta.

Data Lake vs Big Data

Es posible que hayas relacionado el término Data Lake con Big Data, aunque ambos son almacenes de datos operan de formas diferentes.

  • En Big Data se recoge información procedente de diversas fuentes también, pero que se filtra se organiza y almacena para ser analizada de inmediato con un objetivo concreto. Se trata de un formato estructurado que trabaja a corto plazo y tiene en cuenta solo lo que es útil en el momento, el resto de datos que no son necesarios para el análisis que se lleva a cabo en ese momento se desechan. Analiza los datos solamente una vez según la estructura de análisis fijada y exporta los resultados válidos.
  • En Data Lake se recoge la información y se almacena, pero, a diferencia de Big Data, n o se ordena, ni se filtra, ni se organiza, en el momento de almacenar la información nose produce ninguna alteración respecto la información original. La información almacenada será analizada cuando se necesite. Por este motivo la información almacenada será útil siempre que se necesite, independientemente de que cambie el objetivo u orientación del análisis, y los datos se podrán volver a analizar tantas veces como se requieran. Sin embargo, a diferencia de Big Data, un data lake requiere de mucho más espacio de almacenamiento porque su cantidad de datos es indefinida y va creciendo.

Cada vez más, el término data lake está siendo aceptado como una forma de describir cualquier gran conjunto de datos en el que el esquema y los requisitos de datos no se definen hasta que los datos se consultan.

La arquitectura utilizada para el almacenaje de los datos en data lake es una arquitectura plana.

¿Para qué necesitamos Data Lake? ¿Qué uso tiene?

Actualmente estamos en la era digital y de transformación tecnológica donde las tecnologías de la información tienen cada vez más un papel muy importante en nuestras tareas del día a día. Todo esto implica un crecimiento desproporcionado de la información, información valuosa y que en un futuro puede sernos de gran utilidad para la toma de decisiones, pero el problema es saber qué hacemos con tal cantidad de información, como la gestionamos y la organizamos para no desperdiciar su valor. Datos que en la fecha actual pueden carecer de utilidad para tu empresa o negocio pueden tenerlos en el futuro, por lo que si no se usa o se gestiona bien este conocimiento estamos perdiendo valor.

Es por este motivo que las empresas optan por conservar todos los datos que generan sus diferentes fuentes de información y es básico que se puedan captar, almacenar, gestionar y organizar de forma apropiada para que si en un futuro se necesitan se pueda tener acceso a ellos. Viendo estas necesidades que actualmente tienen las empresas la opción que necesitan es un almacenamiento de datos de forma indefinida.

Una vez que se pone en marcha el análisis de la información almacenada en el data lake se pueden realizar muchas acciones que tienen campos de uso y aplicación muy diversos. A partir del análisis de la información, es posible detectar nuevos patrones de consumo que nos pueden ayudar a establecer nuevas estrategias de marketing y políticas de ventas, nuevas oportunidades de negocio o análisis científicos que nos pueden predecir la evolución de una enfermedad en la población entre otros casos.

¿Recomendarías la implementación de un data lake donde la estandarización de la información almacenada es un requerimiento? ¿Y si el objetivo que prima es la facilidad de búsqueda?

Curso relacionado: Curso de Big Data

Comparte en:

Titulada en Ingeniería de Edificación e Ingeniería en Organización Industrial por la Universidad Politécnica de Cataluña y curso en Project Management. Experiencia en el área de Supply Chain y Logística en diferentes compañías así como delineante y técnica de proyectos.

¿Cómo tributan los pisos turísticos?
03/08/2018
Susana Chamorro

¿Cómo tributan los pisos turísticos?

Hoy repasaremos la tributación de los pisos turísticos, un fenómeno muy de actualidad.

¿Qué es el datawarehouse?
02/08/2018
Thaís Balagueró

¿Qué es el datawarehouse?

En este post vamos a hablar sobre la función principal de los almacenes de datos, desde donde realizan la obtención de los datos e información y su finalidad, el ti...

3 formas de trabajar en sap
18/07/2018
Thaís Balagueró

3 formas de trabajar en sap

Como bien te lo hemos contado en otros post, uno de nuestros cursos trabaja con la herramienta SAP. En este post te contamos 3 maneras diferentes de usarlo

Comentarios

No hay comentarios.

Añadir nuevo comentario