Mostrar más resultados
28439

¿Qué es y para qué sirve el Data Lake?

¿Qué es y para qué sirve el Data Lake?

Escrito por Thaís Balagueró

Hoy explicaremos que es y para qué sirve el Data Lake, primero de todo empezaremos con la definición. Un Data Lake es un repositorio donde se almacenan todos los datos de la compañía, una gran cantidad de datos en bruto, estructurados y sin estructurar, sin ningún tipo de pre procesamiento (raw data) y sin ningún tipo de esquema, se mantienen allí almacenados has que son necesarios para ser analizados.

La información que se almacena en el Data Lake procede de diversas de fuentes de datos, por lo que guarda datos de todo tipo: procedentes de bases de datos, documentos ofimáticos, registros de servidores, recursos extraídos de Internet, redes sociales, textos, etc. con el objetivo de ser estudiados y analizados posteriormente.

Las empresas vierten los datos en estos almacenes y los recuperan cuando son necesarios. Es en ese momento, cuando las empresas tienen la necesidad de los datos, que estos son ordenados y se diseña una estructura de análisis apropiada. Podríamos describir el data lake como un almacenamiento de bajo coste y el acceso a la información original es directo al disponer de todos los datos en bruto.

Un data lake funciona de la siguiente manera: se asigna un identificado único a cada elemento del data lake y se etiqueta con un conjunto de etiquetas de metadatos extendidas. Cuando en la empresa se presenta una cuestión sobre el negocio que debemos resolver y requerimos de datos, podemos solicitarle al data lake los datos que estan relacionados con esa cuestión. Una vez obtenidos podemos analizar ese conjunto de datos más pequeño para ayudar a obtener una respuesta.

Data Lake vs Big Data

Es posible que hayas relacionado el término Data Lake con Big Data, aunque ambos son almacenes de datos operan de formas diferentes.

  • En Big Data se recoge información procedente de diversas fuentes también, pero que se filtra se organiza y almacena para ser analizada de inmediato con un objetivo concreto. Se trata de un formato estructurado que trabaja a corto plazo y tiene en cuenta solo lo que es útil en el momento, el resto de datos que no son necesarios para el análisis que se lleva a cabo en ese momento se desechan. Analiza los datos solamente una vez según la estructura de análisis fijada y exporta los resultados válidos.
  • En Data Lake se recoge la información y se almacena, pero, a diferencia de Big Data, n o se ordena, ni se filtra, ni se organiza, en el momento de almacenar la información nose produce ninguna alteración respecto la información original. La información almacenada será analizada cuando se necesite. Por este motivo la información almacenada será útil siempre que se necesite, independientemente de que cambie el objetivo u orientación del análisis, y los datos se podrán volver a analizar tantas veces como se requieran. Sin embargo, a diferencia de Big Data, un data lake requiere de mucho más espacio de almacenamiento porque su cantidad de datos es indefinida y va creciendo.

Cada vez más, el término data lake está siendo aceptado como una forma de describir cualquier gran conjunto de datos en el que el esquema y los requisitos de datos no se definen hasta que los datos se consultan.

La arquitectura utilizada para el almacenaje de los datos en data lake es una arquitectura plana.

¿Para qué necesitamos Data Lake? ¿Qué uso tiene?

Actualmente estamos en la era digital y de transformación tecnológica donde las tecnologías de la información tienen cada vez más un papel muy importante en nuestras tareas del día a día. Todo esto implica un crecimiento desproporcionado de la información, información valuosa y que en un futuro puede sernos de gran utilidad para la toma de decisiones, pero el problema es saber qué hacemos con tal cantidad de información, como la gestionamos y la organizamos para no desperdiciar su valor. Datos que en la fecha actual pueden carecer de utilidad para tu empresa o negocio pueden tenerlos en el futuro, por lo que si no se usa o se gestiona bien este conocimiento estamos perdiendo valor.

Es por este motivo que las empresas optan por conservar todos los datos que generan sus diferentes fuentes de información y es básico que se puedan captar, almacenar, gestionar y organizar de forma apropiada para que si en un futuro se necesitan se pueda tener acceso a ellos. Viendo estas necesidades que actualmente tienen las empresas la opción que necesitan es un almacenamiento de datos de forma indefinida.

Una vez que se pone en marcha el análisis de la información almacenada en el data lake se pueden realizar muchas acciones que tienen campos de uso y aplicación muy diversos. A partir del análisis de la información, es posible detectar nuevos patrones de consumo que nos pueden ayudar a establecer nuevas estrategias de marketing y políticas de ventas, nuevas oportunidades de negocio o análisis científicos que nos pueden predecir la evolución de una enfermedad en la población entre otros casos.

¿Recomendarías la implementación de un data lake donde la estandarización de la información almacenada es un requerimiento? ¿Y si el objetivo que prima es la facilidad de búsqueda?

Curso relacionado: Curso de Big Data