Mostrar más resultados
28581

4 causas de mala calidad de los datos en Big Data

4 causas de mala calidad de los datos en Big Data

Escrito por Thaís Balagueró

Este rápido aumento en la cantidad de datos y su diversidad hacen que cada vez más, la gestión de los datos se esté volviendo en una tareas más compleja para las empresas y acaba derivando en ineficiencia hacia esta tareas, lo que puede afectar en la toma de decisiones.

Una mala calidad en los datos implica que se pueden tomar decisiones estratégicas no acertadas ya que la decisión se ha tomado en base a unos datos base incorrectos, o puede provocar un deterioro en la imagen corporativa de la compañía, ineficiencia en la toma de decisiones, una mala gestión de los clientes que acaba repercutiendo en una bajada de las ventas o repetición de procesos entre otras cosas. Es por todos estos motivos que a día de hoy se hace imprescindible que en cualquier empresa se garantice tener unos datos de calidad alta.

 

Según Thomas C. Redman, experto de renombre en la calidad de datos, entendemos como datos de alta calidad aquellos que “si son aptos para sus usos previstos en operaciones, toma de decisiones, análisis y planificación». Esto significa que los datos deben estar libres de defectos mientras sean relevantes, deben tener un  nivel de detalle adecuado y debe ser fáciles de interpretar.

 

En el post de hoy vamos a hablar sobre la mala calidad de los datos en Big Data y las principales causas o motivos que provocan no tener unos datos de calidad.

 

Hay muchos motivos que provocan una baja o mala calidad de datos como las migraciones de datos, el data entry o entrada de datos, un incremento en el volumen de los datos a gestionar y su variedad o diversidad, procedencia de datos externos y los errores de carga de datos que pueden aparecen cuando estos proceden de otros sistemas por errores de conexión o la creación de nuevas aplicaciones que son también una fuente de datos.

Es importante conocer el motivo que genera esta mala calidad de datos y dónde se crea este dato “erróneo” para nosotros, ir a la raíz del problema para poder aplicar soluciones definitivas y efectivas y evitar que se generen de nuevo estos datos con una mala calidad.

Cuando nos decidimos para implementar un proyecto de Big Data no podemos dejar de prestar atención a la calidad de datos, debemos tomar medidas durante el proyecto Big Data para garantizar una alta calidad de los datos e incluso plantearnos un sub-proyecto llamado “proyecto de calidad de datos”. Este sub-proyecto necesitará también de un seguimiento y una inversión importante, aunque no podrá plantearse como un proyecto con retorno a corto plazo ya que económicamente es inviable, debe plantearse más como un sub-proyecto complementario y necesario para la implementación de Big Data.

Veamos a continuación algunos de los motivos más importantes y más comunes por los cuales tenemos datos con mala calidad en nuestros sistemas cuando tenemos implementado un Big Data.

 

Motivos de una mala calidad de datos 

 

Datos de Entrada: es de donde provienen la mayor parte de los errores que generan una mala calidad de datos, de la entrada manual de datos. Interviene el factor humano y como es normal puede haber errores de comunicación e interpretación, errores tipográficos, equivocaciones y otros factores externos. Este tipo de entrada de datos tiende a eliminarse cada vez más en las empresas y se va a la automatización de este proceso mediante integraciones entre diferentes sistemas como es el caso de la comunicación mediante mensajes EDI.

 

Datos Externos: proceden de la incorporación de datos de fuentes externas de forma automática en los sistemas de información de las organizaciones que, si no se tomas las precauciones oportunas, como puede ser considerar un sub proyecto de calidad de datos, provoca que se generen una gran cantidad de problemas relacionados con la Calidad de Datos.

 

Errores de carga de los sistemas transaccionales: vienen de los múltiples errores que suelen ocurrir durante la carga de datos en los sistemas transaccionales, generalmente siendo problemas de comunicación entre sistemas y que suele provocar una deficiencia en la calidad de los datos.

 

Migraciones de datos: ocurre cuando se realiza una migración de datos sin haber revisado y analizado previamente y en profundidad si deben aplicarse cambios a los datos de origen, es decir, realizar una limpieza de datos previa a la migración. Como consecuencia conseguimos la ausencia de calidad de datos, existencia de valores obsoletos o en un formato distinto al esperado en el nuevo sistema, e incluso duplicidades.

 

En la mayoría de los casos, los errores empiezan a aparecer con la carga inicial de datos y pocas veces se finaliza la carga sin ningún tipos de error durante el proceso ETL, es decir, durante la extracción, transformación y carga de los datos.

 

Podríamos dividir los errores de migración en tres categorías:

 

Errores por información incompleta: consisten en registros o campos faltantes, campos de datos que no se cargaron y están vacíos.

 

Errores de sintaxis: relacionados con el formato de los datos y cómo se representan. Si están representados de la forma correcta y se encuentran dentro de un rango de valores fijado para garantizar su calidad (longitud del campo, campo de texto o campo numérico, etc).

 

Errores de semántica: transmite el significado de los datos. Algunos ejemplos pueden ser registros duplicados con pequeñas diferencias, datos en un campo de datos que no lo corresponde según la definición del campo, etc.

 

 

Vistos los motivos más comunes de tener una mala calidad de datos en nuestros sistemas ¿crees que es posible eliminar el problema de raíz para garantizar una gestión de datos eficiente con datos de calidad? No dejes pasar la oportunidad y obtén tu formación en big data.