4 causas de mala calidad de los datos en Big Data

Puntos clave

La entrada manual de datos genera muchos errores, porque el factor humano provoca equivocaciones y fallos tipográficos.
Durante las migraciones de datos, no realizar una limpieza previa puede generar duplicidades, valores obsoletos o incompatibilidades.
Los errores más comunes son la información incompleta, los fallos de sintaxis y los errores de semántica.

Escrito por Thaís Balagueró

12 de octubre de 2018

6 minutos

Este rápido aumento en la cantidad de datos y su diversidad hacen que cada vez más, la gestión de los datos se esté volviendo en una tareas más compleja para las empresas y acaba derivando en ineficiencia hacia esta tareas, lo que puede afectar en la toma de decisiones.

Una mala calidad en los datos implica que se pueden tomar decisiones estratégicas no acertadas ya que la decisión se ha tomado en base a unos datos base incorrectos, o puede provocar un deterioro en la imagen corporativa de la compañía, ineficiencia en la toma de decisiones, una mala gestión de los clientes que acaba repercutiendo en una bajada de las ventas o repetición de procesos entre otras cosas. Es por todos estos motivos que a día de hoy se hace imprescindible que en cualquier empresa se garantice tener unos datos de calidad alta.

Según Thomas C. Redman, experto de renombre en la calidad de datos, entendemos como datos de alta calidad aquellos que “si son aptos para sus usos previstos en operaciones, toma de decisiones, análisis y planificación». Esto significa que los datos deben estar libres de defectos mientras sean relevantes, deben tener un nivel de detalle adecuado y debe ser fáciles de interpretar.

En el post de hoy vamos a hablar sobre la mala calidad de los datos en Big Data y las principales causas o motivos que provocan no tener unos datos de calidad.

Hay muchos motivos que provocan una baja o mala calidad de datos como las migraciones de datos, el data entry o entrada de datos, un incremento en el volumen de los datos a gestionar y su variedad o diversidad, procedencia de datos externos y los errores de carga de datos que pueden aparecen cuando estos proceden de otros sistemas por errores de conexión o la creación de nuevas aplicaciones que son también una fuente de datos.

Es importante conocer el motivo que genera esta mala calidad de datos y dónde se crea este dato “erróneo” para nosotros, ir a la raíz del problema para poder aplicar soluciones definitivas y efectivas y evitar que se generen de nuevo estos datos con una mala calidad.

Cuando nos decidimos para implementar un proyecto de Big Data no podemos dejar de prestar atención a la calidad de datos, debemos tomar medidas durante el proyecto Big Data para garantizar una alta calidad de los datos e incluso plantearnos un sub-proyecto llamado “proyecto de calidad de datos”. Este sub-proyecto necesitará también de un seguimiento y una inversión importante, aunque no podrá plantearse como un proyecto con retorno a corto plazo ya que económicamente es inviable, debe plantearse más como un sub-proyecto complementario y necesario para la implementación de Big Data.

Veamos a continuación algunos de los motivos más importantes y más comunes por los cuales tenemos datos con mala calidad en nuestros sistemas cuando tenemos implementado un Big Data.

Motivos de una mala calidad de datos

– Datos de Entrada: es de donde provienen la mayor parte de los errores que generan una mala calidad de datos, de la entrada manual de datos. Interviene el factor humano y como es normal puede haber errores de comunicación e interpretación, errores tipográficos, equivocaciones y otros factores externos. Este tipo de entrada de datos tiende a eliminarse cada vez más en las empresas y se va a la automatización de este proceso mediante integraciones entre diferentes sistemas como es el caso de la comunicación mediante mensajes EDI.

– Datos Externos: proceden de la incorporación de datos de fuentes externas de forma automática en los sistemas de información de las organizaciones que, si no se tomas las precauciones oportunas, como puede ser considerar un sub proyecto de calidad de datos, provoca que se generen una gran cantidad de problemas relacionados con la Calidad de Datos.

– Errores de carga de los sistemas transaccionales: vienen de los múltiples errores que suelen ocurrir durante la carga de datos en los sistemas transaccionales, generalmente siendo problemas de comunicación entre sistemas y que suele provocar una deficiencia en la calidad de los datos.

– Migraciones de datos: ocurre cuando se realiza una migración de datos sin haber revisado y analizado previamente y en profundidad si deben aplicarse cambios a los datos de origen, es decir, realizar una limpieza de datos previa a la migración. Como consecuencia conseguimos la ausencia de calidad de datos, existencia de valores obsoletos o en un formato distinto al esperado en el nuevo sistema, e incluso duplicidades.

En la mayoría de los casos, los errores empiezan a aparecer con la carga inicial de datos y pocas veces se finaliza la carga sin ningún tipos de error durante el proceso ETL, es decir, durante la extracción, transformación y carga de los datos.

Podríamos dividir los errores de migración en tres categorías:

– Errores por información incompleta: consisten en registros o campos faltantes, campos de datos que no se cargaron y están vacíos.

– Errores de sintaxis: relacionados con el formato de los datos y cómo se representan. Si están representados de la forma correcta y se encuentran dentro de un rango de valores fijado para garantizar su calidad (longitud del campo, campo de texto o campo numérico, etc).

– Errores de semántica: transmite el significado de los datos. Algunos ejemplos pueden ser registros duplicados con pequeñas diferencias, datos en un campo de datos que no lo corresponde según la definición del campo, etc.

Vistos los motivos más comunes de tener una mala calidad de datos en nuestros sistemas ¿crees que es posible eliminar el problema de raíz para garantizar una gestión de datos eficiente con datos de calidad? No dejes pasar la oportunidad y obtén tu formación en big data.

Te interesa leer sobre...

Certificaciones SAP: todo acerca de ellas

Cuánto cuesta implementar SAP Business One

Aprender SAP Business One desde cero: ¡la guía!

Auditor Interno: sueldo, funciones y cómo llegar a serlo

Cómo ser consultor SAP: lo que necesitas

Solicita información

Contacta para recibir información

Transfórmate en tu mejor versión.

Selector categoria(Obligatorio)

Selecciona tu formación

Selector producto(Obligatorio)

Selecciona tu formación

nombre(Obligatorio)

Nombre y apellidos*

email(Obligatorio)

Email*

telefono(Obligatorio)

Teléfono*

cp(Obligatorio)

Código Postal*

residencia(Obligatorio)

País de residencia*

nacionalidad(Obligatorio)

Grupo Northius tratará sus datos personales para contactarle por medios tecnológicos, incluso aplicaciones de mensajería instantánea, con el fin de ofrecerle información del programa formativo seleccionado o de otros directamente relacionados con el interés manifestado y, en su caso, para tramitar la contratación correspondiente. Compartiremos su solicitud con las empresas que conforman el Grupo Northius, con el objeto de que estas puedan hacerle llegar la mejor oferta de productos y servicios de acuerdo a su petición. Quedan reconocidos los derechos de acceso, rectificación, supresión, oposición, limitación, tal y como se explica en la Política de Privacidad.