Los estándares de calidad en Big Data
En el post de hoy vamos a hablar sobre la calidad en Big Data, o lo que es lo mismo, la calidad de los datos y los estándares de calidad que debe cumplir cualquier tipo de datos en cualquier organización para asegurar que obtenemos resultados fiables de los procesos de análisis de datos.
Primero de todo explicaremos que se entiende por calidad de datos. La calidad de datos es la cualidad de un conjunto de información que se encuentra recogida en una base de datos, un sistema de información o un data warehouse (almacén de datos) que entre sus características están la exactitud, completitud, integridad, actualización, coherencia, relevancia, accesibilidad y confiabilidad necesarias para que estos datos resulten útiles al procesamiento, al análisis y cualquier otra finalidad que el usuario final quiera darles.
Realizar un análisis de datos y llegar a conclusiones que apoyan a la toma de decisiones si la calidad de los datos es mala o deficiente puede provocar tomar decisiones erróneas que perjudiquen al negocio y a la empresa y a la larga pueden provocar dificultades.
Big Data es una solución para el análisis de datos y que ayuda a poder tomar buenas decisiones en el negocio, pero sin una calidad de datos las decisiones tomadas pueden ser pobres o erróneas debido a que se han tomado en base a resultados obtenidos de datos erróneos o sin calidad. Es muy importante asegurar la calidad de datos para apoyar las acciones empresariales.
En cualquier organización, tener una calidad de datos adecuada es vital para los procesos transaccionales y operativos, así como asegurar la accesibilidad al business intelligence a lo largo del tiempo y los informes de análisis de negocio. La calidad de los datos que descargamos a través de Business Intelligence y usamos para los análisis del negocio puede verse afectada por la forma en que se introducen los datos en los procesos operativos, cómo son manejados y cuál es su mantenimiento.
La falta de calidad de los datos es uno de los principales problemas a los que se enfrentan los responsables de sistemas de información y las empresas en general, representa claramente uno de los problemas "ocultos" más graves y persistentes en cualquier organización.Una buena calidad de datos es el activo más importante de cualquier organización , ya que permite acelerar el crecimiento y administrar de mejor manera los costes y las iniciativas para obtener mejores rentabilidades. Para poder tener un buen control de calidad es necesario establecer e implementar un procedimiento en cualquier organización para lograr este objetivo, que es el de mejorar la calidad para una mejor y mayor satisfacción del cliente y de la empresa.
Estandares de calidad en Big Data
Big data es una herramienta relativamente nueva y no existe aún una definición concreta de su calidad de datos y los criterios de calidad a utilizar. Pero debemos tener en cuenta que la calidad de los datos no dependerá solamente de las características de Big Data sino también del entorno empresarial en el que se utilizan los datos, incluyendo procesos y usuarios.
Consideraremos datos de buena calidad o datos calificados solamente aquellos que cumplan con los requisitos establecidos y que se ajusten a los usos correspondientes.
Para la fijación de los estándares de calidad en Big Data se eligen las características de calidad de datos comunes y utilizadas como estándares de calidad de datos y se reajusta su definición considerandos las necesidades reales y actuales del negocio.
Cada dimensión está dividida en elementos asociados a esta y cada elemento dispone de sus indicadores de calidad, se este modo utilizamos unos estándares jerárquicos. Veamos estos estándares:
Disponibilidad
- Accesibilidad: si se proporciona una interfaz de acceso a datos y si los datos pueden hacerse públicos fácilmente o fáciles de adquirir.
- Oportunidad: si los datos llegan a tiempo en un periodo de tiempo limitado, se actualizan regularmente y el intervalo de tiempo entre la recopilación y el procesamiento de los datos hasta la liberación cumple los requisitos.
Usabilidad
- Credibilidad: cuando los datos provienen de organizaciones especializadas de un país, campo o industrial, son auditados regularmente y se verifica su exactitud en el contenido. Existe un rango de valores para los datos: conocidos o aceptables.
Confiabilidad
- Exactitud: los datos proporcionados son precisos, la representación de datos refleja el estado real de la información de origen y su representación no genera ambigüedades.
- Consistencia: una vez procesados los datos sus conceptos, dominios y formatos coinciden como antes de ser procesados. Son consistentes y verificables durante un tiempo
- Integridad: formato de datos claro y que cumple con los criterios, tienen integridad estructural y en contenido.
- Completud: en caso que una deficiencia de un componente afectara la precisión e integridad de datos y su uso.
Pertinencia
- Convivencia: los datos recogidos no coinciden completamente con el tema, pero presenta cierta relación y están dentro del tema que los usuarios requieren o presenta coincidencias.
Calidad de presentación:
- Legibilidad: los datos son claros y comprensibles, satisfacen las necesidades del usuario y su descripción, clasificación y contenido son fáciles de entender.
¿Cómo definirías un proceso para garantizar la calidad de datos en tu compañía?
Curso relacionado: Curso de Big Data