Big data: cómo evitar errores en la subida de datos
09/01/2019

Big data: cómo evitar errores en la subida de datos

Gestión de Empresas

En el post de hoy hablaremos sobres los errores más comunes, como evitarlos y mejores prácticas en la subida de datos o lo que es lo mismo la migración de datos.

Es importante tener claro que si abordamos acciones para evitar errores en la carga o subida de datos no significa que eliminemos también errores debidos a datos falsos o datos duplicados, fenómeno conocido como el “Dirty Data”.

¿En qué consiste la subida de datos?

Primero de todo explicaremos que entendemos por subida de datos en el contexto del Big Data y en qué consiste. La subida de datos, en el contexto del Big Data, es un proceso mediante el cual se realiza una transferencia de datos de un sistema de almacenamiento de datos a otro sistema o una transferencia de datos entre diferentes sistemas informáticos, sin necesidad que sean sistemas de almacenamiento de datos o cuando se realiza una transferencia de unos formatos de datos a otros formatos incluso entre diferentes sistemas informáticos.

Este proceso de transferencia de datos entre sistemas informáticos, ya sean de almacenamiento o no, se denomina también migración de datos y generalmente se lleva a cabo con la finalidad de reemplazar o actualizar servidores, equipos de almacenamiento o reemplazar unas funciones en el sistema informático de destino que existen previamente en el sistema informático de origen.

Otros casos en los que se suele realizar una migración, transferencia o una subida de datos a otro sistema es cuando se quieren realizar tareas de mantenimiento en un servidor (entendiendo como servidor el espacio físico donde se alberga el programa  o sistema informático y los datos contenidos en este). Para evitar una pérdida de datos, por accidente, durante las tareas de mantenimiento en muchos casos se opta por realizar una copia de estos datos en otro sistema y de este modo poder realizar las tareas de mantenimiento con seguridad y sin poner en riesgo los datos. Esta copia de datos hacia otro sistema se realiza también mediante una subida de datos.

Riesgos durante la subida de datos

Debemos tener en cuenta que toda migración de datos conlleva algunos riesgos, como por ejemplo una caída inesperada del sistema por saturación de este, y por tanto es necesario planificar una subida de datos con tiempo y tener presente que posibles afectaciones podría haber en el sistema. 

A continuación explicamos algunos de los factores a tener en cuenta para realizar esta planificación de datos a fin de que haya la mínima afectación posible.

  • Tiempo que llevará realizar la migración completa precisando hora de inicio y hora de finalización de la migración.
  • Valorar si la migración de datos puede realizarse sin que sea necesario una parada del sistema o por el contrario es necesario realizar una parada parcial o total durante el tiempo de la subida de datos.
  • Si es necesaria una parada del sistema deberemos tener en cuenta el tiempo de inactividad requerida para la subida de datos
  • El riesgo para el negocio derivado de problemas técnicos de compatibilidad, corrupción de datos, problemas de rendimiento de aplicaciones y pérdida u omisión de datos.
  • Disponer de un plan de contingencia o plan alternativo en caso que la subida de datos falle o haya afectaciones inesperadas a otras partes del sistema. Un posible plan alternativo puede ser deshacer la subida de datos y dejar el sistema tal y como estaba antes.

A parte de tener en cuenta los factores mencionados y realizar una planificación para que, en caso que algo falle, poder aplicar el plan alternativo y tener claras las posibles afectaciones, también podemos aplicar algunas acciones para minimizar el riesgo relativo al movimiento de datos.

Lo que podemos hacer para minimizar el riesgo en la subida de datos es:

  • Entender qué datos se están migrando (el contenido de los datos), el tipo de datos que son (datos numéricos, imágenes, audio, etc.), cuál es su fuente de origen y qué formato adquirirán estos datos en el sistema de destino una vez completada la transferencia.
  • Aplicar los procesos ETL (extracción, transformación y carga) preferiblemente antes de proceder a la migración a fin de poner un poco de orden y aplicar un filtro previo.
  • Definir e implementar las políticas de migración de datos para garantizar el orden necesario a lo largo de todo el proceso.
  • Realizar unas pruebas de validación de los datos migrados en el sistema destino y comprobar que todo lo que anteriormente funcionaba en este sistema sigue funcionando correctamente. Esta es la única  manera efectiva de asegurarse de que los datos reúnen todos los atributos de calidad necesarios y no ha habido ninguna afectación en el sistema. 

Errores a evitar en la subida de datos

Aunque existan unas mejores prácticas en la subida de datos y que aplicar unas acciones para minimizar el riesgo durante la subida, debemos estar alerta para evitar cometer algunos de los errores más comunes durante la subida. 

Estos errores que son demasiado comunes y podemos evitar son:

  1. No automatizar los procesos de migración de datos. Los procesos manuales siempre conllevan errores humanos y pérdida de tiempo, si no automatizamos el proceso perdemos eficiencia. 
  2. Ajustes económicos. Centrarse en el presupuesto y recortar de donde no se debería escatimar en gastos, como por ejemplo, en la automatización de procesos.
  3. Creer que se puede copiar un entorno sin ninguna tarea previa. Podríamos tener una idea errónea que sólo conllevaría problemas y pérdida de rendimiento.
  4. Correr riesgos. Cuando no se planifican correctamente las tareas aparecen siempre  problemas inesperados de todo tipo, interrupciones e incluso amenazas de seguridad.

¿Crees que un proceso de subida o migración de datos puede realizarse sin tener nada en cuenta y sin ninguna planificación previa? ¿Qué inconvenientes tendría esto para el negocio?

Curso relacionado: Curso Superior de Big Data

Comparte en:

Titulada en Ingeniería de Edificación e Ingeniería en Organización Industrial por la Universidad Politécnica de Cataluña y curso en Project Management. Experiencia en el área de Supply Chain y Logística en diferentes compañías así como delineante y técnica de proyectos.

Qué es el master data management en big data
07/03/2019
Thaís Balagueró

Qué es el master data management en big data

En este post hablaremos sobre la disciplina del Master Data Management en el contexto del Big Data o, de lo que es lo mismo, las grandes cantidades de datos

Sap Hana: sistemas estratégicos inteligentes
22/02/2019
Thaís Balagueró

Sap Hana: sistemas estratégicos inteligentes

En el post de hoy vamos a hablar de sistemas estratégicos inteligentes, sistemas inteligentes que automatizan el análisis, la gestión y la administración de la inf...

¿Por qué crece la demanda de expertos en Big Data?
08/02/2019
Carlos Yañez

¿Por qué crece la demanda de expertos en Big Data?

En este post hablaremos sobre la situación de la profesión de expertos en Big Data y trataremos de explicar por qué la demanda de expertos en el sector Big Data tie...