¿Qué son los datasets y los dataframes en el Big Data?
13/11/2018

¿Qué son los datasets y los dataframes en el Big Data?

Programación y Diseño Web

El lenguaje de programación en R fue desarrollado específicamente para el análisis estadístico y la visualización de datos, esto lo hace destacar en Big Data por su capacidad de realizar análisis de datos complejos.

Si nos centramos más en lo son un dataset y  un dataframe, ambos son utilizados para el almacenamiento de datos y más concretamente hacen referencia al tipo de estructura de datos que los soporta los datos.

A continuación explicamos en más detalle cada uno de estos términos y sus características principales.

 

¿Qué es un dataset?

El término dataset en sí es un término extranjero, un anglicismo, que hemos incorporado a nuestra lengua como un término más en los países hispanohablantes. Su traducción a nuestra lengua sería conjunto de datos y es una colección de datos habitualmente tabulada.

Un conjunto de datos o dataset corresponde a los contenidos de una única tabla de base de datos o una única matriz de datos de estadística, donde cada columna de la tabla representa una variable en particular, y cada fila representa a un miembro determinado del conjunto de datos que estamos tratando. En un conjunto de datos o dataset tenemos todos los valores que puede tener cada una de las variables, como por ejemplo la altura y el peso de un objeto, que corresponden a cada miembro del conjunto de datos. Cada uno de estos valores se conoce con el nombre de dato. El conjunto de datos puede incluir datos para uno o más miembros en función de su número de filas.

El dataset incluye también las relaciones entre las tablas que contienen los datos.

Si nos movemos en el contexto de Big Data, entendemos por dataset aquellos conjuntos de datos tan grandes que las aplicaciones de procesamiento de datos tradicionales no los pueden procesar debido a la gran cantidad de datos contenidos en la tabla o matriz.

Podríamos definir un  dataset como una colección o representación de datos residentes en memoria con un modelo de programación relacional coherente e independientemente sea cual sea el origen de los datos que contiene. 

Una de las principales características de los datasets es que ya tienen una estructura, a diferencia de los RDD,  conocidos como conjuntos de datos desestructurados y definidos  como una colección de elementos tolerante a fallos y son capaces de  operar en paralelo.

 

¿Qué es un dataframe?

El término dataframe, al igual que el término dataset, es un término extranjero que hemos incorporado en nuestra lengua y que no tiene una traducción exacta. Podríamos como hoja de datos o marco de datos.  Los dataframes son una clase de objetos especial en el lenguaje de programación R. 

Este tipo de organización de datos se utiliza normalmente cuando se realiza un estudio estadístico sobre los objetos de una muestra, la información y los datos de la muestra se organizan en un dataframe. Se organizan en una hoja de datos, en los que cada fila corresponde a un objeto de la muestra y cada columna a una variable. Esta característica de organización de datos es la misma que en los datasets.

Si hablamos de la estructura de un dataframe es muy similar a la de una matriz. Pero en una matriz solamente se admiten valores numéricos, a diferencia de la matriz, en un dataframe se puede incluir también datos alfanuméricos en su contenido. 

 

¿Qué diferencia un dataset de un dataframe?

Hemos visto ya que tanto un dataset como un dataframe son conjuntos de datos organizados en estructuras rectangulares en forma de tabla o matriz, que almacenan sus datos en filas y columnas y  con unas variables que corresponden a unos objetos.

Lo que diferencia a un dataframe de un dataset es que un dataframe es un dataset que a la vez está organizado en columnas, de modo que en el dataframe tendremos los datos estructurados y cada columna con su nombre correspondiente

Las matrices almacenan un único tipo de datos pero en las matrices del dataframe se aceptan valores alfanuméricos por lo que otra característica que les diferencia es que el dataframe puede contener distintos tipos de datos.

Esta organización nos facilitará y hará más sencillo consultar, modificar o transformar el conjunto de datos contenidos en la hoja de datos.

 

Si fueras el programador para el desarrollo de una solución Big Data que se desarrollará mediante lenguaje de programación R ¿qué estructura de datos escogerías: datasets o dataframes?

 

Curso relacionado: Curso Superior en Big Data 

Comparte en:

Titulada en Ingeniería de Edificación e Ingeniería en Organización Industrial por la Universidad Politécnica de Cataluña y curso en Project Management. Experiencia en el área de Supply Chain y Logística en diferentes compañías así como delineante y técnica de proyectos.

Big data y Hadoop
12/12/2018
Thaís Balagueró

Big data y Hadoop

En este post definiremos más en detalle que es Hadoop, cuando aparece y qué representa dentro de Big Data.

Tutorial Unity: cómo usar los If Statements
19/11/2018
Jordi Mula

Tutorial Unity: cómo usar los If Statements

Una de las estructuras que podemos encontrar de forma más habitual en un código de programación son las estructuras o sentencias condicionales. Vamos a ver con más...

La importancia del testeo en los videojuegos
05/11/2018
Jordi Mula

La importancia del testeo en los videojuegos

En este post conoceremos el trabajo de un testeador de videojuegos, en que fases se necesita hacer el testing en los videojuegos y realmente como se testan.