Imagen de avatar finanzas puras
Johana Q

Big Data alta información

Definición

Los datos grandes son un término reciente y por lo tanto no existen en la mayoría de los diccionarios estadísticos. Son datos multivariados y de gran tamaño, generalmente creados en tiempo real y tienen un crecimiento exponencial (en la escala de tiempo), denominado megadatos[9].

Cuantos más datos se generen, mayor será el esfuerzo por extraer información[7], y los centros de datos tuvieron que aprender a lidiar con el crecimiento exponencial de los datos generados y tuvieron que desarrollar herramientas que iban más allá de las bases de datos relacionales y los sistemas paralelos de bases de datos[2]. Así, la rapidez en la obtención de la información es parte del éxito que los grandes datos pueden proporcionar en su empresa[7]. El concepto de datos grandes fue definido inicialmente por 3’V[7] pero la literatura mostró que su concepto puede ser expandido a 5’V[10], representado por los siguientes conceptos[7]:

Volumen: relacionado con la gran cantidad de datos generados;
Variedad: las fuentes de datos son muy variadas, lo que aumenta la complejidad de los análisis;
Rapidez: Debido al gran volumen y variedad de datos, todo el procesamiento debe ser ágil para generar la información necesaria;
Veracidad: La veracidad está directamente relacionada con cuánta información es verdadera.
Valor: Este concepto está relacionado con el valor obtenido de estos datos, es decir, con la “información útil”.

Historia

Concepto de construcción

El término datos grandes tiene un concepto relativo, ya que su tamaño depende de quién está utilizando los datos[11]. En este contexto, el primer informe sobre el uso de estadísticas para obtener información sobre grandes cantidades de datos se remonta a 1663. Este año, John Graunt utilizó una gran cantidad de información, de diferentes fuentes, para estudiar la epidemia de peste bulbónica en Europa. Para Graunt, su cantidad de datos podría ser considerada como datos grandes[12].

El uso del primer equipo para procesar datos se remonta a 1890, durante el Censo de los Estados Unidos, realizado por la Oficina del Censo de los Estados Unidos[13]. En ese momento, la Tabulation Machine redujo el tiempo de procesamiento de datos a sólo 6 semanas[14]. Sin embargo, fue sólo en el siglo XX cuando empezaron a surgir los primeros sistemas de almacenamiento de información. En 1927, el ingeniero Fritz Pfleumer creó un método para almacenar información en cintas magnéticas[11].

Durante la Segunda Guerra Mundial, se creó la primera máquina digital de procesamiento de datos. Fue en 1943, cuando los británicos desarrollaron un sistema para descifrar los códigos nazis durante la Segunda Guerra Mundial. El nombre de la máquina era Colossus, que podía interceptar mensajes a una velocidad de 5000 caracteres por segundo[15]. El primer organismo público creado específicamente para el procesamiento de datos, la Agencia de Seguridad Nacional de Estados Unidos (NSA), fue fundado en 1952 para procesar datos automáticamente y obtener información relacionada con la inteligencia durante la Guerra Fría[16].

Uno de los primeros Centros de Datos fue creado en 1965, también por el gobierno de los Estados Unidos, con el propósito de controlar el pago de impuestos y las huellas dactilares de los estadounidenses[15]. Este centro de datos tenía el mismo estándar que las bases de datos creadas hasta la década de 1970. Se trataba de bases de datos centralizadas, donde la misma máquina era responsable del uso, almacenamiento y análisis de los datos[2]. Con el aumento de la cantidad de datos, comenzaron a surgir nuevas arquitecturas de datos que permitirían procesar y analizar estos datos. En los años 80 comenzaron a surgir los Sistemas Paralelos de Bases de Datos[17]. En este caso, en lugar de una base de datos centralizada, cada procesador se comunica con los demás sólo enviando mensajes a través de una red interconectada. Las primeras bases de datos paralelas permitieron la creación de la primera base de datos con capacidad en terabytes, por KMART, en 1986[2].

En 1989, el científico británico Tim Berners-Lee creó la World Wide Web para facilitar el intercambio de información entre personas. Lo que Tim Berners-Lee no sabía era que su invento revolucionaría la forma en que se generaban los datos y la cantidad de datos que se creaban[18]. La creación de la Web 2.0 ayudó a aumentar los datos[15]. El término big data fue utilizado por primera vez en 1997[5], sin embargo, el nombre comenzó a ser utilizado oficialmente en 2005, cuando Roger Mougalas de O’Reilly Media publicó un artículo mencionando el tema[19].

Evolución tecnológica del almacenamiento y procesamiento

Los datos que agregan el gran conjunto de datos provienen de varias fuentes. De esta manera, normalmente no presenta una estructura bien definida, es decir, no puede ser almacenada en los sistemas de bases de datos estándar, como el Sistema de Gestión de Bases de Datos Relacionales (SGBDR), donde los datos son representados por tablas, con varias filas y columnas[20]. Los científicos de datos comenzaron a verificar que las bases de datos relacionales no podían soportar esta gran cantidad de datos no estructurados. D

Una respuesta para “Big Data alta información”

  1. Hola, esto es un comentario.
    Para borrar un comentario simplemente accede y revisa los comentarios de la entrada. Ahí tendrás la opción de editarlo o borrarlo.

Deja un comentario