BIG DATA


Origen del Big Data

La historia del Big Data es muy poco conocida. Como sucede frecuentemente con las tendencias, parece que cuando explotan es algo muy novedoso que acaba de aparecer; pero en muchos casos son la eclosión de algo que ha estado madurando durante largo tiempo.
Como hemos comentado en otras ocasiones, el Big Data es el análisis de un gran volumen de conjuntos de datos. Para recolectar, tratar y analizar esa ingente cantidad de información se necesitan fórmulas de procesamiento potentes y rápidas. Por ello, estas técnicas parecen haber surgido recientemente, gracias a los avances tecnológicos.
Esto, en gran medida es así: el término se comienza a utilizar de forma generalizada a finales de los años 90 y el boom llega con los avances experimentados en campos como internet, dispositivos móviles y conexión. Sin embargo, la historia del Big Data se remonta a mucho antes.
Hay incluso quienes lo sitúan en el paleolítico, con una lógica que relaciona el término con el primitivo interés de los seres humanos por lograr y procesar la información. A continuación, ahondamos un poco más en esta cuestión compartiendo

La historia del Big Data:

 18000 AEC. En el Paleolítico Superior se empleaban rudimentarios métodos de almacenamiento de datos con el empleo de palos o muescas en huesos. Con este sistema, se podía llevar cuenta de provisiones, realizar cálculos básicos e incluso predecir necesidades de comida para el grupo. Quizá sea demasiado incluirlo en la historia del big data, pero es el primer momento documentado en el que la humanidad se interesa por los datos: el germen de todo lo que viene después. Si bien las cantidades no podían ser muy grandes, es la primera evidencia del interés por recopilar, contar y guardar datos.
2400 AC. En Babilonia se extiende el uso del ábaco, un sistema para realizar cálculos. En esta época surgen también las primeras bibliotecas como lugares para almacenar y consultar conocimiento.

48 AC. Los Romanos invaden Alejandría y accidentalmente destruyen su famosa biblioteca. Parte de los fondos se trasladaron a otros lugares, pero la mayoría de la colección fue quemada, perdida o robada. Hasta el momento, había logrado reunir medio millón de documentos con la intención de almacenar todo el conocimiento de la Humanidad.
Siglo II AC. Se desarrolla la primera computadora mecánica conocida en Grecia. El mecanismo de Anticitera era un aparato analógico de bronce diseñado para predecir posiciones astronómicas, probablemente una evolución de otros sistemas que no se han recuperado a día de hoy. Se empleó para el estudio astrológico y para marcar el calendario, fundamentalmente las fechas exactas de los antiguos Juegos griegos.

1663. John Graunt realiza el primer experimento de análisis de datos estadísticos conocido. Con los datos de defunciones, teoriza un sistema de alerta para la peste bubónica en toda Europa.
1792. Aunque hay constancia de análisis estadísticos desde las Guerras del Peloponeso y la palabra estadística se acuña en Alemania unos años antes; en 1792 se asocia el término a la “colección y clasificación de datos “.

1865. Aparece por primera vez el término business intelligence, en la enciclopedia comercial de Richard Millar Devens. En ella describe cómo el banquero Henry Furnese logró una importante ventaja competitiva recogiendo, estructurando y analizando datos clave de su actividad. La inteligencia de negocio es sin duda uno de los grandes motores de la analítica dentro de la historia del big data.

1880. Herman Hollerith, empleado del censo estadounidense, desarrolla su máquina tabuladora. Con ella consigue reducir un trabajo de 10 años a 3 meses. Este ingeniero funda una compañía que posteriormente se conocería como IBM.

1926. Nikola Tesla predice la tecnología inalámbrica. Según su visión, el planeta en un gran cerebro en el que todo está conectado, por lo que deberíamos ser capaces simplificar el uso del teléfono. Predice que cada hombre llevará uno en su propio bolsillo.

1928. El ingeniero alemán Fritz Pfleumer patenta el primer sistema magnético para almacenar datos. Sus principios de funcionamiento se utilizan hoy en día.

1944. Primer intento de conocer la cantidad información que se crea. Se trata de un estudio académico de Fremont Rider, que pronostica 200 millones de libros en la Universidad de Yale en 2040, almacenados 6.000 millas de estanterías.

1958. El informático alemán Hans Peter Luhn, define la inteligencia de negocio: la habilidad de percibir las interrelaciones de los hechos presentados para guiar acciones hacia un objetivo deseado. En 1941 pasó a ser Gerente de Recuperación de Información en IBM.

1962. Se presenta IBM Shoebox en la Expo de 1962. Creada por William C. Dersch supone el primer paso en el reconocimiento de voz, capaz de registrar palabras en inglés en formato digital.

1965. Se proyecta el primer data center en Estados Unidos, para guardar documentación de impuestos y huellas dactilares en cintas magnéticas. Un año antes comienzan a surgir voces que alertan del problema de guardar la ingente cantidad de datos generada.

1970. IBM desarrolla el modelo relacional de base de datos, gracias al matemático Edgar F. Codd. Este científico inglés es también responsable de las doce leyes del procesamiento analítico informático y acuño el término OLAP.

1976. Se populariza el uso de MRP (software de gestión de materiales), antecedentes de los ERP actuales, que mejoran la eficiencia de las operaciones en la empresa; además de generar, almacenar y distribuir datos en toda la organización.

1989. Erik Larson habla por primera vez de Big Data en el sentido que conocemos la expresión hoy en día. La revista Harpers Magazine recoge su artículo, en el que especula sobre el origen del correo basura que recibe. En torno a este año se empiezan a popularizar las herramientas de business intelligence para analizar la actividad comercial y el rendimiento de las operaciones.

1991. Nace internet, a la postre, la gran revolución de la recolección, almacenamiento y análisis de datos. Tim Berners-Lee establece las especificaciones de un sistema de red con interconexiones a nivel mundial accesible para todos en cualquier lugar.

1993. Se funda QlikTech, germen de la actual Qlik, que crea un sistema revolucionario de business intelligence (en 2012, Gartner comienza a hablar de business Discovery para definir ese tipo de análisis).

1996. Los precios del almacenamiento de datos empiezan a ser accesibles con un coste eficiente en lo que es una de las grandes revoluciones en la historia del big data. El libro La evolución de los sistemas de almacenamiento, de 2003, establece esta fecha como el primer año en el que el almacenamiento digital es más barato que el papel.

1997. Google lanza su sistema de búsqueda en internet y en los siguientes años será de largo el primer lugar al que acudir en busca de datos en internet. Este mismo año, se publica el estudio ¿Cuánta información hay en el mundo?, de Michael Lesk. La conclusión es que hay tanta y crece a tal velocidad, que gran parte de ella no será vista por nadie jamás.

1999. El término Big Data es analizado por primera vez en un estudio académico. La Asociación de Sistemas Informáticos recomienda centrarse en el análisis de información ya que existe gran cantidad de datos y no todos son útiles. Recuerdan el propósito de la computación, que es el entendimiento, no los números.

2001. Doug Laney, de Gartner, define las 3 V’s del Big Data. Este es un hito clave en la historia del big data. Se trata de tres conceptos que definen el término: volumen, velocidad y variedad. Al mismo tiempo, se populariza el concepto SaaS (software as a service).

2005. Nace la Web 2.0, una web donde predomina el contenido creado por los usuarios. Este mismo año se crea Hadoop, un entorno de trabajo Big Data de software libre.

2007. La revista Wired publica un artículo que lleva el concepto de Big Data a las masas.4

2010. Los datos que se generan en dos días equivalen a la cantidad de datos generados desde el inicio de la civilización hasta 2003, según Eric Schmidt (Google).

2013. El archivo de mensajes públicos de Twitter en la Biblioteca del Congreso de Estados Unidos llega a los 170 billones de mensajes, creciendo a ritmo de 500 millones al día. Según la institución que alberga algunos de los documentos históricos más importantes del mundo, dicho archivo ofrece una imagen más amplia de las normas culturales, diálogos, tendencias y eventos de hoy en día. De este modo, contribuye a una mejora de la información en procesos legislativos, educación, definición de autoría de nuevos trabajos y otras cuestiones.

2014. Los móviles superan a los ordenadores en accesos a internet. La conexión casi continua contribuye a generar muchos más datos y mejora la conectividad con otros dispositivos.
2016. El Big Data se convierte en la palabra de moda. Se generaliza la contratación de expertos en Big Data, el Machine Learning llega a las fábricas y el Internet de las Cosas empieza a impregnarlo todo.

2017. Los datos llegan a las masas. La gente controla sus patrones de descanso con pulseras, sabe en qué se gasta el dinero con aplicaciones móviles y se informa sobre la posesión de balón de su equipo de fútbol. Los datos están en todas partes y la población está ya predispuesta a usarlos.
Futuro. ¿Qué nos deparará el futuro? Muy difícil de pronosticar, pero seguramente un aumento de datos y la consiguiente necesidad de tecnología para recogerlos, adaptarlos, almacenarlos y analizarlos. La computación cuántica está a la vuelta de la esquina y la historia del big data sigue avanzando.

Características de la Big Data

Las características más importantes del Big Data perfectamente se pueden clasificar en cuatro magnitudes, más conocidas como las cuatro V del Big Data, relativas a volumen, variedad, velocidad y veracidad. A estas cuatro V, podemos añadir tres más, como pueden ser la de Viabilidad y Visualización. Pero si hablamos de V en Big Data no podemos dejar pasar la principal característica del análisis de datos que es la V de Valor de los datos. Así pues, en los últimos artículos se empieza a hablar, ya no de las tradicionales cuatro V de Big Data, sino de las 7 “V” del Big Data:

·        - Volumen
·       - Velocidad
·        - Variedad de los datos
·        -Veracidad de los datos
·         -Viabilidad
·        - Visualización de los datos
·        - Valor de los datos
- Volumen de información

El volumen se refiere a la cantidad de datos que son generados cada segundo, minuto y días en nuestro entorno. Es la característica más asociada al Big Data, ya que hace referencia a las cantidades masivas de datos que se almacenan con la finalidad de procesar dicha información, transformando los datos en acciones.

Velocidad de los datos
La velocidad se refiere a los datos en movimiento por las constantes interconexiones que realizamos, es decir, a la rapidez en la que son creados, almacenados y procesados en tiempo real.
Para los procesos en los que el tiempo resulta fundamental, tales como la detección de fraude en una transacción bancaria o la monitorización de un evento en redes sociales, estos tipos de datos deben estudiarse en tiempo real para que resulten útiles para el negocio y se consigan conclusiones efectivas.

Variedad de los datos
La variedad se refiere a las formas, tipos y fuentes en las que se registran los datos. Estos datos pueden ser datos estructurados y fáciles de gestionar como son las bases de datos,  o datos no estructurados, entre los que se incluyen documentos de texto, correos electrónicos, datos de sensores, audios, vídeos o imágenes que tenemos en nuestro dispositivo móvil, hasta publicaciones en nuestros perfiles de redes sociales, artículos que leemos en blogs, las secuencias de click que hacemos en una misma página, formularios de registro e infinidad de acciones más que realizamos desde nuestro Smartphone, Tablet y ordenador.

Veracidad de los datos
Cuando hablamos de veracidad nos referimos a la incertidumbre de los datos, es decir, al grado de fiabilidad de la información recibida.
Es necesario invertir tiempo para conseguir datos de calidad, aplicando soluciones y métodos que puedan eliminar datos imprevisibles que puedan surgir como datos económicos, comportamientos de los consumidores que puedan influir en las decisiones de compra.

Viabilidad
La inteligencia empresarial es un componente fundamental para la viabilidad de un proyecto y el éxito empresarial. Se trata de la capacidad que tienen las compañías en generar un uso eficaz del gran volumen de datos que manejan.
La inteligencia competitiva también se asocia con la innovación de los equipos de trabajo y el uso de tecnologías empleadas. Una empresa inteligente analiza, selecciona y monitoriza la información con el fin de conocer mejor el mercado en el que opera, a sus clientes y diseñar estrategias eficaces.
Visualización de los datos

Cuando hablamos de visualización nos referimos al modo en el que los datos son presentados. Una vez que los datos son procesados (los datos están en tablas y hojas de cálculo), necesitamos representarlos visualmente de manera que sean legibles y accesibles, para encontrar patrones y claves ocultas en el tema a investigar. Para que los datos sean comprendidos existen herramientas de visualización que te ayudarán a comprender los datos gráficamente y en perspectiva contextual.

Valor de los datos
El dato no es valor. Tampoco tienes valor por el mero hecho de recopilar gran cantidad de información. El valor se obtiene de datos que se transforman en información; esta a su vez se convierte en conocimiento, y este en acción o en decisión. El valor de los datos está en que sean accionables, es decir, que los responsables de la empresa puedan tomar una decisión (la mejor decisión) en base a estos datos.

Tecnología del Big data

Las tecnologías Big Data resuelven los problemas de procesado de forma diferente, aplicando técnicas como el MapReduce son capaces de fraccionar el procesado de un set de datos y distribuirlo en un clúster de máquinas.

Los clústeres pueden tener tamaños muy grandes, algunas corporaciones tienen clústeres de más de mil máquinas, con lo cual, tienen disponibles varios miles de microprocesadores para realizar tareas de procesado de datos.

Estas tecnologías, combinadas con las plataformas ofrecidas por los proveedores de servicios en la nube, permiten adaptar el tamaño del clúster en tiempo real, en función de las necesidades puntuales de procesamiento. De este modo es posible adaptar los sistemas a flujos de datos variables, lo que permite aumentar el tamaño del clúster para absorber picos de datos elevados en momentos puntuales, y disminuirlo cuando las necesidades de procesado disminuyan. La flexibilidad es enorme y permite optimizar los costes de uso de estas tecnologías haciéndolas accesibles a cualquier corporación.

Algunas de las tecnologías de procesado de datos más utilizadas en la actualidad son Hadoop MapReduce, Apache Spark o Apache Lynx.

Consecuencias del Big data

En muchos sentidos, la nuestra es la era de las grandes corporaciones digitales. Facebook tiene casi 1.750 millones de usuarios; Instagram, casi 500; LinkedIn, 450; Twitter, más de 300. En 2015 se invirtieron en Estados Unidos casi 60.000 millones de dólares en anuncios en soporte digital; un 64% de ellos fueron a parar a Google y Facebook. La capitalización bursátil de Amazon supera a la de Walmart, la primera cadena de supermercados estadounidense. La de Apple es más alta que el PIB de Holanda o Bélgica.

Las consecuencias de estos datos son evidentes en la economía, en el ocio y en la cultura. Pero también en la política: no ya solo en las campañas electorales, en las que se sustituye el cartel por el post, sino también en áreas mucho más complejas, que van de la sanidad al espionaje. En el centro de todo ello está el big data, las inmensas bases de datos que permiten a empresas y estados conocer con mucha precisión nuestras conductas, preferencias y opiniones. Por supuesto, el tratamiento de estas bases de datos está teniendo ya usos positivos, en el plano de la frivolidad o de la transcendencia: las aplicaciones de música a la carta saben tan bien nuestros gustos que nos recomiendan nuevos grupos mejor de lo que podrían hacerlo nuestros amigos; lo mismo sucede con las librerías online y sus sugerencias o todas aquellas apps relacionadas con la salud, que nos pueden empujar a mejorar nuestros hábitos recordándonos que hemos sido sedentarios o hemos comido de más.

La injerencia de la vida electrónica en la vida en general arrastra también consecuencias nefastas. Las más visibles se dan en las redes sociales. Su enorme plasticidad les permite transmitir las mejores piezas de periodismo, los más ligeros entretenimientos o la propia intimidad. Pero más allá de eso está el modo en que son utilizadas para la propaganda política, la desinformación y el envenenamiento a base de bulos. Nada que no hicieran los periódicos o las barras de los bares, pero esta vez a una escala prodigiosamente masiva que puede alterar la siempre volátil opinión pública. Así ha sucedido con filtraciones recientes, mezcla de periodismo de la mejor calidad con frívolas revelaciones de datos intrascendentes de personajes públicos. Y también con asuntos más delicados como la propaganda de guerra o la ubicación de objetivos. Singularmente en países con democracias muy precarias o en abiertas dictaduras, como Rusia o China, las redes sociales y las nuevas tecnologías relacionadas con los datos no están sirviendo, como se esperó, para hacer sociedades más abiertas, sino para fomentar el oscurantismo desde los poderes del Estado y de las empresas por ellos sometidas.

Fortalezas y debilidades del Big data

Debilidades
El Big Data promete cambiar el mundo, pero una frase se repite cada vez con más insistencia: Big Data es igual a Big Risks. Dejemos de lado las (muchas) ventajas del análisis de grandes conjuntos de datos. Estos son los riesgos que se asocian indefectiblemente con el Big Data.
La seguridad

Los ciberataques a grandes corporaciones han llenado portadas en el último año. Programas maliciosos como WannaCry o Petya pusieron el acento en los datos y en su valor para las compañías. Sin embargo, la gran mayoría de brechas en la ciberseguridad se producen en las pequeñas y medianas empresas.

La privacidad

Al hablar de datos y robo de información, no se puede pasar de puntillas por la privacidad de empresas y usuarios. Y es que uno de los grandes problemas del Big Data es, como explica el analista Taylor Armending, asegurar que los datos guardados sean anónimos.

Según él, a medida que más y más dispositivos personales contribuyan al torrente de datos se hará más difícil mantener el anonimato y la privacidad. Una cosa es que las empresas, de forma intencionada, rechacen acceder a la información personal que también forma parte del Big Data, pero eso no significa que estos datos no se acumulen y que, llegado el caso, alguien los pueda utilizar.

Fortalezas

Mejora en la toma de decisiones
En la denominada como “Era de los datos”, éstos son considerados ya como el nuevo petróleo ¿Qué implica esto? Disponer de un gran volumen de datos estructurados que se puedan interpretar ayuda a las organizaciones a poder tomar una decisión.
Feedback a tiempo real
Incluso en los momentos en los que es necesario tomar una decisión inmediata, el Big Data es un arma muy poderosa puesto que permite recibir y procesar los datos a tiempo real y contar con la información necesaria rápidamente. El Big Data es por encima de todo una tecnología ágil y veloz que permite permite por ejemplo obtener información a tiempo real del lanzamiento de un producto o el resultado de una estrategia.

Conocimiento del mercado
El conocimiento del mercado en el que se opera puede ayudar no solo a la toma de decisiones, sino también a la localización de posibles oportunidades mediante el tratamiento de estos datos estructurados y comparables. También puede ayudar a predecir posibles escenarios e incluso a conocer mejor a a los consumidores, mediante un análisis segmentado.

Ventajas y desventajas del Big data

Como te contábamos anteriormente las posibilidades del Big Data, como tecnología destinada a la obtención y procesamiento de datos, están revolucionando campos tan variados como el financiero, el empresarial e incluso el sector de la salud. Estos sistemas de datos facilitan la toma de decisiones y conllevan una serie de ventajas competitivas, pero no están ajenos a inconvenientes.
El desarrollo y aplicación de esta ciencia de datos requiere de expertos formados en un Máster en Big Data que conozcan en profundidad sus pros y contra. En el siguiente artículo te acercaremos a esta visión profesional descubriendo las ventajas y desventajas del Big Data.

Ventajas

   -  Mejora en la toma de decisiones. Disponer de un gran volumen de datos estructurados que se puedan interpretar ayuda a las organizaciones a poder tomar una decisión.

2  -  Feedback a tiempo real. La tecnología Big Data permite no solo almacenar y procesar datos. También supone recibir datos a tiempo real y contar con la información necesaria rápidamente. El Big Data es por encima de todo una tecnología ágil y veloz que permite, por ejemplo, obtener información a tiempo real del lanzamiento de un producto o el resultado de una estrategia


3    -  Conocimiento del mercado. La obtención y seguimiento de datos del Big Data permite conocer a los consumidores y adelantarse a sus necesidades, así como detectar tendencias en consumo o fallos en la atención al cliente. La inclusión de profesionales con un Máster en Big data supone a permite a las empresas localizar de posibles oportunidades mediante el tratamiento de estos datos estructurados y comparables.

4   - Tecnología del presente y del futuro. La ciencia de datos comienza a ser un elemento diferenciador y de éxito entre las empresas. También empiezan a experimentarse sus ventajas de aplicación en otros campos como la medicina. La tecnología del Big Data está en constante evolución y todo apunta a que jugará un papel todavía más importante en la toma de decisiones futuras.


Desventajas

1 -   La utilidad del Big Data surge de su capacidad para extraer información de los datos. Si estos datos se almacenan y analizan indiscriminadamente solo se convierten en ruido que ralentizará y obstaculizará las tareas. Los profesionales con Máster Big Data obtienen la capacidad de discernir y seleccionar las datos y patrones que serán de utilidad.

2   _   La seguridad es el mayor reto para la tecnología Big Data. La vulnerabilidad de esta enorme cantidad de datos almacenados es el objetivo de los nuevos ciberataques. Reconocer la responsabilidad de trabajar con datos y dotar los sistemas de normas y herramientas, son aspectos clave de la formación en un Máster en Big data.

3  - En relación con lo anterior, y como ocurre con muchos de los grandes avances tecnológicos, son necesarios consensos y protocolos que establezcan hasta qué punto esta tecnología podría considerarse intrusiva y cómo protegerla.

4    - como consecuencia de los mitos sobre el Big Data que, por sus desventajas, existen reacciones desfavorables por parte de los usuarios, que consideran que vulnera su privacidad. Lo que estos usuarios probablemente no sepan, es que la tecnología de datos lleva años entre sus acciones cotidianas permitiendo avances destinados a facilitar su día a día.

Utilidades del Big data

Es lo que se empieza a conocer como Smart Data, datos que ayuden en la toma de decisiones y que aporten valor. Es decir, información que, una vez analizada, pueda ser utilizada por cualquiera para tomar mejores decisiones. Todo esto, según la consultora IDC, para conseguir una serie de ventajas competitivas como:

·         Mejorar la relación con el cliente
·         Ganar en eficiencia en las operaciones de tecnologías de la información
·         Reducir los riesgos para las empresas
·         Mejorar la operación de procesos y reducir costes
·         Definir nuevos modelos, negocios o procesos para el futuro
“Las grandes ventajas están identificando las necesidades de los clientes. El Big Data aporta si es desde la perspectiva de negocio, si se conoce el problema a resolver. Desde Big Data traducimos en algoritmos las necesidades que nos plantean”, nos explicaba Carmen Reina, Manager Data Scientist de Orange España. Y esto vale tanto para grandes como para pequeñas empresas. Vamos con los ejemplos.

Hasta ahora, hemos deambulado por conceptos y definiciones más o menos generales. Estos son algunos de los usos concretos del Big Data, su verdadero potencial mostrado a través de empresas que ya lo están poniendo en práctica.
Mejorar la producción y la toma de decisiones. Cada vez más fábricas apuestan por el Big Data para ser más competitivas. En España hay multitud de ejemplos, como el de Confectionary Holdings (turrones El Lobo) o la plataforma Mesbook, que utilizan los datos obtenidos en la fábrica, a través de sensores instalados en las máquinas, para optimizar sus procesos. Además, toda esta información mejora la toma de decisiones y, sobre todo, la descentralizada. La persona que lo necesita, tiene acceso a los datos analizados para decidir conociendo todas las variables. Es el cambio de la intuición y el instinto por la inteligencia de los datos de la industria 4.0.

Mejorar la relación y el contacto con el cliente. Conocer al consumidor es clave para cualquier negocio. A través del análisis de Big Data, se puede personalizar su experiencia, analizar sus motivaciones, darle una mejor asistencia o reforzar su retención. La cadena de supermercados Kroger ha usado Big Data para personalizar sus campañas de marketing logrando una tasa de retorno del 70%. Desigual utiliza el análisis de datos masivos para diseñar sus productos conforme a los gustos de su consumidor objetivo.
Aumentar la competitividad de las industrias tradicionales. Sectores que se tienen por menos innovadores, como la agricultura, también están aplicando el análisis de Big Data para ser más competitivos. Como en el caso de la bodega Pago de Carraovejas, muchas explotaciones agrícolas apuestan por la precisión en sus cultivos y la mejora de la calidad del producto. ¿Cómo? Ajustando
al detalle las cantidades de agua y fertilizantes, creando microcultivos en función del terreno, anticipándose a cambios meteorológicos e, incluso, prediciendo cosechas.

¿Y las pymes? Sí, aunque pueda sonar lejano, el Big Data también es para la pequeña y mediana empresa. A través de multitud de herramientas, muchas de ellas gratuitas, una pyme puede saber quién entra, cuándo entra, cómo entra, por qué entra y qué hace en su web o cómo interactúa con sus redes sociales. Y, lo más importante, puede llevar a cabo un registro y análisis completo de todas las transacciones empresa-cliente, desde el primer contacto hasta la venta final.

No hay comentarios.:

Publicar un comentario