datos masivos en internet

El tesoro de los datos masivos

 

Google procesa cerca de 25 petabytes de datos al día. Para entender lo que esto significa, considérese que una película de hora y media en formato digital puede comprimirse en un archivo de un gigabyte. Un petabyte equivale a un millón de gigabytes. Así pues, cada dos días, una única compañía obtiene y almacena una cantidad de datos equivalente a todos los libros escritos en la historia de la humanidad desde que se tienen registros.

 

Por su parte, los 1.200 millones de usuarios de Facebook comparten más de diez millones de fotos cada hora y hacen clic en el botón Me gusta o insertan un comentario casi tres mil millones de veces al día. En YouTube, también propiedad de Google, se sube más de una hora de vídeo cada segundo. En el 2012, Twitter registró más de 400 millones de mensajes al día. El tráfico de esta red social crece un 200% al año. Esta cifra es uno de los principales argumentos que sustentan su oferta para cotizar en la Bolsa de Nueva York, con la que espera recaudar hasta 1.600 millones de dólares pese a ser un compañía que prácticamente no da beneficios. Su valor oculto está en el rastro en forma de datos que dejan las interacciones que se producen en su plataforma.

 

Los gigantes de internet, y especialmente Google, son el modelo perfecto de compañías de datos masivos, pero no son los únicos que están sacando provecho del cambio de paradigma que significa el 'big data'. Este concepto se emplea para referirse a los grandes volúmenes de información que se registran y almacenan permanentemente en todo el mundo, así como a los sistemas y las herramientas que sirven para analizar y extraer valor de esta información. Las compañías tecnológicas lideran hoy esta industria por la facilidad con la que recopilan datos de sus usuarios a través de internet. Pero no están solas en el negocio.

 

ESPIONAJE MASIVO.- Recientemente, el caso Snowden ha puesto en evidencia que hay un beneficiario secundario de la explotación de este océano de información supuestamente privada: los gobiernos de las grandes potencias mundiales, que desarrollan programas de espionaje masivos para recolectar datos de correos electrónicos y teléfonos móviles (incluyendo los de los líderes, como Angela Merkel). Las informaciones reveladas en estos últimos meses han demostrado que Google, Facebook, Microsoft, Apple y otros proveedores de servicios digitales entregaron –de modo voluntario u obligado– ingentes volúmenes de datos personales a la Agencia de Seguridad Nacional de Estados Unidos (NSA) y a su homónima británica. La dimensión del espionaje es difícil de imaginar, pero sirva como muestra una de las últimas filtraciones que afecta a España: la NSA interceptó más de 60 millones de llamadas telefónicas en sólo un mes, entre diciembre del 2012 y enero del 2013.

 

Pero ¿cuál es el valor real de los datos masivos? ¿Por qué ese afán por recolectar y acumular toda esta información? Las respuestas varían en función del campo de actuación de quienes se dedican a trabajar con los datos, pero todas ellas tienen un elemento en común: la finalidad última es aumentar la eficiencia en el proceso de toma de decisiones. Hasta ahora,la información era escasa, cara y difícil de conseguir. En consecuencia, el objetivo de las investigaciones basadas en datos era que estos fueran de buena calidad para que los resultados fueran válidos. Pero en los últimos años se ha producido un cambio de escala en el volumen de información que se produce y se almacena. La cantidad de información generada en todo el mundo se duplica cada dos años, y la capacidad de procesamiento de los ordenadores crece aun más deprisa. Cada vez es más simple y más barato guardar datos. Esto implica un cambio de esencia en el modo de analizarla información que no sólo está empezando a transformar organizaciones y mercados, sino que afecta también a los fundamentos de la organización social: la sanidad, la política, la educación, la cultura e incluso los comportamientos individuales y la forma de relacionarnos. En esta nueva era de la 'datificación', todo (incluso nuestro estado de ánimo, que revelamos a través de las redes sociales) se puede convertir en un formato cuantificado para su tabulación y análisis.

 

Viktor Mayer-Schönberger, profesor de Regulación y Gestión de Internet en la Universidad de Oxford, y Kenneth Cukier, editor de datos de la prestigiosa revista 'The Economist, mantienen en su ensayo Big Data. La revolución de los datos masivos' (Turner Publicaciones, 2013) que los datos masivos suponen un drástico cambio de enfoque en la forma de ver el mundo. Los seres humanos estamos configurados para buscar causalidades, el porqué de las cosas. Sin embargo, el valor dela información reside ahora en las correlaciones. Es decir, en las relaciones estadísticas que se establecen entre diversos valores de datos y que permiten descubrir patrones ocultos entre la marabunta de información disponible. Las predicciones basadas en correlaciones son el núcleo de los datos masivos, según estos dos expertos en la materia. “No hace falta explicar las razones que subyacen en las correlaciones. No son intuitivas, simplemente existen”, dice el profesor Mayer.

 

Los ejemplos que ilustran la eficacia de los análisis basados en 'big data' son innumerables. Muchos de ellos están presentes en nuestras actividades cotidianas, aunque no lo apreciemos. Cuando nos comunicamos a través de un servicio de mensajería instantánea como WhatsApp, a menudo cometemos errores al teclear. Aun así, la propia aplicación es capaz de interpretar qué queríamos escribir y sugerirnos el modo correcto de expresarlo. Esta característica es una variante de la función 'autocompletar' de Google. El motor de búsqueda basa sus predicciones en los datos obtenidos a través de las tres mil millones de consultas que gestiona a diario. El resultado es el corrector ortográfico más útil del mundo, en todos los idiomas: al introducir un criterio de búsqueda escrito de manera incorrecta, el algoritmo de Google detecta el error y muestra los resultados de la consulta que interpreta que pretendíamos realizar. Casi siempre acierta.

 

El sistema de traducción automática de Google es otro ejemplo de uso del 'big data'. En el 2006, Google lanzó su traductor con el objetivo de “organizarla informacióndel mundo y hacerla universalmente accesible y útil”. Para lograrlo, volcó todo el contenido global de internet en su sistema, desde informes oficiales idénticos traducidos en varios idiomas hasta páginas web corporativas y personales que incluían traducciones de baja calidad. Pese a lo caótico dela informaciónque se le aportó, el servicio de Google es el que mejor funciona. Sus traducciones, aunque imperfectas, son más precisas que las de otros sistemas porque Google trata el lenguaje como un conjunto de datos confusos con los que estimar probabilidades. Además, es mucho más flexible. El traductor es capaz de establecer correlaciones con el fin de calcular, por ejemplo, las opciones de que una palabra siga a otra en inglés, o de interpretar cuándo la palabra 'light' significa ligero y cuándo se refiere a la luz. En un artículo titulado “La efectividad irrazonable de los datos”, Peter Norvig, científico informático y exdirector de calidad de búsqueda en Google, resumía de este modo la clave del éxito de este servicio: “Los modelos simples y con un montón de datos vencen a los sistemas más elaborados basados en menos datos”. Más es mejor.

 

El 'big data' es la base de las estrategias de negocio de cada vez más compañías. En Amazon, pionera en la industria del comercio electrónico, la tercera parte de las ventas son resultado de su sistema de recomendación y personalización, que se nutre de las rutinas de navegación y compra de sus usuarios. En Netflix, el videoclub on line más popular, las tres cuartas partes de los pedidos surgen de las recomendaciones. Las conclusiones que aporta el estudio de datos masivos generan negocio para Amazon, pero la transformación que esto implica va mucho más allá. En sus inicios, Amazon era reconocida por la calidad de las críticas de sus editores. Cuando a Jeff Bezos, fundador y CEO de la tienda on line, le mostraron la extraordinaria diferencia entre las ventas directas que generaba el sistema de recomendaciones respecto al modelo basado en el conocimiento de los críticos, estos fueron inmediatamente despedidos. Amazon aplica a rajatabla una de las doctrinas del big data: lo importante es encontrar el qué, sin que importen las causas. No hay necesidad de comprender qué motiva a los clientes. Esta manera de comprender los negocios prescinde casi completamente del toque humano. Y funciona. No en vano, Amazon ha desplazado del mercado a librerías y tiendas de discos en todo el mundo. No resulta osado prever que Bezos aplicará sus ideas a la industria de los medios, en la que entró el pasado verano tras adquirir uno de los diarios con más solera del mundo, The ­Washington Post.

 

EL CARRITO DE LA COMPRA.- Las grandes empresas que operan fuera de internet también han descubierto las ventajas de explorar la minería de datos. Walmart, el mayor minorista del mundo, revisó en el 2004 el contenido de sus gigantescas bases de datos de antiguas transacciones: qué artículo había comprado cada cliente y cuánto había pagado por ello, qué más había en el carrito de la compra, el mes, día y hora de la transacción, el método de pago e incluso otros datos adicionales sin interés aparente, como el tiempo que hacía en el momento de la compra. Así, observó que antes de un huracán no sólo aumentaban las ventas de artículos de bricolaje, sino también las de Pop-Tarts, una marca de galletas dulces. Desde entonces, cuando se avecinaba una tormenta, Walmart colocaba cajas de Pop-Tarts junto a los básicos para huracanes y cerca de la caja registradora. De esa manera, sus ventas aumentaron notablemente.

 

Otro episodio citado por el periodista ganador de un Pulitzer Charles Duhigg en su libro 'The Power of Habbit' hace referencia a uno de los casos paradigmáticos del uso del 'big data' para hacer negocios. Se trata de la cadena de tiendas de descuento Target, que aplica un método de analítica predictiva basado en el análisis de todos los datos que es capaz de recabar de sus compradores con la finalidad de adelantarse a sus necesidades. Examinando el historial de compras de sus clientas, Target puede saber cuándo una mujer está embarazada antes incluso de que esta se lo comunique a sus allegados. Duhigg explica la historia de un padre que se quejó muy airadamente a Target cuando descubrió que su hija adolescente recibía cupones de descuento para ropa de bebé. Pocos días después, el hombre se disculpó; efectivamente, la joven estaba embarazada, y su patrón de búsquedas (cremas sin perfume, suplementos nutricionales, regalos para recién nacidos, etcétera) la había delatado.

 

NUEVOS RETOS.- Las aplicaciones del 'big data' abarcan casi todo el elenco de actividades económicas y sociales del mundo actual. No obstante, aún son muy escasas las empresas y las organizaciones capaces de aprovechar los retos que plantea este nuevo ecosistema. En los negocios, las compañías que explotan esta mina de oro de los datos masivos pueden obtener importantes ventajas competitivas. David Harding, fundador y presidente de Winton Capital Management, es uno de los inversores más ricos de la City de Londres. En su firma de gestión de inversiones trabajan cerca de un centenar de científicos de datos dedicados a recopilar información y crear algoritmos matemáticos que desvelen patrones sobre cualquier cosa que se compre y se venda. Sólo en el 2010 este método le proporcionó beneficios superiores a los 70 millones de euros, más que ningún otro 'hedge fund'.

 

Otro sector que obtiene pingües beneficios del análisis de datos es el del marketing. Hay compañías que ejercen de mercaderes de datos personales. Recogen la información en internet, con el consentimiento de los usuarios o sin él (a través de las 'cookies'), aplican algoritmos de análisis a este descomunal volumen de datos y venden la información procesada al mejor postor. Por ejemplo, a los anunciantes interesados en aumentar la eficiencia de la publicidad digital. Así, por ejemplo, cada vez que los usuarios de las aplicaciones para 'smartphones' que registran la actividad física comparten en Facebook sus sesiones de 'running', los intermediarios convierten estos datos brutos en información relevante para que las grandes marcas sepan cuándo, dónde y a quién mostrar el anuncio del último modelo de sus zapatillas deportivas.

 

En este nuevo mercado, el valor se desplaza hacia quienes controlan los datos, y los datos se convierten en una nueva fuente de ingresos. En octubre del 2012, Telefónica creó una nueva “unidad de negocio global”, Telefónica Dynamic Insights, destinada a interpretar, analizar y vender datos anónimos y agregados de sus abonados. En el comunicado de su lanzamiento, la operadora española explicaba que los destinatarios de estos datos analíticos serían empresas privadas y organismos públicos, que así lograrían “mejorar su gestión”. Este uso secundario de los datos para fines “novedosos” es lo que expertos como Viktor Mayer y Kenn Cukier denominan “valor de opción” de los datos. En este caso, los establecimientos comerciales acaban reutilizando la información personal de los abonados a la compañía telefónica para realizar ofertas adaptadas a cada una de sus tiendas o determinar las mejores localizaciones y los formatos más apropiados para la apertura de nuevos locales.

 

Pero sin duda, el gran riesgo de la adopción del 'big data' como motor de transformación de actividades económicas y sociales está en su capacidad intrínseca para predecir el comportamiento humano, y en los abusos que pueden derivarse del mal uso de esta información: “El verdadero peligro del big data radica en el uso de las predicciones probabilísticas con fines causales”, alerta el profesor Mayer. Es decir, la propensión de juzgar y castigar a las personas sobre la base de lo que revelan los datos. La película de ciencia ficción 'Minority Report', dirigida por Steven Spielberg y protagonizada por Tom Cruise, trata exactamente de eso: autoridades que detectan la probabilidad de que una persona cometa un delito y la detienen antes de que suceda. En la película, las predicciones las hacen tres adivinos videntes, pero en la vida real se pueden llegar a conclusiones parecidas de la mano del 'big data'.

 

En Estados Unidos ya hay varios experimentos en marcha que recorren este peligroso sendero. La primera secuencia del interesantísimo documental de la 'BBC The Age of Big Data' muestra cómo los agentes del departamento de Policía de Los Ángeles (California, EE.UU.) reciben cada mañana un mapa en el que aparecen marcadas las zonas de la ciudad en las que, según un análisis basado en datos masivos, existe una alta probabilidad de que se produzcan delitos. En otros estados, las juntas de libertad condicional toman decisiones según los indicadores que muestran este tipo de estudios. Richard Berk, un profesor de Criminología de la Universidad de Pensilvania, desarrolló en el 2010 un software que predice con una probabilidad del 75% quiénes de las personas que están en régimen de libertad condicional cometerán un homicidio. De momento, en su estado natal ya se aplica una variante de esta idea que sirve para reforzar la vigilancia sobre los exreclusos en libertad condicional que el programa identifica como potenciales asesinos. Huelga decir que el uso generalizado de estos sistemas no sólo supone un arma deshumanizadora, sino que además contraviene un principio básico de la justicia como es la presunción de inocencia, además de negar el libre albedrío del ser humano.

 

Mònica Garriga, periodista y promotora a través de la organización Media 140 de la Big Data Week, que se celebra anualmente en decenas de ciudades de todo el mundo, incluidas Madrid y Barcelona, hace hincapié en la necesidad de aportar una mirada ciudadana a la revolución que supone el 'big data': “Es necesario que los ciudadanos entendamos cómo nos afecta el 'big data'. Como sociedad, no nos podemos permitir que sólo las grandes multinacionales y los gestores públicos manejen estas tecnologías, porque si no, sólo ellos tomarán decisiones sobre algo que afecta a todo: la educación, la cultura, la administración pública, el modo de construir comunidades, cómo transmitimos valores, etcétera”.

 

MEJORAS SOCIALES.- Afortunadamente, no todos los usos del 'big data' están únicamente al alcance de los poderosos o enfocados a hacer negocio a costa de la privacidad de los ciudadanos. En muchos casos, los proyectos basados en datos masivos suponen extraordinarias mejoras para la sociedad. Los estudios científicos relacionados con el genoma humano, que han supuesto grandes avances en el diagnóstico y el tratamiento de las enfermedades más dañinas para el hombre, están basados en el 'big data'.

 

Asimismo, el uso de las nuevas tecnologías para recolectar información médica de los habitantes de países en vías de desarrollo ha permitido ahorrar mucho tiempo y dinero. El pediatra y epidemiólogo Joel Selanikio explica en una reveladora charla que se puede consultar en la web de la organización sin ánimo de lucro TED (por sus siglas en inglés, Technology, Entertainment, Design) cómo en la última década se ha logrado transformar los ineficaces métodos para recopilar datos de la salud en el África subsahariana en información fiable y actualizada. Hasta hace unos años, las organizaciones de ayuda humanitaria tomaban grandes decisiones sobre la base dela información incompleta que sus voluntarios en el terreno plasmaban en formularios de papel tras visitar puerta por puerta a los habitantes de la región. Gracias a los dispositivos tecnológicos, los datos se recopilan ahora en formato digital: primero, con la Palm Pilot, una de las primeras PDA del mercado, y luego, a través de Hotmail y los sistemas de computación en nube.

 

Otro ejemplo paradigmático de uso del 'big data' para la mejora dela información sobre la salud es Google Flu, un experimento que en el 2009 demostró la capacidad del buscador para predecir dónde surgiría el próximo brote de la pandemia del virus H1N1, la gripe A. Google descubrió que ciertos términos de búsqueda (por ejemplo, sobre los síntomas que padecían los afectados) servían como buenos indicadores de la actividad de la gripe, y utilizó estos datos globales para hacer cálculos aproximados sobre la expansión de esta enfermedad. Los resultados obtenidos demostraron que este método era tan eficaz y muchísimo más rápido que el proceso de recopilación de datos de las autoridades sanitarias de los países más desarrollados.

 

No obstante, hoy por hoy la mayor parte de las empresas ignora cómo aprovechar las oportunidades que brinda el 'big data'. Asimismo, existe una carencia de perfiles profesionales asociados a este nicho de mercado. Se abren inmensas posibilidades ante quienes se formen en la ciencia de los datos (matemáticos, gestores de grandes bases de datos, expertos en algoritmos de aprendizaje de máquinas, etcétera). En Estados Unidos ya existe un ecosistema muy floreciente de 'startups' que están aprovechando estas oportunidades. Algunas de estas pequeñas compañías con grandes ideas acabarán en manos de los 'grandes jugadores'. Es el caso de Farecast, fundada por el emprendedor Oren Etzioni en el 2003 y adquirida por Microsoft en el 2008. Esta web usa la información que las compañías aéreas ofrecen gratuitamente en internet sobre sus rutas, combinada con datos adicionales como los patrones meteorológicos de cada trayecto, para predecir en qué fecha resultará más barato comprar un billete de avión: “Los próximos Google y Facebook surgirán de este tipo de emprendedores, y entonces Google y Facebook tendrán muchas dificultades para alcanzar su nivel de innovación”, augura Viktor Mayer.

 

El próximo Mark Zuckerberg podría ser, por ejemplo, Andrés Contreras, un adolescente de Ciudad Real que cursa Inteligencia Artificial en la Universidad de Stanford. En febrero del 2012 creó, junto con dos socios algo mayores que él, su segunda empresa (la primera fue a los 12 años). Se trata de “una ingeniería de software con análisis inteligente para negocios” que desarrolla productos como Wordfeeling, un sistema de gestión de reputación on line en tiempo real. El programa transforma en datos las 'sensaciones' que los usuarios comparten en foros y redes sociales, con la finalidad de vender esta información a las marcas interesadas en captar las percepciones de los consumidores sobre sus productos. En una entrevista reciente publicada en 'El País', este empresario de 17 años y 5 de experiencia no ponía coto a sus ambiciones: “Nos consideramos el próximo Google”.

 

Fuente: La Vanguardia