Twitter (y otras redes sociales) como recurso para predecir el futuro

Texto que sale en la secuencia inicial de Matrix en el pc de Neo

En estos días han llegado a los medios cuatro proyectos/resultados que suenan a Ciencia Ficción:

  • Nell, un sistema que está contínuamente  aprendiendo del contenido que lee de la Web.
  • Recorded Future empresa que hace análisis temporal y que se vende como que predice el futuro. En ésta han invertido empresas serias como Google, la CIA y Yahoo!
  • Uso de twitter para predecir y estimar epidemias de gripe. Aron Culotta y dos estudiantes analizaron 500 millones de tuits entre Agosto de 2009 y Mayo de 2010 y consiguieron aproximar la evolución de la gripe mejor y antes que el tradicional método de recolectar la información de los hospitales.
  • Uso de twitter para predecir el éxito de un película. Investigadores de HP labs demuestran que monitorizando twitter pueden predecir si un film va a ser un éxito de taquilla o no.

Lo interesante de los cuatro proyectos es que aplican minería de datos y análisis temporal a datos provenientes de redes sociales o de toda la WWW. Es decir, somo nosotros los que proporcionamos los datos, y se interpretan adecuadamente, se produce cierta singularidad (no la singularidad de Vernon Vinge, que es de carácter global).En el caso concreto de twitter, existen multitud de aplicaciones que facilitan el análisis del flujo de las actividades de microblogging de sus usuarios.
La idea de explotar esos datos (muchos accesibles mediante simples APIs) es antigua. La novedad es que la fiabilidad de los datos no se pone en entredicho, la confianza en éstos se basa en la gran cantidad de datos disponibles que hace difícil que comportamientos virales desvirtúen los comportamientos globales. La cuestión importante que me plantean estos ejemplos es porqué no hace algo parecido en España. Modestamente, un alumno y yo hemos diseñado un sistema para acertar las quinielas en base a datos públicos que se pueden encontrar en la red, y ya ha acertado una de 11. Y eso sin profundizar y refinar el proceso de análisis y refinamiento del razonamiento que hacemos con los datos. Pero me refiero a un proyecto que se convierta en empresa, que obtenga resultados y atraiga la inversión. Vale que aquí no somos tan atrevidos, pero tenemos los datos, tenemos las herramientas, la ciencia que está detrás. Entonces… ¿falta emprendimiento?

El ejemplo más parecido que conozco a los cuatro que mencionamos es el proyecto Sonar de Indra, que intenta predecir el mercado bursátil, pero su base es semántica y es un prototipo. Y no es un proyecto emprendedor. Finalmente, la aparición del linked data como herramienta de semantización débil proporciona una capa intermedia entre los datos y la Web Semántica factible de ser procesada de manera más fina de lo que se hace en los ejemplos anteriores, lo que es una oportunidad para lanzar proyectos innovadores en ese área.

Anuncios