Big data es un término difuso que sirve para designar un fenómeno masivo convertido en obsesión para emprendedores, científicos, gobiernos y medios de comunicación. Sin embargo, en este artículo de Tim Hartford para Financial Times, se advierte de que el big data no es la panacea que va a solucionar los problemas tradicionales asociados con la Estadística. Se heredan muchos de los antiguos defectos y además ahora a una escala mucho más masiva.


Hace cinco años Google publicó un gran descubrimiento en unos de los diarios científicos más importantes del mundo, Nature. Sin necesidad de dato médico alguno, publicó el registro de expansión de la epidemia de gripe aquel año en Estados Unidos. Además sólo tardó un día en registrar los datos, en comparación a la semana o más que tardaron los Centros de Control de Enfermedades (CDC) en recoger la misma información basándose en los informes de los centros médicos. Lo logró haciendo el seguimiento del brote mediante el hallazgo de la correlación entre lo que las personas buscaban en internet y si tenían síntomas de gripe. Ni siquiera se tomaron la molestia de desarrollar una hipótesis sobre hasta qué punto los términos de búsqueda -“síntomas de la gripe” o “farmacias cerca de mí”- podrían estar correlacionados con la extensión de la epidemia; simplemente cogieron los 50 millones de búsquedas más comunes y dejaron que los algoritmos hicieran su trabajo.

El éxito del Google Flu Trends se convirtió en un emblema de la nueva tendencia del big data en negocios, tecnología y ciencia. Lo que se preguntaban los entusiasmados periodistas era, ¿qué puede la ciencia aprender de Google?

Desde entonces “big data” se ha convertido en un término difuso, a menudo usado por personas con algo que vender. Pero el big data que interesa a muchas compañías es lo que deberíamos llamar “found data” (datos encontrados), la información sobre las búsquedas en la Red, los pagos con tarjeta de crédito y los datos de localización de los móviles. Del mismo modo que nuestras comunicaciones, el ocio y el comercio se han desplazado a Internet, la Red se ha desplazado a nuestros teléfonos, a nuestros coches e incluso a nuestras gafas. La vida puede ser grabada y cuantificada de un modo inimaginable hace sólo una década.

Los entusiastas del big data han hecho suyos cuatro lemas, cada uno reflejado en el éxito del Google Flu Trends: que el análisis de datos produce resultados increíblemente precisos; que cada pequeño dato puede ser capturado, haciendo así que las viejas técnicas de muestreo estadístico queden obsoletas; que es cosa del pasado preocuparse sobre qué causa qué, porque la correlación estadística nos dice aquello que necesitamos saber; y que no se necesitan modelos estadísticos o científicos porque, citando The End of Theory (“El fin de la teoría”), un provocativo ensayo publicado en Wired en 2008, “con suficientes datos, los números hablan por sí mismos”.

Desafortunadamente, estos cuatro lemas de fe resultan a lo sumo una simplificación optimista. Al menos según David Spiegelhalter, Catedrático de Comprensión Pública del Riesgo en la Cambridge University, son “absolutas tonterías. No tienen ningún sentido”.

Los found data apuntalan la nueva economía digital y por eso Google, Facebook y Amazon buscan nuevas maneras de entender nuestras vidas a través de nuestros registros de búsquedas. Desde que Edward Snowden filtró la información sobre el alcance y el tamaño de la vigilancia electrónica del Gobierno de EEUU, se ha hecho palpable que los servicios de seguridad también se sienten fascinados por el potencial de nuestros datos de navegación. Un informe reciente de McKinsey Global Institute estima que el sistema sanitario de EEUU podría ahorrarse 300.000 millones de dólares -1.000 dólares por persona- mediante una mejor integración y análisis de toda clase de datos.

A pesar de que el big data promete mucho a científicos, emprendedores y gobiernos, está condenado a decepcionarnos si ignoramos algunas lecciones estadísticas ya muy familiares. Hay muchos problemas asociados a la Estadística tradicional que también se dan con grandes cantidades de datos. No desaparecen porque estés analizando gran cantidad de información, se vuelven peores.

La gripe se ha acabado cobrando una víctima inesperada: el Google Flu Trends. Tras varios inviernos pronosticando brotes, Google perdió el olfato sobre el rumbo de la epidemia. Cuando llegaban los datos lentos pero seguros de los Centros de Control de Enfermedades, se veía que las previsiones de Google habían sido exageradas y casi duplicaban el alcance real. Esto pasó porque Google no sabía lo que relacionaba los términos de búsqueda analizados con la extensión de la gripe. Los ingenieros de Google no intentaron comprobar qué causaba qué. Solamente buscaban patrones en los datos. Se preocupaban más por la correlación que por la causalidad. Y eso es lo común en los análisis big data. Por esta razón, según el libro de Viktor Mayer-Schönberger y Kenneth Cukier, Big Data “la causalidad no va a ser desechada, pero está siendo derribada de su pedestal como fuente primaria de significado”.

Sin embargo, una teoría sin análisis es inevitablemente frágil. Si no tienes ni idea de qué hay detrás de una correlación, no tienes ni idea de lo que puede causar que dicha correlación se rompa. Los estadísticos se han pasado los últimos 200 años averiguando las trampas que acechan cuando tratamos de entender el mundo a través de los datos. Los datos hoy son mayores, más rápidos y más baratos, pero no debemos actuar como si las trampas hubieran desaparecido. No es así.

En 1936, el Republicano Alfred Landon se presentaba a las elecciones contra el Presidente Franklin Delano Roosevelt. Se encomendó a la respetada revista The Literary Digest el pronóstico de los resultados. La publicación llevó a cabo un ambicioso sondeo del que obtuvo 2,4 millones de respuestas, confiando la fiabiidad del resultado a la gran escala de la encuesta. Sus resultados pronosticaban una victoria de Landon con un 55% frente a un 41% para Roosevelt. Sin embargo, las elecciones acabaron arrojando unos resultados muy diferentes: Roosevelt ganó a Landon por un 61% frente a un 37%. Para añadir a la agonía de The Literary Digest, una encuesta mucho más pequeña conducida por el experto George Gallup se acercó mucho más a los resultados finales. Gallup entendió algo que The Literary Digest desconocía: cuando hablamos de datos, el tamaño no lo es todo.

El big data amenaza con reproducir el error de The Literary Digest de nuevo. Porque la configuración de los found data está tan desordenada que puede ser complicado descubrir qué sesgos residen en ellos. Y como son tan masivos, algunos analistas parecen haber decidido que el asunto del muestreo no merece preocupación alguna. Pero no es así.

El profesor Viktor Mayer-Schönberger del Internet Institute de Oxford, coautor de Big Data, me dijo que su definición favorita de un conjunto de big data es aquel en el que “N = Todo”, donde ya no necesitamos una muestra, sino que disponemos de toda la población. Los escrutadores no estiman los resultados de unas elecciones con una muestra representativa: cuentan todos los votos. Y cuando “N = Todo” no tenemos el problema del sesgo de la muestra porque la muestra incluye a todo el mundo.

Pero, ¿realmente “N = Todo” es una buena descripción de la mayoría de los conjuntos de found data que podamos considerar? Seguramente no. Un ejemplo es Twitter. En principio es posible registrar y analizar cada mensaje en Twitter y usarlo para sacar conclusiones sobre el estado de ánimo del público. Pero a pesar de que podemos mirar todos los tweets, los usuarios de Twitter no son representativos de la población como un todo. (Según el Pew Research Internet Project en 2013, los usuarios de Twitter de EEUU eran en una desproporcionada mayoría, jóvenes, urbanos o suburbanos y de raza negra).

El big data puede parecer global, pero el “N = Todo” es a menudo sólo un seductor espejismo.

De todas maneras, ¿a quién le importa la causalidad o el sesgo de la muestra si hay dinero de por medio? Organizaciones de todo el mundo deben estar salivando tras la famosa historia de éxito de la cadena de tiendas de descuento Target que explicó Charles Duhigg en The New York Times en 2012. Duhigg contaba que Target ha recolectado tantos datos sobre sus clientes, y tiene tanta capacidad para analizar los datos, que su conocimiento sobre dichos clientes puede parecer mágico.

Una anécdota que contaba Duhigg era que un hombre entró en una tienda Target cerca de Minneapolis y se quejó al encargado de que su hija adolescente había recibido cupones para ropa de bebé y premamá. El encargado se disculpó y luego llamó al cliente para volver a disculparse, y fue cuando descubrió que la adolescente estaba en realidad embarazada. Según Target, después de haber analizado las compras de sus toallitas sin perfume y de suplementos de magnesio, lo dedujeron.

Escuchando esta anécdota se podría deducir que los algoritmos de Target son infalibles y que todas las mujeres que reciben estos cupones están embarazadas. Pero eso es realmente muy improbable. De hecho podría ser que las embarazadas los recibieran porque igualmente todos los contactos de su lista de distribución los reciben. No deberíamos comprar la idea de que Target usa lectores de mentes antes de enviar sus ofertas.

En la historia de Charles Duhigg se explicaba que Target mezcla otras ofertas en sus packs, como por ejemplo de copas de vino, para que las embarazadas no se sientan intimidadas al ver lo profundamente que las llega a conocer la tienda. Sin embargo, Kaiser Fung, que se ha pasado años desarrollando enfoques similares para tiendas y anunciantes, tiene una explicación más mundana: Target mezcla sus ofertas no porque sea raro para las embarazadas recibir solamente cupones de artículos para bebés, sino porque saben que muchos de estos cupones se enviarán a mujeres que no están embarazadas.

Nada de esta historia sugiere que el análisis de datos sea inútil: seguramente es muy aprovechable. Incluso un modesto aumento en la precisión sobre el público objetivo de las ofertas especiales sería un premio que valdría la pena ganar. Pero aprovechable no debería confundirse con omnisciente.

A pesar de que el big data ha traído algunos grandes ejemplos de éxito, como Google Translate, que opera mediante el análisis estadístico de cientos de millones de documentos que han sido traducidos por humanos y busca patrones que pueda copiar, el big data no resuelve el problema que ha obsesionado a estadísticos y científicos durante siglos: el problema de la comprensión, de inferir lo que está ocurriendo y averiguar cómo podemos intervenir para cambiar un sistema a mejor.

“Tenemos un nuevo recurso”, opina el Profesor David Hand, del Imperial College London. “Pero nadie quiere datos. Lo que se quiere son respuestas”.

Los estadísticos se están esforzando por desarrollar nuevos métodos para aprovechar la oportunidad del big data. Estos nuevos métodos son esenciales pero funcionarán respaldándose en las viejas lecciones de la Estadística, no ignorándolas.

Recordemos los cuatro lemas de fe en el big data: la precisión es muy fácil de sobrevalorar si ignoramos los falsos positivos, como el predictor de embarazos de Target; el lema de que la causalidad ha “caído del pedestal” es cierto si estamos haciendo predicciones en un ambiente estable, pero no si el mundo está cambiando (como en el caso de Flu Trends) o si nosotros mismos esperamos cambiarlo; las promesas de que “N = Todo” y de que el sesgo de la muestra no importa, son simplemente mentira ya que en muchos casos cuentan y mucho; como ocurre también con la idea de que “con suficientes datos, los números hablan por sí solos”- que parece muy ingenua en conjuntos de datos donde los patrones falsos superan de largo en número a los descubrimientos auténticos.

El big data ha llegado, pero los grandes descubrimientos no. El reto pasa ahora por solucionar los nuevos problemas y conseguir las nuevas respuestas, pero sin cometer los mismos viejos errores estadísticos y ahora en una escala más grande que nunca.

 

* Hartford, Tim. “Big data: are we making a big mistake?”. Financial Times, 28/03/2014 (Artículo consultado on line el 10/04/2014).

Acceso a la noticia: http://www.ft.com/intl/cms/s/2/21a6e7d8-b479-11e3-a09a-00144feabdc0.html#axzz2xouwHuwq

Suscríbete gratuitamente a nuestros boletines

Recibe noticias e ideas en Recursos Humanos.
Suscripción

Utilizamos cookies para ofrecer a nuestras visitas una mejor experiencia de navegación por nuestra web.
Si continúas navegando, consideramos que aceptas su utilización.