Poniendo los datos a trabajar: el “Big Data” (Parte I)

By | 30 abril, 2014

5 minutes

Seguramente no os tenga que contar que introducir mucho sobre el concepto “Big Data”. Últimamente, está en todos los lados. Si cojo la definición de la wikipedia, haré referencia a sistemas informáticos que manejan y procesan grandes volúmenes de datos. En otros sitios, y con definiciones que a mí personalmente me gustan más, hacen referencia al crecimiento exponencial y la disponibilidad de datos, tanto estructurados y desestructurados.

Pero a mí me gusta más una definición que da el profesor Viktor Mayer de la Oxford Internet Institute, que dice algo así como: N = all. Es decir, el Big Data, nace y se define en muchos lugares como el eterno sueño de la estadística: que no haya que muestrear. Que no haya que analizar un todo considerando sus partes (representativas, claro). Es decir, que para obtener datos representativos y significativos de un estudio dado, no tengamos que elegir unos cuantos usuarios que por agregación representen al todo.

Y es que, según vimos los avances en la capacidad de procesamiento de datos y en el abaratamiento del hardware, pensamos que los ordenadores iban a ser capaces de procesar grandes volúmenes de datos, todos los datos, y que entonces íbamos a poder aplicar técnicas estadísticas para sacar muchas conclusiones de todo ello. Y con ello íbamos a ayudar a las empresas a vender más (detectando patrones de compra), a optimizar costes (detectando cuellos de botella o desperdicios), a encontrar más clientes (por patrones de comportamiento) y un largo etcétera.

Pero, amigos, perdonadme, pero yo veo en todo ello unos cuantos defectos que quería compartir con vosotros. En este mundo, hay demasiados falsos positivos (como señala Kaiser Fung, autor de Number Sense), que debemos ser conscientes que existen y no concluir nada sobre la base de los mismos. Los puntos que quiero tratar:

  1. Hacer Big Data sin “marco teórico”
  2. La muestra en Internet
  3. Significatividad estadística

A continuación, desarrollo estas ideas.

1) Hacer Big Data sin “marco teórico”

Cuando comenzó esto del Big Data, se escucharon muchas voces alrededor del “Fin de la teoría“. Con la gran cantidad de datos que íbamos a ser capaces de procesar, la teoría ya no iba a ser necesaria. Con suficiente volumen de datos, los números son capaces de hablar por sí solos.

Y con esto hablo de la eterna disputa entre correlación y causalidad. Si montamos una matriz de datos y observaciones de múltiples variables que pudieran no tener ninguna relación en su campo de conocimiento, pero que sí correlacionan bien… ¿qué podemos concluir? La respuesta, obviamente, puede ser, que sí, se comportan parecido, pero nada relacionado con la causación de una a otra. Correlacionar es barato y fácil. Causalizar complicado. Sino, creemos que los piratas son los causantes del cambio climático.

Fuente: http://www.treehugger.com/culture/talk-like-a-pirate-day-the-critical-relationship-between-pirates-and-climate-change.html

Y es que el Big Data es muy bueno en detectar correlaciones. Detecta muchas. Pero no nos dice cuál es la buena. Y es que hacer un trabajo de correlaciones sin un marco teórico lleva a estas cosas. A hacer estudios frágiles. Si no sabemos lo que está detrás de la correlación, no tendremos ni idea de qué podría hacer romper la correlación, y por ende, la relación y conclusión entre variables.

Y con esto saco la primera idea: siempre necesitamos empezar un estudio de Big Data con un análisis que entienda, represente y modelice el dominio de conocimiento que se está estudiando. Un modelo de datos, vamos: entidades y relaciones entre las mismas, que representen la vida real. El Big Data es una buena herramienta analizando “cosas comunes”, que no requieren mucha teoría. Pero cuando tenemos que considerar cosas más allá, cuidado. Necesitamos teoría. Necesitamos conocimiento del ámbito de dominio de conocimiento del que estamos hablando.

2) La muestra en Internet

Sabiendo que íbamos a ser capaces de capturar todo dato que anduviese por ahí (sensores, redes sociales, dispositivos móviles, satélites, bases de datos tradicionales, etc.), el muestreo estadístico iba a quedar obsoleto. Es decir, seleccionar un conjunto de individuos de una población para ser estudiados y concluir para toda la población, ya no iba a ser necesario. El eterno sueño de la estadística ahora se hacía realidad.

Cuando hablamos de datos, el tamaño no lo es todo. Tenemos que hablar de muestras siempre, que hace que tengamos que enfrentarnos a dos componentes:

  • Error de la muestra: el riesgo por la aleatoriedad que la muestra no sea “buena”. Eso sí, cuanto más larga la muestra, menor margen de error.
  • Sesgo de la muestra: cuando la muestra no es elegida al azar. Aquí se suele hablar del clásico ejemplo de las elecciones presidenciales americanas de 1936. Cuando las encuestas daban por ganador al republicano Landon frente a Roosevelt… simplemente, porque se había utilizado para preguntar en las encuestas, medios tecnológicamente más avanzados, donde estaba el electorado de Landon.

Y esto de la muestra, es algo que también olvidamos en el Big Data muy a menudo. Por ejemplo, el clásico caso de Google detectando epidemias antes de que comiencen. En este artículo, el título lo dice todo: “El fallo de Google Flu Trends y los que falla en el Big Data”. Aunque el fallo tiene más que ver con lo que veremos en el punto 3, lo que tenemos que tener claro quién es la “población digital”. Según un estudio del Pew Research Internet Project de 2013, por ejemplo, dejaron claro que el usuario medio de Twitter (es decir, con el que sacamos conclusiones del Big Data de Twitter) es joven y urbano. Por lo tanto, cuidado con las conclusiones :-)

Y también tenemos que tener cuidado con las colecciones de datos que capturamos en un proyecto Big Data basado en Internet. Mezclamos dados capturados de diferentes maneras (formatos, estructuras, etc.) y con diferentes objetivos, por lo que la normalización de los datos de la muestra, es ciertamente complicada.

3) Significatividad estadística

Para que algo que concluyamos sea estadísticamente significativo, lo primero de todo, es que no haya emergido de la aleatoridad por la se rige el mundo :-) Esto parece algo obvio, pero quizás no lo sea tanto. Para evitarlo, como señaló John Ioannidis en 2005 en su famoso artículo, tenemos que afrontar el problema de las comparaciones múltiples.

Es decir, para concluir que A afecta y causa B, tenemos que comprobar y comparar A con otras cuantas variables (B, C, D…). Es decir, no basta solo correlacionar A con B, sino tenemos que probar suficiente correlaciones entre A y el resto de variables (B, C, D…), para saber que efectivamente eso es así. Así que no digamos nunca a una tienda que con no sé qué campaña de marketing en Internet mejorarán sus ventas, si no hemos hecho ese mismo análisis de esa campaña de marketing con otras variables y sus ventas.

Y esto en el Big Data, se olvida muy a menudo. Correlacionamos churras con merinas, y olvidamos hacerlo con otras para ver si efectivamente no tenemos alguna variable por ahí que nos fastidie la argumentación que tan bien nos va a venir para el informe o proyecto a entregar a mi cliente.

Con esta breve entrega, no quiero tampoco decir que todos los proyectos de Big Data son fallidos. Existen buenos proyectos. Como Google Translate. Sin un marco teórico por detrás, una caja negra que nos traduce entre idiomas. ¿Cómo lo hace? Con la mezcla entre estadística e informática que llamamos Machine Learning. Es decir, un análisis estadístico de millones de documentos traducidos por humanos y buscando patrones que pueda copiar. Ofrece muy buenos resultados sin unas reglas gramaticales pre-programadas.

Pero no todo el Big Data es Google Translate. Y tenemos que ser respetuosos con la teoría, la muestra y la significativad estadística :-) Así que cuidado cuando os hablen de Big Data 😉

5 thoughts on “Poniendo los datos a trabajar: el “Big Data” (Parte I)

  1. Pingback: Analytics Top 10 Artículos y Noticias de la Semana, 28 abril - 4 mayo

  2. Viajes a India

    Realmente muy informático blog sobre educación de España. Soy un viajero frecuenté de mundo y quiero viajar mucho y quiero saber cultura de distinta país y tomar educaciones español. Soy mujer de India y yo viajes a India mucho en cada sector de viajes a India. En India hay muchos persona falta de bueno educaciones, estoy buscando detalles como se dar educación de buen manera. Después de leer sus blog puedo decir que es su blog es muy importante. Ahora durante de viajes a India implementar la mismo

    Reply
  3. Pingback: Big Data para principiantes (I) | ELENA ASCARZA UGALDE

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *