Predicción de resultados electorales: MogIA y Trump

Abramos esta publicación con un titular que a muchos de nosotros nos sorprendía en su día:

Estas herramientas de inteligencia artificial tan de moda últimamente, acertaron. Una herramienta desarrollada por la empresa Genic.AI, denominada MogIA, y que se fundamenta en unos algoritmos de inteligencia artificial, que dijeron que sería Donald Trump el ganador.

Pero no venía yo hoy a introducir más ruido en unas elecciones ya de por sí bastante “movidas” (por decirlo de alguna manera). Lo interesante de la predicción de resultados electorales no es tanto quién gana (que también, claro), sino cómo funcionan. Vengo a hablar de este tipo de herramientas de predicción, que tantos titulares están generando en los últimos tiempos. En este caso, la herramienta MogIA, se alimenta de 20 millones de puntos de datos de plataformas “públicas” (entiéndase en el contexto de datos) como Google, Facebook, Twitter y Youtube. Una vez con los datos en la mano, crea modelos para predecir resultados.

La herramienta fue creada allá por 2004. Desde entonces, no ha fallado. Siento introducir más pesimismo en el ambiente, pero los datos y los algoritmos son así. Es más, tengo aún peores noticias; este tipo de sistemas, cuyo funcionamiento paso a explicar enseguida, son cada vez más precisos: cuantos más datos reciben, más aciertan.

La hipótesis del autor del modelo de predicción es sencilla: aquellos candidatos que más “engagement” (¿reacción? ¿compromiso?) generan entre los usuarios en redes sociales, son los preferidos. Justo hace un par de días nos recordaba el bueno de Nate Silver (otro de los que está mucho en este tipo de modelos predictivos), que todos los modelos hacen suposiciones:

Es decir, que todos los modelos suponen hechos que luego debemos hacer que la evidencia contraste. No son suposiciones basadas en cuestiones subjetivas, sino en datos. El propio Nate Silver no para de publicar sobre la evidencia de las mismas, como una forma de hacer público su modelo y someterlo al escrutinio público.

¿Y qué hace MogIA para que hasta en los telediarios haya salido? Pues bueno, lo primero de todo, se trata de un modelo muy preciso, como decía. Ha acertado todas las últimas elecciones (incluyendo las primarias, donde nadie daba un duro por Trump). En este caso, ha sido más noticia que en anteriores ocasiones, porque estuvo contradiciendo la gran mayoría de las encuestas tradicionales. Y ahí es donde precisamente veo el punto de interés para este blog: ¿datos de redes sociales y su sentimiento o métodos de encuesta tradicional?

No deja de ser cierta una cosa que nunca debemos olvidar: la ambiguedad de los comentarios en redes sociales es importante. Que los tweets y comentarios de Donald Trump hayan generado más reacción que con anteriores candidatos, puede deberse a las barbaridades que ha comentado. Esto, todavía los algoritmos de Inteligencia Artificial, no han conseguido arreglar. Además, también hay otro elemento importante: ahora mismo hay más usuarios en redes sociales de los que había en elecciones anteriores. Por lo tanto, si el motivo de reaccionar tanto a los comentarios de Trump es su “provocación”, que haya más personas que reaccionen, solo amplificaría el problema de raíz. Pero quizás, quién sabe, esto forme parte de la propia estrategia de Donald Trump.

Esto creo que tendría que destacarse más cuando se habla de este tipo de algoritmos. Pero esto no quita a que montar modelos predictivos basado en datos de redes sociales y datos públicos esté siendo cada vez más popular. El pasado Septiembre, Nick Beauchamp, profesor de la Northeastern University, publicó un artículo donde demostraba cómo había una similitud muy alta entre los 100 millones de tweets publicados sobre las elecciones de 2012 y los resultados electorales de los estados.

Esta precisión en los resultados se debe a la nueva era de los algoritmos. Y esto, de nuevo, es lo que a mí más me llama la atención. Si bien con anterioridad, como decía el bueno de Nate Silver, los modelos muchas veces reflejaban los sesgos de su desarrollador, los algoritmos de aprendizaje (Machine Learning, vaya), van aprendiendo de su entorno. Es decir, son piezas de software que han sido enseñadas a aprender. Y por lo tanto, evitamos tener que decirles nosotros qué tienen que hacer. Y esto es lo interesante; y lo que los hace más objetivos. Y lo que provoca más miedo en este caso que pudiera estar dando como ganador a Trump.

Y es que estamos entrando en una era en la que no solo los resultados electorales son objeto de predicción. Muchas otras cosas. Y es que el software se está volviendo más inteligente según puede ir creando sus propias reglas a partir de los datos que va observando.

Atribuyendo méritos al éxito cooperativo: Shapley y los modelos de atribución en la era digital

A todos nos pasa. Ocurre algo (ganamos un partido de fútbol entre los amigos, cerramos un proyecto con el cliente trabajado entre varios, un ciclista gana la vuelta con un importante apoyo del equipo, etc.), y empiezan las conversaciones, debate y acaloradas discusiones sobre quién o qué es lo que más ha contribuido a ese éxito. La subjetividad suele imperar en estos casos. “Yo creo que Fulanito ha sido el jugador clave“; “Yo creo que las horas de trabajo de Paco fueron clave“, etc.

Estas conversaciones basadas en la percepción de valor de las partes de manera subjetiva, fue trabajado por Lloyd S. Shapley allá por los años 1950. El denominado Valor de Shapley, es un concepto que se maneja dentro del mundo de la teoría de juegos cooperativos. Un juego de esta naturaleza es aquel que se caracteriza por la participación de dos o más jugadores que no compiten, sino que trabajan para lograr el mismo objetivo, ganando o perdiendo en consecuencia de manera conjunta. Grupos de jugadores cooperan, siendo el juego la competición entre estos grupos de jugadores. Estos juegos se diferencian de los que trabajó el otro gran conocido por estudiar la teoría de juegos, el recientemente facellecido John Forbes Nash, que estudió juegos no-cooperativos como el Dilema del Prisionero.

Shapley, junto a Roth, ganaron el Premio Nobel de Economía en 2012 por su trabajo en “la teoría de las asignaciones estables y el diseño de mercado“. Shapley elaboró los modelos teóricos (que luego Roth llevó a la práctica) para situaciones donde hay grupos, en oposición y colaborando, que deben decidir para maximizar su beneficio en el contexto de preferencias coincidentes y conflictivas del resto de grupos. Lo que perseguían era la buena asignación de recursos. Y, en el contexto que nos ocupa, asignar un único reparto (entre los jugadores) del beneficio obtenido y generado por la coalición de todos los jugadores.

A diferencia de los juegos no cooperativos, donde las estrategias y beneficios de los jugadores dependen de las decisiones de los otros, en los juegos cooperativos es suficiente si se concen los pagos/valores asociados a cada posible grupo/coalición de jugadores. Parten del axioma de que la unión de jugadores crea valor, buscando criterios de reparto viables económicamente y que satisfagan ciertos criterios socialmente deseables.

Esto permitía responder a la pregunta: ¿qué importancia tiene cada jugador para la cooperación global y los objetivos compartidos, y qué premio puede razonablemente esperar cada jugador? El valor de Shapley ofrece una posible respuesta a esta pregunta. El planteamiento de la solución, pueden imaginar, no es sencillo. Vaya la expresión algebraica por delante para ser conscientes de su complejidad:

Expresión algebraica del valor de Shapley (Fuente: wikimedia.org)
Expresión algebraica del valor de Shapley (Fuente: wikimedia.org)

Si S es una coalición de jugadores, entonces v(S), el valor de la coalición S, describe la suma total que se espera de los pagos a los miembros por su cooperación. Un modelo analítico que relaciona a los jugadores (i), el valor esperado (v) por el total y cada jugador, la coalición entre jugadores (S) y el número de jugadores (n). Un ejemplo práctico de cómo construir modelos que relacionen variables para poder predecir y estimar valores (lo que hablamos a la hora de exponer el campo del Business Analytics).

Esto, como decíamos al comienzo, tiene numerosas aplicaciones. Desde el ejemplo clásico del problema del aeropuerto (división justa del coste de la pista de un aeropuerto entre los diferentes actores que necesitan pistas de diferentes longitudes -diferentes aportaciones, luego diferentes valores-), hasta la asignación de puestos de trabajo en procesos de selección o la explotación de tierras entre diferentes jugadores, pasando por  la distribución de responsabilidades dentro de un equipo de trabajo.

Todo esto lo introducía para hablar de los modelos de atribución aplicado al mundo del marketing. Dentro de la serie de Marketing Intelligence, una cosa que ha venido suscitando estos meses bastante preguntas es precisamente esto. De ahí que me disponga a explicarlo en este post.

La idea de partida de toda persona con responsabilidad en el área del marketing es optimizar la inversión y sacar el máximo jugo al presupuesto existente. Partamos, así, de las siguientes preguntas básicas:

  • ¿Tienes identificado el objetivo por el que estás haciendo inversiones en publicidad?
  • ¿Conoces el objetivo o rendimiento esperado de cada uno de los canales en los que participas?
  • ¿Sabes la influencia que tiene cada canal entre sí y la que tienen sobre el proceso de decisión de tus usuarios o visitantes?

Si tienes dudas en la respuesta de alguna de estas preguntas, este artículo quizás te interese. Un modelo de atribución es una regla o conjunto de reglas que determina cómo se asigna el valor de ventas y conversiones a los puntos de contacto de las rutas de conversión. Estudiemos la siguiente figura:

Informe del explorador del modelo. (Fuente: http://analytics.blogspot.com.es/)
Informe del explorador del modelo. (Fuente: http://analytics.blogspot.com.es/)

Los modelos probabilísticos resultantes muestran la probabilidad de que un usuario realice una conversión en un punto determinado de la ruta, dada una secuencia particular de eventos. Muchas empresas se apoyan aún hoy en modelos de atribución basados en datos poco expresivos. El primer o el el último click, por ejemplo. El valor que tiene cada Like en Facebook o un click palidece en riqueza frente al valor que se desprende de un simple pagoo de la monitorización de todo el Customer Journey. Por lo tanto, estamos hablando de elementos de seguimiento más sofisticados. Pero, los responsables de Marketing no recogen el impacto correcto de sus acciones o se pierden parte de la foto de algunos canales que también asisten a la conversión.

Dependiendo de cada industria los canales sobre los que participemos serán diferentes y tendrán de igual modo un objetivo diferente. En función del sector y del factor de negocio definido como conversión (solicitud presupuesto, compra online, etc.) la influencia de cada canal sobre el proceso de decisión del usuario será distinta. Esto se debe a que cada fuente tiene una relevancia y función particular sobre cada una de las fases del proceso del marketing de atracción: conocimiento de marca, consideración, intención y finalmente sobre la decisión de compra.

Pero, en una era en la que hay tantos impactos, la decisión de compra cada vez es más sofisticada atribuirla a una acción, conocer la relación e influencia que tienen los distintos canales entre sí, resulta fundamental para definir y optimizar nuestra estrategia de inversiones en Marketing.

Como decimos, el Customer Journey se ha vuelto muy complicado. Interaccionamos mucho con nuestros clientes, desde que simplemente se interesan, hasta que finalmente compran. Por lo tanto los modelos de atribución tradicionales (última interacción, primera interacción, modelo lineal, modelo de tiempo de decaimiento o modelo por posición), ya no son tan válidos como lo han venido siendo. Sí, claro que son útiles, pero no precisos, ni, en la era del Big Data, capaces de soportar la toma de decisión dentro de las organizaciones.

La relación con el cliente en el tiempo, desde que se interesa hasta que se compra, ahora es más complicada: muchos canales, muchos dispositivos, muchos puntos de contacto (Fuente: http://www.i-scoop.eu/wp-content/uploads/2014/04/The-new-funnel-and-buyer-journey-in-B2B-by-Forrester.gif)
La relación con el cliente en el tiempo, desde que se interesa hasta que se compra, ahora es más complicada: muchos canales, muchos dispositivos, muchos puntos de contacto (Fuente: http://www.i-scoop.eu/wp-content/uploads/2014/04/The-new-funnel-and-buyer-journey-in-B2B-by-Forrester.gif)

Definir un modelo de atribución personalizado, adaptado a nuestra situación particular, es lo que entendemos deben hacer las empresas. Tenemos dos enfoques principales:

  • Rígido:  el porcentaje del valor que se atribuye a cada canal o touchpoint varía en función de, por ejemplo, la posición que ocupa en el proceso de venta/customer journey o del tipo de canal del que se trate. Aquí es donde se ha estado atribuyendo hasta la fecha.
  • Dinámico: un algoritmo es el encargado de definir qué porcentaje del valor total se asigna a cada touchpoint. Se tienen en cuenta la agrupación de canales dentro del journey, las características del cliente o características concretas de cada canal. Por ejemplo. Si los clientes que han visitado nuestra landing page han finalmente convertido por encima de la media, nuestro sistema asignará mayor peso a ese canal en todas las ventas en las que haya intervenido. Para estos modelos dinámicos, resulta clave mirar del total de conversiones cuántas son asistidas, estudiar las rutas de conversión, etc. Y, sobre todo, hacerlo en tiempo real y modificar los parámetros del algoritmo en consecuencia. En definitiva, analítica digital y Big Data puro y duro.

Bien, ahora que me has convencido, ¿y cómo aplico esto en mi empresa? Necesitamos una herramienta para ello. Como podéis imaginar, la cantidad de datos de interacción generados es tan grande, que lo ideal es contar con una herramienta de automatización del marketing. Muchos CRM avanzados pueden ayudarnos en esta tarea pero las capacidades completas de atribución y analítica cross-channel suelen aparecer sólo en herramientas de automatización del marketing más avanzadas como Hubspot, que es la que nosotros empleamos.

Y todo esto, está teniendo enorme interés en los últimos años en muchos casos. Quizás te sientas identificado en alguno de ellos:

  • Si nuestro negocio online está arrancando, siendo pure player, ¿qué rutas de conversión son las más eficientes? Ahora que no me sobra el presupuesto, ¿dónde hacer eficiente mi inversión en marketing?
  • Atribución online to store: las líneas entre experiencias de compra online y offline se están difuminando. Los cupones de descuento o las tarjetas de fidelización, esas herramientas que tanto vmeos por España últimamente (por el crónico retraso que teníamos en términos de promociones y descuentos), están generando muchos datos. Retail, consumo, ¿a qué esperáis para apostar por un modelo de atribución serio?
  • Atribución multi-dispositivo: ¿os suena que cada vez nos pidan en más aplicaciones conectarnos con nuestro usuario? Esto es lo que hace el Measurement Protocol Data Collection de Google, por ejemplo. Como nos movemos por muchos dispositivos, por muchos canales, necesitamos estar conectados para que las marcas sepamos que somos los mismos. ¿Os suena esto?
  • Atribución multi-canal: ahora hablamos de la era de la omnicanalidad, por lo que saber qué le corresponde a cada uno de los canales que ha intervenido en la ruta de conversión resulta fundamental. ¿Cuánto ha aportado para la decisión de compra cada uno de los canales? Debemos saberlo también.

No existe un modelo bueno o malo, sino que existen tantos como contextos. Hay que elegir uno y optimizar las campañas en base a él, dándole un tiempo y re-planteando. Los modelos de atribución dinámicos han venido para quedarse. Se acabaron las discusiones de quién y qué ha influido en las ventas. Sepámoslo a ciencia cierta con el Business Analytics.

Retención de clientes: buscando prescriptores de mi empresa a través de un modelo de propensión a la fuga

Dentro de la inteligencia de clientes o Customer Intelligence, más allá de la segmentación de clientes, tenemos análisis de datos para obtener inteligencia de negocio más potentes. Entre ellos, destacan los modelos de propensión: que pueden ser de compra (cross-sell y up-sell), fuga (si pudiera dejar de ser nuestro cliente), riesgo de impago (que no pague lo que adeuda), fraude, etc. Son modelos que estiman la probabilidad de que se produzca esa conducta (compra, fuga, etc.) para cada uno de nuestros clientes, y permite generar modelos predictivos para poder tomar decisiones de negocio en tiempo real.

Uno de los fundamentos básicos de la experiencia humana es que el futuro próximo es parecido al pasado reciente. Esto se ha demostrado empíricamente tanto a nivel individual como social. Por lo tanto, cabe concluir que el comportamiento futuro de in individuo será parecido a su comportamiento pasado. Y así, podemos extrapolar esta visión a que los sucesos futuros en un negocio, serán parecidos a los sucesos del pasado reciente.

Este asunto es particularmente interesante a la hora de hablar de los clientes. Ceteris paribus (permaneciendo las condiciones constantes), podemos esperar que en nuestro negocio las ventas pudieran ser parecidas, salvo que hiciéramos una campaña o similares. La tasa de nuevos clientes puede ser similar a la del pasado año, y la tasa de abandonos será similar igualmente a la del año anterior.

En línea a todo esto, uno de los proyectos que hemos realizado en los últimos meses/años fue para una pequeña academia de enseñanza de primaria, secundaria y bachillerato de Leioa. Como ya vengo diciendo en esta serie de artículos, de nuevo, el “Big Data” (recordemos este artículo), puesta al servicio de todos los públicos y las PYMEs. Un negocio, muy característico de las PYMEs de España: negocio de entre 3 y 10 empleados, que funciona muy bien por el boca a boca. Y que, por lo tanto, los clientes son los mejores comerciales de la empresa, dado que prescribiendo, es como mejor se puede llegar ante la incapacidad de hacer promociones y campañas de un tamaño suficiente (que es cuando realmente pueden ser efectivas).

La experiencia del cliente y su prescripción de mis productos o servicios (Fuente: http://www.melmarketing.es/wp-content/uploads/2014/01/Resultado-ecuacio%CC%81n-ECEL.png)
La experiencia del cliente y su prescripción de mis productos o servicios (Fuente: http://www.melmarketing.es/wp-content/uploads/2014/01/Resultado-ecuacio%CC%81n-ECEL.png)

Como se puede ver en la imagen, la experiencia de cliente abre ya un tema de especial interés para el campo del Business Intelligence. Una experiencia bien diseñada empieza antes de la compra, se intensifica durante la misma y se mantiene hasta la siguiente. ¿Qué métricas utilizar para saber que mis clientes están disfrutando y por lo tanto me podrán prescribir? Eso es lo que trataremos de ver. En definitiva, tener como objetivo retener a los mejores/más rentables clientes, e identificar los factores clave que influyen en el attrition (fuga de clientes). Esto se hace identificando a través de modelos predictivos los clientes con más alta propensión a la fuga. Para ello, se utilizan scores para priorizar los clientes objetivo para acciones de retención.

En todo esto, un área que ayuda especialmente a estos objetivos es el de los modelos de propensión a la fuga. La primera pregunta que se puede hacer un negocio es saber qué datos son importantes. Realmente, todos lo son. Partiendo de ello, el primer paso es armar el conjunto de datos a analizar. Para ello, hay que obtener un conjunto de clientes con resultado conocido: clientes vigentes activos y antiguos clientes “fugados”. Una vez hecho eso, establecimos una línea de tiempo base: el curso académico 2013-14. Obtuvimos datos conocidos en Septiembre del 2013, y al finalizar el periodo de estudio (Junio 2014).

El siguiente paso consiste en caracterizar al cliente. Vamos a suponer en este caso, que a efectos divulgativos, simplificaré en seis variables:

  • Años en la academia: es decir, básicamente analizar su historial de compra. Aquí, básicamente mediremos en el periodo anteriormente descrito las siguientes variables:
    • Meses acumulados en la academia
    • Asignaturas matriculadas en la academia
  • Perfil de cliente: historial de pago e interacciones. Aquí, mediremos:
    • % meses pagados en plazo (menos de 30 días al vencimiento del mes)
    • Cantidad de interacciones entre los padres y los profesores (atención telefónica, presencial, email, etc.)
  • Naturaleza del centro y curso: segmento de mercado y valor del mismo
    • De las cuatro prioridades de centros educativos (desde los más próximos geográficamente, a los más alejados y con menos alumnos), de cual viene y cuál es el valor monetario que se da a cada cual (que a su vez vendrá de otro estudio de Business Intelligence
  • Cantidad de compañeros de clase en la academia
    • Número de compañeros de su clase que están en su grupo en la academia

Ya ven que son todo variables cuantitativas, lo cual nos permitirá hacer un procesamiento estadístico. Una vez hechas todas las mediciones, podemos decir de manera gráfica, que tendremos los siguiente:

Representación gráfica de la construcción de un modelo de propensión a la fuga de un cliente dato (Fuente: http://www.sas.com/offices/latinamerica/argentina/resources/asset/CI_Banca2012.pdf)
Representación gráfica de la construcción de un modelo de propensión a la fuga de un cliente dato (Fuente: http://www.sas.com/offices/latinamerica/argentina/resources/asset/CI_Banca2012.pdf)

Siendo M1, M2… M6, las variables anteriormente indicadas. Y siendo C1, C2, C3 el evento dado a posteriori (fuga, aumento de ventas, etc.). Una vez recopilados estos datos, es cuando podemos asignar una puntuación a cada uno de nuestros clientes. Vamos a considerar una escala de 0 a 1, siendo 1 la mayor propensión a fugarse, y siendo 0 la de menos. Pero, para poder llegar a este score, primero tenemos que trabajar con la matriz de datos recopilados. A efectos de este ejercicio divulgativo, supngamos 100 estudiantes, cuyos datos son recogidos en ese periodo Septiembre 2013-Junio 2014, y cuyos valores para las seis variables son los siguientes:

Tabla de mediciones y la decisión final del estudiante
Tabla de mediciones y la decisión final del estudiante

Ahora, para cada variable (o ítem de dato), habría que contar cuántos “activos” o “fugados” hay. De este modo, podríamos calcular la probabilidad de fugarse en función del valor que tiene un estudiante dado para cada una de las variables. Por ejemplo, cojamos la primera columna, que responde a los meses acumulados que llevan en la academia, y que además es una variable bastante intuitiva: a menos tiempo en la academia, menos fidelizado estará. Supongamos que de los 100 estudiantes nos salen las siguientes cuentas:

  • Entre 1 y 4 meses acumulados: 8 estudiantes
    • Número activos: 2
    • Número fugados: 6
    • Probabilidad de fuga: 6 a 2, o 6:2 o 3:1
  • Entre 5 y 8 meses acumulados: 12 estudiantes
    • Número activos: 5
    • Número fugados: 7
    • Probabilidad de fuga: 7 a 5, o 7:5
  • Entre 9 y 12 meses acumulados: 25 estudiantes
    • Número activos: 18
    • Número fugados: 9
    • Probabilidad de fuga: 9 a 18, o 9:18, o 1:2
  • Entre 13 y 16 meses acumulados: 30 estudiantes
    • Número activos: 24
    • Número fugados: 6
    • Probabilidad de fuga: 6 a 24, o 6:24, 1:4
  • Entre 17 y 20 meses acumulados: 15 estudiantes
    • Número activos: 12
    • Número fugados: 3
    • Probabilidad de fuga: 3 a 12, o 3:12, o 1:4
  • Más de 20 meses acumulados: 10 estudiantes
    • Número activos: 10
    • Número fugados: 0
    • Probabilidad de fuga: 0 a 10, o 0:10

Solo con esta variable, ya se puede entrever cómo se desarrollaría el scoring. Si hacemos esto mismo para cada variable de las arriba señaladas, al final tendríamos para cada una de ellas, umbrales de mayor o menor probabilidad de fugarse de un estudiante. Y ahora que tenemos todos estos valores, podríamos sacar el peso de cada variable en la propensión de que un cliente se fugue o siga activo con nosotros, pudiendo quedar algo tal que así:

  • meses acumulados: 20%
  • asignaturas matriculadas: 12%
  • % meses pagados en plazo: 25%
  • cantidad interacciones:
  • valor monetario centro:
  • número compañeros de clase en academia:

¿Cómo se obtienen estos pesos? De analizar las probabilidades de fuga que dan determinados valores de variable, y coger los factores con mayor capacidad predictiva (es decir, los que tienen un ratio X:Y más alto). Y así, para cada estudiante que tengamos en la academia, simplemente de multiplicar el valor de cada variable por estos pesos ponderados, podremos darle un score entre 0 y 1. En la siguiente representación gráfica nos sale una forma de representarlo de manera visual:

Modelo predictivo de fuga de clientes: priorizando acciones (Fuente: http://www.sas.com/offices/latinamerica/argentina/resources/asset/CI_Banca2012.pdf)
Modelo predictivo de fuga de clientes: priorizando acciones (Fuente: http://www.sas.com/offices/latinamerica/argentina/resources/asset/CI_Banca2012.pdf)

¿Y qué tendríamos que hacer ahora? Pues básicamente localizar nuestro público objetivo para evitar que se fuguen. Y, a ese público objetivo, aplicarles alguna acción. Acciones como: descuentos a los más propensos a irse, promociones adhoc a un conjunto de clientes que si bien no son los más propensos a irse ya no tienen la mejor experiencia de cliente, etc. etc. Aquí es donde los equipos de marketing entran con sus técnicas, y donde el análisis de datos ya no entra (aunque sí que pudiera aportar cierta evidencia respecto a cuales de estas técnicas han sido en el pasado las más efectivas). Por último, seleccionar bien el momento ideal para las acciones de retención dependerá del equilibrio a conseguir entre dos variables: Coste de prevención de fuga y la Tasa de éxito en prevención de fuga.

Estos mismos modelos de a la fuga, también se han trabajado con árboles de decisión (aquí para un modelo de abandono voluntario de clientes) o con modelos de regresión logística (ver aquí un caso interesante). Por cierto, cabría preguntarse por qué este tipo de análisis son tan necesarios para una empresa. Una gráfica para respondernos. Construir relaciones duraderas y sostenibles en el tiempo entre las empresas y sus clientes, permitiendo incrementar el índice de satisfacción, la involucración y la optimización del marketing de compromiso. Por lo tanto, contactar a los más propensos a fugarse da buenos resultados a una empresa. Buscamos clientes prescriptores.

Aumento de productividad con modelos predictivos (Fuente: http://www.sas.com/offices/latinamerica/argentina/resources/asset/CI_Banca2012.pdf)
Aumento de productividad con modelos predictivos (Fuente: http://www.sas.com/offices/latinamerica/argentina/resources/asset/CI_Banca2012.pdf)

Poniendo los datos a trabajar: el “Big Data” (Parte I)

Seguramente no os tenga que contar que introducir mucho sobre el concepto “Big Data”. Últimamente, está en todos los lados. Si cojo la definición de la wikipedia, haré referencia a sistemas informáticos que manejan y procesan grandes volúmenes de datos. En otros sitios, y con definiciones que a mí personalmente me gustan más, hacen referencia al crecimiento exponencial y la disponibilidad de datos, tanto estructurados y desestructurados.

Pero a mí me gusta más una definición que da el profesor Viktor Mayer de la Oxford Internet Institute, que dice algo así como: N = all. Es decir, el Big Data, nace y se define en muchos lugares como el eterno sueño de la estadística: que no haya que muestrear. Que no haya que analizar un todo considerando sus partes (representativas, claro). Es decir, que para obtener datos representativos y significativos de un estudio dado, no tengamos que elegir unos cuantos usuarios que por agregación representen al todo.

Y es que, según vimos los avances en la capacidad de procesamiento de datos y en el abaratamiento del hardware, pensamos que los ordenadores iban a ser capaces de procesar grandes volúmenes de datos, todos los datos, y que entonces íbamos a poder aplicar técnicas estadísticas para sacar muchas conclusiones de todo ello. Y con ello íbamos a ayudar a las empresas a vender más (detectando patrones de compra), a optimizar costes (detectando cuellos de botella o desperdicios), a encontrar más clientes (por patrones de comportamiento) y un largo etcétera.

Pero, amigos, perdonadme, pero yo veo en todo ello unos cuantos defectos que quería compartir con vosotros. En este mundo, hay demasiados falsos positivos (como señala Kaiser Fung, autor de Number Sense), que debemos ser conscientes que existen y no concluir nada sobre la base de los mismos. Los puntos que quiero tratar:

  1. Hacer Big Data sin “marco teórico”
  2. La muestra en Internet
  3. Significatividad estadística

A continuación, desarrollo estas ideas.

1) Hacer Big Data sin “marco teórico”

Cuando comenzó esto del Big Data, se escucharon muchas voces alrededor del “Fin de la teoría“. Con la gran cantidad de datos que íbamos a ser capaces de procesar, la teoría ya no iba a ser necesaria. Con suficiente volumen de datos, los números son capaces de hablar por sí solos.

Y con esto hablo de la eterna disputa entre correlación y causalidad. Si montamos una matriz de datos y observaciones de múltiples variables que pudieran no tener ninguna relación en su campo de conocimiento, pero que sí correlacionan bien… ¿qué podemos concluir? La respuesta, obviamente, puede ser, que sí, se comportan parecido, pero nada relacionado con la causación de una a otra. Correlacionar es barato y fácil. Causalizar complicado. Sino, creemos que los piratas son los causantes del cambio climático.

Fuente: http://www.treehugger.com/culture/talk-like-a-pirate-day-the-critical-relationship-between-pirates-and-climate-change.html

Y es que el Big Data es muy bueno en detectar correlaciones. Detecta muchas. Pero no nos dice cuál es la buena. Y es que hacer un trabajo de correlaciones sin un marco teórico lleva a estas cosas. A hacer estudios frágiles. Si no sabemos lo que está detrás de la correlación, no tendremos ni idea de qué podría hacer romper la correlación, y por ende, la relación y conclusión entre variables.

Y con esto saco la primera idea: siempre necesitamos empezar un estudio de Big Data con un análisis que entienda, represente y modelice el dominio de conocimiento que se está estudiando. Un modelo de datos, vamos: entidades y relaciones entre las mismas, que representen la vida real. El Big Data es una buena herramienta analizando “cosas comunes”, que no requieren mucha teoría. Pero cuando tenemos que considerar cosas más allá, cuidado. Necesitamos teoría. Necesitamos conocimiento del ámbito de dominio de conocimiento del que estamos hablando.

2) La muestra en Internet

Sabiendo que íbamos a ser capaces de capturar todo dato que anduviese por ahí (sensores, redes sociales, dispositivos móviles, satélites, bases de datos tradicionales, etc.), el muestreo estadístico iba a quedar obsoleto. Es decir, seleccionar un conjunto de individuos de una población para ser estudiados y concluir para toda la población, ya no iba a ser necesario. El eterno sueño de la estadística ahora se hacía realidad.

Cuando hablamos de datos, el tamaño no lo es todo. Tenemos que hablar de muestras siempre, que hace que tengamos que enfrentarnos a dos componentes:

  • Error de la muestra: el riesgo por la aleatoriedad que la muestra no sea “buena”. Eso sí, cuanto más larga la muestra, menor margen de error.
  • Sesgo de la muestra: cuando la muestra no es elegida al azar. Aquí se suele hablar del clásico ejemplo de las elecciones presidenciales americanas de 1936. Cuando las encuestas daban por ganador al republicano Landon frente a Roosevelt… simplemente, porque se había utilizado para preguntar en las encuestas, medios tecnológicamente más avanzados, donde estaba el electorado de Landon.

Y esto de la muestra, es algo que también olvidamos en el Big Data muy a menudo. Por ejemplo, el clásico caso de Google detectando epidemias antes de que comiencen. En este artículo, el título lo dice todo: “El fallo de Google Flu Trends y los que falla en el Big Data”. Aunque el fallo tiene más que ver con lo que veremos en el punto 3, lo que tenemos que tener claro quién es la “población digital”. Según un estudio del Pew Research Internet Project de 2013, por ejemplo, dejaron claro que el usuario medio de Twitter (es decir, con el que sacamos conclusiones del Big Data de Twitter) es joven y urbano. Por lo tanto, cuidado con las conclusiones 🙂

Y también tenemos que tener cuidado con las colecciones de datos que capturamos en un proyecto Big Data basado en Internet. Mezclamos dados capturados de diferentes maneras (formatos, estructuras, etc.) y con diferentes objetivos, por lo que la normalización de los datos de la muestra, es ciertamente complicada.

3) Significatividad estadística

Para que algo que concluyamos sea estadísticamente significativo, lo primero de todo, es que no haya emergido de la aleatoridad por la se rige el mundo 🙂 Esto parece algo obvio, pero quizás no lo sea tanto. Para evitarlo, como señaló John Ioannidis en 2005 en su famoso artículo, tenemos que afrontar el problema de las comparaciones múltiples.

Es decir, para concluir que A afecta y causa B, tenemos que comprobar y comparar A con otras cuantas variables (B, C, D…). Es decir, no basta solo correlacionar A con B, sino tenemos que probar suficiente correlaciones entre A y el resto de variables (B, C, D…), para saber que efectivamente eso es así. Así que no digamos nunca a una tienda que con no sé qué campaña de marketing en Internet mejorarán sus ventas, si no hemos hecho ese mismo análisis de esa campaña de marketing con otras variables y sus ventas.

Y esto en el Big Data, se olvida muy a menudo. Correlacionamos churras con merinas, y olvidamos hacerlo con otras para ver si efectivamente no tenemos alguna variable por ahí que nos fastidie la argumentación que tan bien nos va a venir para el informe o proyecto a entregar a mi cliente.

Con esta breve entrega, no quiero tampoco decir que todos los proyectos de Big Data son fallidos. Existen buenos proyectos. Como Google Translate. Sin un marco teórico por detrás, una caja negra que nos traduce entre idiomas. ¿Cómo lo hace? Con la mezcla entre estadística e informática que llamamos Machine Learning. Es decir, un análisis estadístico de millones de documentos traducidos por humanos y buscando patrones que pueda copiar. Ofrece muy buenos resultados sin unas reglas gramaticales pre-programadas.

Pero no todo el Big Data es Google Translate. Y tenemos que ser respetuosos con la teoría, la muestra y la significativad estadística 🙂 Así que cuidado cuando os hablen de Big Data 😉

Internet Eguna 2012 en la Universidad de Deusto: “Gestión de personas 2.0”, por Alex Rayón Jerez

Exposición de Alex Rayón Jerez dentro de la Jornada del 17 de mayo, de 17:00 a 20:00 horas en la Universidad de Deusto

Gestión de personas 2.0

La nueva economía y la sociedad del conocimiento están transformando los paradigmas y funcionamientos sobre los que se asentaba la gestión de las organizaciones. Entre los procesos de negocio que están sufriendo importantes cambios, está la gestión de personas, que no vive ajena a esta nueva realidad. Los responsables de Recursos Humanos (en adelante, Gestores del Talento) ya han incorporado Internet en su día a día.

Sin embargo, a estas alturas del siglo XXI la mayoría de las organizaciones siguen aplicando modelos de dirección y de liderazgo que fueron creados hace más de 100 años. Las necedades en aquella época, eran otras. En la Era del Conocimiento, con las Organizaciones 2.0, consiste en demostrar que el talento humano es precisamente el recurso mas importante con el que cuenta una empresa u organización de cualquier tipo.

De cuidar y captar el mismo, depende el devenir de las organizaciones, entendiendo las mismas como un conjunto de personas en aras de lograr un objetivo común. Google lleva años trabajando con enormes bases de datos y una analítica muy elaborada para fichar al talento que más se adecúa al perfil de persona que quiere en sus filas. ¿Y cuál es ese perfil para tu organización? Ahí, la minería de datos, y las herramientas de análisis en la era del Big Data tienen mucho que aportarnos.

Las Organizaciones 2.0 se caracterizan por su capacidad innovadora y de adaptación al entorno estructurándose de manera redárquica. Y como toda estructura en red, el flujo de información se convierte en fundamental para alinear los intereses y objetivos de todos los agentes. Aquí, las herramientas de comunicación interna y externa 2.0 tienen mucho que aportar. Ello fomenta la aparición de una cultura innovadora, que está haciendo florecer un nuevo tipo de directivo, estilos de liderazgo transformadores. El líder en lo que a gestión de personas se refiere no puede ser esquivo a este fenómeno.

Y todo ello, haciendo uso de herramientas 2.0, que favorezcan la creación de una identidad digital en clara sincronía con la identidad offline. En esta nueva identidad, los Gestores de Talento 2.0 deberán adoptar un modelo de gestión del talento humano que permite trasladar al mundo empresarial los principios básicos de la interacción, integración, colaboración, información, síntesis y la capacidad de generar impactos.

El factor escasez existe para el talento humano. Así, el Employer Branding, o el objetivo de llevar la etiqueta de “El mujer lugar para trabajar” será un imperativo en las organizaciones. Gestionar la empleabilidad o liderar el desarrollo profesional. Buscar la motivación intrínseca y extrínseca del talento de la organización requerirá construir repositorios de conocimiento donde el talento de tu organización pueda aprender de manera autónoma y significativa. Montar un Elgg, un Moodle, webinars de manera regular, un Mahara o BSCW, será un recurso al que tengan que recurrir las organizaciones tarde o temprano.

¿Y tú como talento ya te has planteado dónde tienes que estar? ¿Conoces LinkedIn? ¿Te has planteado qué te pueden aportar Facebook y Twitter para encontrar empleo? ¿Conoces Xing, Viadeo, Open Science Lab, Wisestep.com o Plaxo?

Y, por último, una vez que te incorpores en la organización, ¿ya sabes qué políticas de uso de las plataformas de Social Media son recomendables? ¿Conoce la organización la legislación aplicable a las redes sociales en la selección de talento? ¿Y las políticas de uso de las redes sociales en las empresas? ¿Tiene la organización a la que te incorporas un código de conducta en lo que a redes sociales se refiere? ¿Has oído hablar de la polémica política de privacidad de Facebook?

ALEX RAYÓN JEREZ

Alex Rayón Jerez, Bilbaíno de 27 años, Ingeniero en Informática, Ingeniero en Organización Industrial, Máster en Recursos Humanos por la Universidad de Deusto, pero, sobre todo, apasionado del emprendimiento y de la innovación. Actualmente trabaja como profesor del Departamento de Tecnologías Industriales de la Universidad de Deusto, es investigador en la línea DeustoTech-Learning y coordinador TIC-Docencia de la Universidad de Deusto. Además, y para terminar de cerrar su ciclo académico, está desarrollando su tesis doctoral en el campo del mobile Learning.

Como profesor del Departamento de Tecnologías Industriales, imparte asignaturas del área económico-financiera (Contabilidad y Finanzas, Métodos Cuantitativos, Organización de la Producción, Finanzas de la Empresa, Sistemas de Control de Gestión, Macroeconomía y Oficina Técnica). En lo que a su actividad investigadora se refiere, sus áreas de conocimiento e investigación son la Web Semántica, Business Intelligence, Business Analytics, Mobile Learning y Learning Analytics.

Sobre estas áreas de conocimiento, imparte cursos, conferencias, organiza eventos de difusión, colabora con medios escritos como revistas y periódicos, y mantiene una importante presencia como generador de contenidos en plataformas de Social Media, como atestiguan su blog personal, su Twitter, su Facebook, canal de presentaciones en SlideShare o su canal de vídeos en Blip.tv.

Esto es lo que hace en su horario regular, porque en el resto del día disfruta desarrollando proyectos de negocio que llevan a que en la actualidad esté embarcado ya en tres proyectos empresariales: UBM (análisis científico de marca), EPD (transferencia tecnológica y desarrollo de proyectos) y Bidenet (ingenierías de rutas en Internet y estrategias en Social Media). Todo ello, rodeado de un equipo de alumnos y ex-alumnos de la Universidad de Deusto, como filosofía de apuesta por el enorme talento que atesoran estos jóvenes.

Tras trabajar un año en Estados Unidos, conoció el ecosistema de emprendimiento empresa-universidad que tanto defiende en la actualidad. Viviendo bajo ese contexto, en un país tan enriquecedor como es EEUU, con gente de todas las culturas, bajo una actitud por los desafíos constantes y un dinamismo por los cuatros costados, Alex aprendió las cualidades que hoy caracterizan su actitud para afrontar nuevos retos en todos los planos de su vida. Disfruta de cada día como si fuera el último, pues nunca entiende que tiene que trabajar, sino disfrutar de otro día más rodeado y aprendiendo de gente que comparte su filosofía por el trabajo, la dedicación y el compromiso.

Puedes contactar con Alex en:

www.alexrayon.es/alex-rayon-20/

Gracias a las matemáticas acerté una vez 14 en la quiniela (Parte II)

No juguéis lotería de navidad ni lotería del niño; mejor invertid ese dinero en una buena quiniela donde se puede hacer una apuesta más racional y mucho más divertida 🙂

[Continuación del artículo anterior]

Es el momento de plantearnos unas preguntas clave.

  • ¿Cual es la esperanza matemática de la quiniela? No es una pregunta fácil de responder de forma genérica porque esta puede variar mucho jornada tras jornada en función del número de apostantes, número de acertantes, sorpresas futbolísticas que se produzcan, etc. Este un valor que hay que calcularlo para una jornada concreta si queremos que sea realmente útil.
  • ¿Es posible realizar una estimación de la esperanza matemática para una jornada concreta? Sí, gracias a los pronósticos de todos los jugadores y a las webs de apuestas es posible calcular una estimación de la esperanza matemática. Se hace incluso a nivel de partido, la EM global es la suma de cada una de las EM de cada partido. Hay un pero, las probabilidades obtenidas no son probabilidades reales, sino subjetivas al ser pronósticos de la gente. Pero se puede ir más allá. Es un tema largo de explicar y del que se puede hablar largo y tendido, pero resumiendo es posible realizar un análisis matemático del histórico de pronostico de jugadores y de los resultados reales, a partir del cual se pueden transformar esas probabilidades subjetivas en probabilidades reales.Investigando un poco en foros se pueden encontrar sorpresas como que las probabilidades reales siguen una distribución normal con una media y desviación típica calculadas, y que una probabilidad subjetiva puede convertirse en una real dentro del valor que le corresponde en esa distribución normal.
  • ¿Es posible jugar a la quiniela como quien invierte un gran capital en bolsa o en mercados especulativos? La respuesta es sí, por algo existen las peñas de quinielistas. Cada peña tiene su método al igual que cada maestrillo tiene su librillo, pero gracias a la esperanza matemática en principio es posible llegar a un punto en el que es posible reducir todos los sucesos estocásticos y futbolísticos a exclusivamente criterios de rentabilidad. Este método requiere inversiones bastante grandes, que los apostantes particulares e incluso la mayoría de las peñas de no pueden permitirse. En palabras de Garcia Pelayo (“el saqueador de casinos”) la quiniela es rentable con una inversión gigantesca y constante siempre que se siga la norma universal de juego científico para cada partido.
  • ¿Se puede aplicar la esperanza matemática en inversiones pequeñas? Por supuesto que si, pero en apuestas pequeñas siempre es necesario un filtrado previo en cuanto a las posibilidades de pronostico realizado que es una posibilidad más de fallo.

¿Que conclusiones podemos sacar de todo esto?

La conclusión principal es que lo más racional para sacar rentabilidad en la quiniela (si se juega muchas veces) es tratar de maximizar la esperanza matemática, que en la practica se traduce en hacer pronósticos que no sean los más probables ni los más improbables. Para poder sacar rentabilidad de la quiniela otros tienen que perder, hay que acertar cuando los demás fallan.

A primera vista lo más racional parece ser apostar por lo más probable, pero no es así. Si apostamos a lo que la mayoría de la gente apuesta, habrá tantos acertantes que los premios se reducen tanto como para no poder recuperar la inversión. Por el contrario, si apostamos todas las jornadas por las máximas sorpresas futbolísticas es tan improbable que suceda que lo más seguro es que no nos toque nunca. Por ello la mentalidad a tener en la quiniela es hacer aquel pronostico que maximice la EM, buscando las sorpresas justas y necesarias, las más rentables.

Otra conclusión que podemos sacar es que aplicando EM vamos a tener menos aciertos totales pero con más calidad. Sale más rentable un acierto de calidad que varios aciertos pequeños, hay que tener la mente preparada para muchos fallos.

Reducciones matemáticas en la quiniela

Terminadas las reflexiones, voy a resumir en un sentido más práctico cómo invertir una pequeña cantidad en la quiniela de forma racional.

Antes voy a contaros mi caso, logré acertar 14 en la quiniela (aquel año no había pleno al 15, que pena) la primera vez que lo intentaba de esta forma, ¡mejor debut imposible! También era la primera vez que utilizaba el programa informático que nunca podré olvidar (Premium!3), ¡Eso si que merece un autentico WOW de primer uso!

También coincidía con el comienzo de la carrera de informática en la Universidad de Deusto ¡Mejor comienzo como informático imposible! No es que me hiciera rico, al haber varios acertantes esa jornada, el premio solo se quedó en casi dos millones de las antiguas pesetas (suena mejor así que en euros :D), pero para una inversión de unos 36€ no me puedo quejar. Podía haber ganado bastante más en caso de que se hubiera dado una sorpresa que tenía incluida en el pronóstico, o también podía haber ganado menos en el caso de que el arbitro no hubiera anulado un gol al rival del F.C. Barcelona en el último minuto que suponía el empate (si, ironías del destino, el acierto de 14 dependía en el último momento del resultado del F.C. Barcelona jugando fuera de casa, pudiendo ver el partido en directo apagué todas las radios y televisores y miré el resultado final en livescore :D). Desde entonces no he vuelto a repetirlo, no juego todas las semanas, solo de vez en cuando, pero algún acierto de 12 sí que he logrado.

Lo primero que necesitamos para una inversión racional son las herramientas adecuadas, todo el método puede hacerse a mano pero es muy tedioso. Hay muchas alternativas, yo siempre seré fan de Premium!3, aunque actualmente ya están en la versión Premium!2011. También tenemos alternativas open source muy buenas como Free1X2.

El primer paso es realizar un pronóstico en base a nuestros conocimientos futbolísticos. Hay muchísimas formas de hacerlo, la que yo hice fue 8 triples + 2 dobles + 4 fijos. Es algo muy personal en cuanto al riesgo que queramos asumir. Otros prefieren jugar menos fijos o más dobles, tenemos mucha flexibilidad, pero esta claro que cuanto más queramos asegurar, mayor inversión es necesaria para garantizar buenos porcentajes después de la reducción matemática final.

El siguiente paso es realizar un filtrado sobre todas las combinaciones del nuestro pronóstico. Uno de los filtros más comunes es jugar con el número de variantes finales (una variante es una X o un 2 en el resultado de un partido). Utilizando como aliado a toda la base de datos histórica de quinielas se puede calcular el patrón de que en mas del 95% de las veces el número de variantes del resultado de una quiniela está entre 4 y 10, por lo que descartamos todas las combinaciones que no cumplan está condición esperada.

Otro filtro que a mi me gusta bastante utilizar para conseguir mejores porcentajes finales, es asignar columnas probables de dobles dentro de los triples permitiendo cierta tolerancia de errores. Acertando por ejemplo al menos 6 dobles cualquiera dentro de los 8 triples se puede realizar una muy buena optimización de las combinaciones generadas a costa de una probabilidad de fallo de pronostico un poco mayor.

Como no podía ser de otra forma, la esperanza matemática es una opción muy interesante para realizar un filtrado adicional. Las herramientas permiten hacer un análisis de rentabilidad para cada partido, a través del cual podemos filtrar solo aquellos valores que nos son favorables en términos de coste/probabilidad.

Hay muchas más opciones del filtrados posibles, una vez que hemos seleccionado todos los deseados llega el momento clave de hacer la reducción matemática final. Esto es lo que nos permite jugar con pequeñas inversiones. Aún con todos los filtros comentados las combinaciones necesarias para garantizar un premio máximo requieren una gran inversión. Las reducciones matemáticas nos permiten garantizar premios menores pero seguir teniendo a tiro los premios mayores.

A modo de ejemplo, con una inversión de unos 30-40 €, unos filtros adecuados y en el caso de acertar todos los pronósticos realizados (lo más importante), podemos tener asegurado un premio de 12, un porcentaje aceptable de 13 y seguir teniendo a tiro el de 14.

Conclusiones finales

  • No juguéis lotería de navidad ni lotería del niño; mejor invertid ese dinero en una buena quiniela donde se puede hacer una apuesta más racional y mucho más divertida 🙂
  • Si queremos ser racionales en cualquier juego de azar previamente debemos averiguar la cantidad en premios, probabilidades y calcular con precisión cual es nuestra esperanza matemática. Es posible que no nos toque nada pero al menos habremos hecho todo lo que está en nuestras manos para mejorar nuestras posibilidades.
  • Para ser racional jugando a la quiniela es necesario que juegue mucha gente no racional, bonita contradicción 🙂

Gracias a las matemáticas acerté una vez 14 en la quiniela (Parte I)

En base a todo esto se puede definir la norma universal de juego científico, que nos dice que lo racional es apostar cuando se pueda equilibrar a favor del jugador la probabilidad de acierto de acuerdo a los premios estimados. […] Las reducciones funcionan muy bien, hay hasta un ranking de reducidas récord, pero para ser rentable sigue siendo necesario un filtrado previo difícil de acertar debido a la aletoriedad pura del sorteo. No sucede así en la quiniela, donde las reducciones matemáticas son una herramienta fundamental en pequeñas inversiones.

Este humilde blog tiene el privilegio de recibir una contribución a modo de artículo de Imanol Fernández, Software Engineer en Ideateca y compañero de promoción de Ingeniería en Informática de la Universidad de Deusto en aquel ya lejano Julio del 2008. Podéis encontrar a Imanol en Twitter, y todavía mejor, podréis ver su enorme talento en algunos trabajos que ha desarrollado, a saber:

  • VideoPuzzle: aplicación ganadora del premio a la mejor aplicación para dispositivos móviles App Circus Madrid 2011 y que será la candidata de España en el proximo Mobile World Congress para competir contra los ganadores del resto de países del mundo.
  • Slide Soccer: juego de fútbol-chapas multiplayer que ha tenido 1 millón de descargas en un mes y que ha estado en el top 10 de aplicaciones iOS.
  • Cocoonjs: entorno que ejecución javascript super-optimizado para ejecutar los juegos canvas HTML5 en entornos mobiles multiplataforma, haciendo una implementación propia de un canvas via OpenGL.
  • iDragon Ball Sports iPhone & iPod Touch Game: uno de los primeros juegos de realidad aumentada para iOS inspirado en las Bolas de Dragón y la serie.

Tras conversar por Facebook sobre este artículo que escribí sobre el anumerismo del juego, Imanol quiere demostrar que dicho anumerismo no se puede extrapolar a otra lotería/apuesta del estado como es la quiniela. Lo he partido en dos posts, porque creo que es sumamente interesante analizarlo con detenimiento. Pasen, vean y disfruten.

***

Gracias a la invitación de Alex y en relación con los recientes posts sobre la irracionalidad de la lotería, hoy vengo a contaros mi experiencia sobre como logré una vez 14 aciertos en la quiniela con la ayuda de las matemáticas. Antes de entrar en detalle voy a filosofar un poco sobre la racionalidad de jugar a la lotería, a otras apuestas del estado o a cualquier tipo de juego en general.

La conocida cita de Robert A. Heinlein es una buena forma de comenzar la reflexión:

La lotería es un impuesto que grava a las personas que no conocen las matemáticas.

Estoy 100% de acuerdo con esta cita respecto a la lotería de navidad (luego veremos la demostración), pero a partir de aquí surgen varias preguntas ¿es extrapolable esta afirmación a otras loterías/apuestas del estado como pueden ser la quiniela, la primitiva o el euromillón? ¿es posible invertir en la quiniela como quién invierte un capital en bolsa? ¿existe alguna generalización matemática que estime la racionalidad de participar en cualquier juego? ¿es la quiniela un juego de azar?

Para ayudar a responder a estas preguntas vamos a profundizar en un concepto matemático fundamental:

La norma universal de juego científico

No hay mejor forma de presentar un concepto matemático que con una bonita integral 😀

Esta integral representa el concepto de esperanza matemática, que formalmente representa el valor medio de un fenómeno aleatorio. Si llevamos este concepto al contexto de las loterías del estado, al ser las variables de estas apuestas discretas se puede transformar esta integral en un sumatorio del que podemos sacar una definición más fácil de entender, la esperanza matemática es la relación entre los premios obtenidos y la probabilidad de acierto.

El resultado de esta relación comparado con el precio de la apuesta realizada nos da una estimación de lo favorable o desfavorable que es un juego para el jugador. Vamos a verlo con unos ejemplos:

  • Si la esperanza matemática es igual a la apuesta realizada, se trata de un juego justo. Por ejemplo un juego en el que se paga 6 a 1 por acertar el número que sale en un dado honrado de 6 caras, la EM es 6 * (1/6) = 1€ = cantidad apostada. La expectativa después de muchos lanzamientos es obtener un beneficio de 0 € y una perdida de 0€.
  • Si la esperanza matemática es menor a la apuesta realizada, se trata de un juego desfavorable para el jugador y favorable para la banca. Por ejemplo el mítico juego de la ruleta, la EM es la probabilidad de acierto (1/37) * el premio obtenido (36€) = 0.97€ por cada 1€ apostado. La expectativa después de muchos lanzamientos es perder una mínima parte de lo invertido.
  • Si la esperanza matemática es mayor a la apuesta realizada, se trata de un juego favorable para el jugador, una autentica ganga vamos. Por ejemplo si en el juego de la ruleta se pagase el acierto a 38€ en vez de 36€ nos queda una EM de 1.02€ por cada 1€, por lo que la expectativa tras muchos lanzamientos es la de ganar un 2% de todo el dinero invertido.

En base a todo esto se puede definir la norma universal de juego científico, que nos dice que lo racional es apostar cuando se pueda equilibrar a favor del jugador la probabilidad de acierto de acuerdo a los premios estimados.

Por supuesto, cualquier juego de lotería real está diseñado para ser desfavorable al jugador y favorable a la banca, por lo que en principio lo más probable es perder dinero. Pero en realidad esta afirmación solo es 100% cierta en condiciones y entornos perfectos, a veces la realidad supera a la ficción y es posible equilibrar en favor del jugador la esperanza matemática.

Un caso muy conocido es la historia de los Pelayo a los que han llegado a prohibir la entrada en la mayoría de casinos del mundo. Basándose en la premisa de que no existe la aleatoriedad perfecta en las ruletas y examinando miles de números ganadores en busca de sesgos e imperfecciones, fueron capaces de convertir el juego de la ruleta en un juego favorable.

Ahora vamos a analizar la esperanza matemática de las loterías del estado más jugadas en España: la lotería, la bonoloto o primitiva, y la quiniela.

  • ¿Cual es la esperanza matemática en la lotería de navidad? Simplificando el calculo se puede calcular en un 0.7, es decir, contra mayor sea la inversión es esperable perder un 30% de la cantidad invertida. No hay que confundir este valor de 0.7 con la probabilidad de ganar algo. Tener un alto valor de esperanza matemática no implica una buena probabilidad de acierto, solo indica que se trata de una inversión rentable si se repite lo suficiente. El valor de 0.7 es un valor parcialmente distorsionado debido a los grandes premios, que a primera vista puede aumentar la probabilidad percibida de ganar algo jugando un solo décimo. Visto desde otro modo la probabilidad de no ganar nada con un décimo es del 85%. Además, al ser un juego en el que no hay repeticiones en el conjunto de números premiados no es posible realizar ninguna optimización combinatoria como si puede hacerse en la bonoloto o primitiva. Por lo tanto, no hay mucho que hacer, jugar a la lotería es desfavorable y irracional. La única forma de jugar racionalmente a la lotería sería hallar algún sesgo en las bolas, pero al ser un sorteo que se realiza una vez al año y como el entorno cambia cada año es inviable.
  • ¿Cual es la esperanza matemática en la bonoloto, primitiva o euromillón? En este caso la esperanza varía entre cada sorteo, porque las cantidades recaudadas y el premio estipulado a cada categoría es variable en función del numero de participantes y acertantes (a diferencia de la lotería donde los premios son fijos). Calculando un promedio histórico se puede estimar que en este tipo de loterías la esperanza matemática promedio está en torno a un 0.5. Por lo tanto contra mayor sea la cantidad invertida y contra más tiempo se juegue las perdidas esperables serán del 50% de la inversión realizada.

¿Hay alguna forma matemática de hacer este tipo de lotos más favorable al jugador? Aparentemente no, pero en este tipo de sorteos y también en la quiniela es posible que no haya ningún acertante y se genere un bote acumulado en sucesivos sorteos, que puede provocar una curiosidad estadística. Si se acumula el bote suficiente y en una jornada determinada hay pocos apostantes puede darse el caso de tener una esperanza matemática positiva.

Un caso extremo sería un bote acumulado más grande que el coste de todas las combinaciones posibles, y un solo apostante. Ese único apostante tendría asegurado una rentabilidad muy grande. ¿Podría llegar a darse un caso así en la vida real? Es muy difícil, pero si se han dado casos de esperanza matemática mucho más altas que el 0.5 de promedio (en una bonoloto de 1990 con mucho bote acumulado se dio una EM de más de 3). Evidentemente es situación muy muy poco habitual, porque a más bote más gente tiende a jugar, pero si se llega a botes extremos o pocos participantes con un buen bote acumulado puede darse en la práctica.

Otro concepto matemático que puede ayudarnos a mejor la probabilidad de acierto en este tipo de loterías son las reducciones matemáticas. Se trata de optimizar las combinaciones jugadas para garantizar un premio menor al más grande con el mínimo combinaciones posibles necesarias. Las reducciones funcionan muy bien, hay hasta un ranking de reducidas récord, pero para ser rentable sigue siendo necesario un filtrado previo difícil de acertar debido a la aletoriedad pura del sorteo. No sucede así en la quiniela, donde las reducciones matemáticas son una herramienta fundamental en pequeñas inversiones.

La Esperanza Matemática de la quiniela

La quiniela tiene cuatro pilares fundamentales que la hacen diferente respecto al resto de juegos y mucho más interesante matemáticamente:

  • La quiniela no es un juego de azar puro: en base a conocimientos futbolísticos se pueden realizar apuestas o filtrados más inteligentes de los que se pueden hacer en lotería, bonoloto o primitiva.
  • Las combinaciones no son equiprobables: es una diferencia fundamental, en la lotería, bonoloto y primitiva todas las combinaciones son equiprobables. En la quiniela cada pronostico de cada columna tiene probabilidades distintas, lo que da mucho juego a la hora de aplicar criterios matemáticos.
  • Base de datos y resultados históricos: disponemos de una base de datos enorme de resultados de la que se pueden sacar patrones interesantes para realizar filtrados o que nos pueden ayudar en el pronóstico.
  • Estimaciones de pronósticos reales: gracias a webs de quinielas online y de apuestas deportivas se tienen estimaciones para cada partido sobre lo que apuesta la gente que pueden ser muy útiles para aplicar criterios de esperanza matemática y rentabilidad.

¿Y esto a qué me lleva? De momento, esperad a la siguiente entrega, ya que este post continuará con las conclusiones y preguntas clave para la quiniela, no os lo perdáis 😉