Predicción de resultados electorales: MogIA y Trump

Abramos esta publicación con un titular que a muchos de nosotros nos sorprendía en su día:

Estas herramientas de inteligencia artificial tan de moda últimamente, acertaron. Una herramienta desarrollada por la empresa Genic.AI, denominada MogIA, y que se fundamenta en unos algoritmos de inteligencia artificial, que dijeron que sería Donald Trump el ganador.

Pero no venía yo hoy a introducir más ruido en unas elecciones ya de por sí bastante “movidas” (por decirlo de alguna manera). Lo interesante de la predicción de resultados electorales no es tanto quién gana (que también, claro), sino cómo funcionan. Vengo a hablar de este tipo de herramientas de predicción, que tantos titulares están generando en los últimos tiempos. En este caso, la herramienta MogIA, se alimenta de 20 millones de puntos de datos de plataformas “públicas” (entiéndase en el contexto de datos) como Google, Facebook, Twitter y Youtube. Una vez con los datos en la mano, crea modelos para predecir resultados.

La herramienta fue creada allá por 2004. Desde entonces, no ha fallado. Siento introducir más pesimismo en el ambiente, pero los datos y los algoritmos son así. Es más, tengo aún peores noticias; este tipo de sistemas, cuyo funcionamiento paso a explicar enseguida, son cada vez más precisos: cuantos más datos reciben, más aciertan.

La hipótesis del autor del modelo de predicción es sencilla: aquellos candidatos que más “engagement” (¿reacción? ¿compromiso?) generan entre los usuarios en redes sociales, son los preferidos. Justo hace un par de días nos recordaba el bueno de Nate Silver (otro de los que está mucho en este tipo de modelos predictivos), que todos los modelos hacen suposiciones:

Es decir, que todos los modelos suponen hechos que luego debemos hacer que la evidencia contraste. No son suposiciones basadas en cuestiones subjetivas, sino en datos. El propio Nate Silver no para de publicar sobre la evidencia de las mismas, como una forma de hacer público su modelo y someterlo al escrutinio público.

¿Y qué hace MogIA para que hasta en los telediarios haya salido? Pues bueno, lo primero de todo, se trata de un modelo muy preciso, como decía. Ha acertado todas las últimas elecciones (incluyendo las primarias, donde nadie daba un duro por Trump). En este caso, ha sido más noticia que en anteriores ocasiones, porque estuvo contradiciendo la gran mayoría de las encuestas tradicionales. Y ahí es donde precisamente veo el punto de interés para este blog: ¿datos de redes sociales y su sentimiento o métodos de encuesta tradicional?

No deja de ser cierta una cosa que nunca debemos olvidar: la ambiguedad de los comentarios en redes sociales es importante. Que los tweets y comentarios de Donald Trump hayan generado más reacción que con anteriores candidatos, puede deberse a las barbaridades que ha comentado. Esto, todavía los algoritmos de Inteligencia Artificial, no han conseguido arreglar. Además, también hay otro elemento importante: ahora mismo hay más usuarios en redes sociales de los que había en elecciones anteriores. Por lo tanto, si el motivo de reaccionar tanto a los comentarios de Trump es su “provocación”, que haya más personas que reaccionen, solo amplificaría el problema de raíz. Pero quizás, quién sabe, esto forme parte de la propia estrategia de Donald Trump.

Esto creo que tendría que destacarse más cuando se habla de este tipo de algoritmos. Pero esto no quita a que montar modelos predictivos basado en datos de redes sociales y datos públicos esté siendo cada vez más popular. El pasado Septiembre, Nick Beauchamp, profesor de la Northeastern University, publicó un artículo donde demostraba cómo había una similitud muy alta entre los 100 millones de tweets publicados sobre las elecciones de 2012 y los resultados electorales de los estados.

Esta precisión en los resultados se debe a la nueva era de los algoritmos. Y esto, de nuevo, es lo que a mí más me llama la atención. Si bien con anterioridad, como decía el bueno de Nate Silver, los modelos muchas veces reflejaban los sesgos de su desarrollador, los algoritmos de aprendizaje (Machine Learning, vaya), van aprendiendo de su entorno. Es decir, son piezas de software que han sido enseñadas a aprender. Y por lo tanto, evitamos tener que decirles nosotros qué tienen que hacer. Y esto es lo interesante; y lo que los hace más objetivos. Y lo que provoca más miedo en este caso que pudiera estar dando como ganador a Trump.

Y es que estamos entrando en una era en la que no solo los resultados electorales son objeto de predicción. Muchas otras cosas. Y es que el software se está volviendo más inteligente según puede ir creando sus propias reglas a partir de los datos que va observando.

El software, su complejidad y los retos en la industria

Hace ya unas semanas que topé con este artículo que habla sobre la incorporación del software al mundo de la automoción. Al artículo alerta sobre el grado de complejidad que estamos alcanzando con los nuevos vehículos y sus prestaciones tan avanzadas: vehículos de conducción automática, sensores, telecomunicaciones, etc.

Precisamente estos días Ford anunciaba que se transformaba: de una empresa que fabricaba y comercializaba vehículos, a una empresa que ofrece soluciones de movilidad. Un reto, éste, que nos tiene que ocupar y preocupar a los humanos en los próximos años/décadas. Ford, a toda costa, quiere evitar el caso Kodak: la transformación digital de la industria no quiere que le coma. Así, Ford ahora ha puesto en marcha proyectos para recoger datos sobre hábitos de consumo y experimentar con soluciones. ¿Qué deparará estos proyectos y esta reorientación estratégica? Interesante movimiento.

Smart Mobility Plan de Ford (Fuente: http://i.blogs.es/83d3a3/smart-mobiltity-plan/650_1200.png)
Smart Mobility Plan de Ford (Fuente: http://i.blogs.es/83d3a3/smart-mobiltity-plan/650_1200.png)

Dos son los focos por los que apuesta Ford en cuanto a soluciones de movilidad se refiere: el fenómeno del car-sharing y los automóviles autónomos. En estos modelos de movilidad, los datos, el mantenimiento preventivo, la predicción de demanda de flotas de vehículos en zonas y horas en una ciudad, etc. se tornan fundamentales. Es decir, los sospechosos habituales en cuanto a paradigmas habilitantes digitales se refiere: Big Data, Internet of Things, Industria 4.0, etc.

Por todo ello, resulta ya un tópico decir que el software va a jugar un papel clave en todo esto. Junto con el hardware y las redes, constituyen los ejes clave sobre los que pivota esta transformación digital de muchas industrias. Estamos ya ante las máquinas más sofisticadas del planeta. 100 millones de líneas de código incorporan los nuevos vehículos (frente a las 60 millones de líneas que tiene Facebook y las 5 millones de líneas que tiene el colisionador de hadrones, para que se hagan a la idea de la complejidad de la que habalmos). Estamos ante las primeras máquinas que están alcanzando los límites biológicos de la complejidad. Lo cual está muy bien: más seguridad, optimización de las rutas para evitar perder tiempo, frenos automáticos, etc.

¿Cuál es el problema? Parte lo ha sacado a la luz el caso de Volkswagen. Que cada haya más software en los vehículos, efectivamente mejora las prestaciones y nos hace confiar más en la conducción, nuestra experiencia al volante, etc. Pero, también hace que sea más fácil manipular parte de su funcionamiento. Y, como suele ocurrir, cuando este software es propietario, es una caja negra, el usuario no sabemos lo que hace, lo que procesa, qué decisiones toma, etc.

Y esto, obviamente, trae otro problema. Quizás de una dimensión más ética. Cada hay más vehículos de los principales fabricantes llamados a revisión por algún problema relacionado con el software. El caso de Volkswagen es solo uno más (aunque este se ha agravado porque esta revisión conlleva otros escándalos asociados). En Julio del 2015, Ford revisó 432.000 vehículos por un problema de software que hacía que el vehículo pudiera seguir encendido a pesar de haber sido apagado. Toyota, en Agosto de 2015, 625.000 vehículos revisados por otro problema de software que apagaba el sistema híbrido de sus vehículos cuando estaban siendo éstos conducidos.

El pasado Julio, leí el siguiente artículo, muy en relación a todo esto: “Hackers Remotely Kill a Jeep on the Highway—With Me in It“:

Hackers Remotely Kill a Jeep on the Highway—With Me in It (Fuente: http://www.wired.com/2015/07/hackers-remotely-kill-jeep-highway/)
Hackers Remotely Kill a Jeep on the Highway—With Me in It (Fuente: http://www.wired.com/2015/07/hackers-remotely-kill-jeep-highway/)

Básicamente, sacaba a colación de todo esto los riesgos que entraña que cada haya más software en los vehículos. Las novedades y la emoción de los nuevos retos muchas veces nos ciegan ante los riesgos. El coche autónomo es uno de los ejemplos. No podemos olvidar, en este caso, temas tan relevantes como la seguridad, el cibercrimen, hackers maliciososos o errores de programación humanos. Según el reciente estudio “Internet of Things Research Study“, se ha visto que el 80% de los dispositivos generales IoT analizados presentaban potenciales problemas de seguridad.

Ante estas situaciones, creo que es importante que se tomen medidas importantes. Aquí veo dos medidas importantes que llevo tiempo abanderando:

  1. Todo código software que genere comportamientos autónomos de objetos, deba estar supervisado, regulado o certificado.
  2. Todo código software que genere comportamientos autónomos de objetos, debe ser libreabierto.

EEUU está ya trabajando sobre una nueva legislación para disponer de estándares que protejan frente a ataques de terceros. General Motors ya tiene un Chief Product Cybersecurity Officer. Tesla un Security Chief Officer.  Por lo tanto, parece que en los países más avanzados en la materia, movimientos alrededor de ello ya existen.

En cuanto a la apertura de este software “delicado”. Tesla, una compañía que ofrecía 10.000 dólares a quién encontrase problemas de seguridad en su software. Una compañía que abrió su software, porque creía encarecidamente que iba a ser mejor para la mejora del mismo. Y que con ello, se ha convertido en un caso de estudio de la innovación abierta y la contribución global y colectiva a un tema tan delicado como es el software. Además, expertos y programadores podrían auditar el software en búsqueda de mejoras y problemas.

¿Y qué puede pasar si no hacemos estas apuestas? Rob Kitchin, de la universidad de Maynooth, hablando sobre el Big Data, siempre alerta de dos riesgos: 1) Que sea utilizado como una tecnología de control y vigilancia; 2) Que sea un mecanismo de discriminación laboral, criminal o de consumidores. No es hoy el día de hablar de estos retos sobre el Big Data, pero sí extrapolar su tesis a lo que hoy nos ocupa. ¿Qué miedos tengo con que sea la “industria” la que controle un asunto tan delicado como es el software de nuestros vehículos? Pues que puedan ocurrir estos mismos sucesos de discriminación, por ejemplo. ¿Y si un día una marca decide pasar los datos del patrón de conducción que yo tengo a mi seguro y empezar a ganar dinero con esos datos? Esto es algo que las compañías de seguros llevan tiempo ansiando y haciendo. Y aquí, podría haber un fenómeno de discriminación, llegando incluso a rechazar querer asegurar a personas o perfiles “peligrosos”. ¿Y si por saber algo sobre mi estilo de conducción o las rutas que yo tomo, un fabricante, traspasa los datos a mi empresa, y mi empresa decide prescindir de mí por estos motivos? Un caso de discriminación laboral. Interesante

Como alertaba en un artículo anterior hablando sobre las TIC y educación, me preocupan siempre los avances que son liderados e impulsados por la industria fundamentalmente. ¿Nadie más lo controla ni audita? El software es un asunto delicado y complejo. Demos una vuelta alrededor.