Inteligencia Artificial y los límites de la razón

En muchos artículos que leo se da por hecho que con los coches autónomos los accidentes desaparecerán y con ellos los seguros de coche que quedarán relegados a reparaciones y atención en carretera. Aunque muchas veces se de a entender lo contrario los primeros que celebrarían que esto ocurriese serían las aseguradoras, ellas ganan dinero cuando no hay accidentes. Desgraciadamente es una imagen irreal, los accidentes seguirán ocurriendo con los coches autónomos. En menor número ya que solo con eliminar los conductores cansados, temerarios, que miran el movil o bajo los efectos del alcohol o/y las drogas ya caerá bastante el número de accidentes. Pero seamos sinceros los buenos conductores, aquellos que están atentos, respetan todas las normas y son cautelosos lo hacen realmente bien. Los coches autónomos van a permitir gestionar y organizar el tráfico como nunca antes pero no van a ser perfectos. Vamos a usarlos como ejemplo para ver cuáles son los límites de la I.A.

Límites físicos para ejecución

Nuestro coche autónomo va circulando por una calle de un solo carril con coche aparcados a los lados cuando sin previo aviso aparece un viandante de detrás de una furgoneta a escasos tres o cuatro metros delante del coche. Por mucho que la I.A. frene la inercia va a arrastrar el coche hasta que atropelle al peatón, la otra opción es dar un volantazo y chocar con los coches aparcados. Ambas opciones son un accidente y es físicamente imposible evitarlo por muy eficaz que sea la I.A.

Límites físicos para el cálculo

Posiblemente el límite más conocido sea la capacidad de cálculo del sistema. Toda I.A. para ser útil ha de dar la respuesta en un tiempo finito y breve. Un sistema que tarde cuatrocientas millones de veces la vida del universo en dar una respuesta puede dar con la solución perfecta pero no resulta muy útil. Cuando juegas al ajedrez contra un software este responde con un movimiento suficientemente bueno pero no sé sabe si el mejor. En el caso de los coches autónomos cada elemento que tengan que “vigilar” aumenta la complejidad del problema (aumenta el espacio de búsqueda) y aumenta el tiempo que el sistema tiene que usar en detectarlo (reconocerlo, encontrar su límites, situarlo en el espacio, predecir su movimiento para anticiparse). Sin embargo el tiempo que tiene para reaccionar no aumenta.

Hay muchos más límites físicos, espacio, memoria, no-aleatoriedad, ….

Los sentidos nos engañan

O más bien “los sentidos están limitados”. Descartes creía que no podemos confiar plenamente en los sentidos ya que nos pueden engañar. Lo cierto es que percibimos el mundo a través de ellos y nos dan una percepción muy limitada de la realidad. Los sensores tienen límites de alcance, precisión, exactitud, cometen errores y por supuesto se estropean dando medidas falsas

La sonda Schiaparelli se estrelló al tratar de aterrizar en Marte, la causa un error en las medidas de un sensor debido a que se saturo por el ruido indicaba que estaba bajo tierra así que apagó los motores.

Un fallo un sensor fue también la causa de los problemasdel Boeing 737 max.

Incertidumbre

Hay algoritmos para tratar con la incertidumbre. Pero generalmente acaban trabajando con probabilidades y tratando de decidir valorando beneficios y costes respecto a lo probable que sean. Pero algo sea improbable no quiere decir que no vaya a ocurrir.

Un coche autónomo puede suponer que es improbable que un ciervo cruce la carretera de repente y lo atropelle, todos conducimos sin plantearnos cada segundo si un animal va a saltar sobre nuestro capó, pero sabemos que no es imposible y que ha se han dado casos.

Funcionamos con la suposición de que lo improbable no va a pasar, el coche de al lado no va a abalanzarse sobre nosotros sin previo aviso (incluso los conductores agresivos dejan claras sus intenciones confiando que los demás cedan por precaución y les dejen cambiarse), que nadie va a ir circulando en dirección contraria por mi carril o que los demás van a respetar el semáforo en el cruce. Por supuesto que a veces estas reglas se incumplen pero es tan improbable que difícilmente se pueden tener en cuenta si no hay otras señales que nos hagan pensar que es probable (el conductor de al lado hace unas “eses” sospechosas mientras trata de mantenerse en el carril o el coche que llega al cruce va demasiado rápido como para frenar de golpe en el semáforo).

Aprende de la experiencia

El aprendizaje máquina trata de sacar unas reglas generales a partir de un montón de ejemplos particulares. El problema está en que la I.A. no va a poder tratar casos que no haya “visto”. Por ejemplo una I.A. que ha aprendido a reconocer peatones puede fallar si el peatón va disfrazado de platano, por ejemplo. Eso no quiere decir que no tenga que frenar si se cruza, pero para la I.A. sería un obstáculo en la vía, no un peatón

Los agentes inteligentes están altamente especializados. Un programa que aprende a jugar al ajedrez no sirve para aprender a conducir. Los coches autónomos se mueven en el mundo real en una sociedad creada por humanos que tienen sus reglas de convivencia y un entorno muy complejo.

Por ejemplo algunos modelos de coches autónomos han tenido problemas con su forma de conducir porque marea a los pasajeros. Un conductor humano siente lo mismo que los pasajeros y evita sensaciones desagradables a los mismos (frenazos muy bruscos, giros repentinos, aceleraciones bruscas,…). Pero nadie había entrenado a la I.A. del coche para ello.

Otro ejemplo es el de un coche autónomo que buscando ahorrar dinero en lugar de aparcar en una zona de pago prefiera seguir circulando despacito de tal forma que el coste de circular sea menor que el del aparcamiento. Desde un punto de vista cívico eso es una barbaridad, consumir energía gratuitamente y empeorar el tráfico. Si la inteligencia no ha sido entrenada para tener en cuenta eso puede caer en soluciones erróneas.

Límites del sistema

Es parecido al punto de los límites físicos, pero en este caso los motivos no son físicos si no la organización o estructura del sistema. En muchos casos la solución es reorganizar el sistema pero eso queda más allá de las opciones del agente inteligente. Un ejemplo son algunos atascos. Hace años trabajé en un polígono industrial con solo dos salidas. Los viernes en verano la mayoría de las empresas salíamos entre las tres y las tres media de la tarde lo que suponía soportar atascos de 20 minutos. Y no hay forma de evitarlos. Aunque todos los coches fueran un agente inteligente y se coordinasen seguiría habiendo atascos. Se lo que estáis pensando: “Los coches se podrían coordinar para no intentar salir todos a la vez”. Pero la consecuencia es la misma que un atasco, me va a costar 20 minutos salir de ahí. Me da igual si estoy atascado o esperando con el coche o con el coche dando vueltas o esperando que me avise al móvil que ya podemos irnos.

Riesgos calculados

En la vida real hay que tomar riesgos. Generalmente por dos motivos, falta de información e imposibilidad de conseguirla o que no hay más remedio para evitar una situación peor.

Un ejemplo es llegar a un cruce donde un camión mal aparcado tapa la visión. El coche autónomo no puede quedarse parado hasta que retiren el camión. Tendrá que moverse lentamente minimizando los riesgos pero asumiendo que ni el ve ni es visto y eso podría causar un accidente.

Decisiones irracionales

Actualmente la inteligencia artificial no puede decidir si no tiene una forma de comparar opciones. Eso no quiere decir que no pueda simplemente elegir al azar una opción. El mismo problema tiene si varias opciones son igual de buenas.

Al final hemos diseñado la I.A. para que haga decisiones racionales pero la vida humana esta llena de decisiones no racionales.

Ciborgs y control mental

El título suena completamente a ciencia ficción, pero solo parte de este texto es especulativo, la realidad es que ya se han hecho experimentos para controlar animales usando interfaces máquina cerebro. Aunque pueda parecer algo complicado la idea básica es muy fáciles de entender.

Primero hemos de poder comunicar al animal que tiene que hacer. Se conectan electrodos a alguno de los nervios sensitivos del animal. Por ejemplo a la antena derecha y a la antena izquierda. No hay límite a la cantidad de “zonas” que podemos estimular, pero el animal ha de poder distinguir claramente entre los distintos estímulos. Si no es así podría malinterpretarlos.

Es importante que el estímulo este asociado con la acción. Si por ejemplo queremos que una cucaracha de volteretas laterales cuando reciba un estímulo en la antena derecha, difícilmente va a ocurrir. Sin embargo si queremos que gire a la derecha va a ser muy probable que ocurra.

Tras realizar la acción que queremos que ocurra hay que recompensarle. Por ejemplo estimulando sus centros de placer. Este video lo explica mejor que yo

En resumen, asociamos un estímulo con una recompensa al realizar una acción. Es lo que se conoce como condicionamiento operante con refuerzo positivo y no es nada nuevo, lo que es nuevo es estimular directamente el cerebro para lograrlo.

Desde el punto de vista externo al sujeto del experimento los pasos son:

  1. Decidir la acción
  2. Enviar el estímulo
  3. Verificar la realización de la acción
  4. Recompensar

Hay que tener algunos detalles en cuenta como que no puede pasar demasiado tiempo entre el estimulo, la acción y la recompensa o el animal no sera capaz de asociarlos entre ellos.

Con este sistema el animal sigue teniendo libre albedrío (si es que existe) y puede decidir oponerse a los estímulos. Sin embargo la sensación de placer tras cumplir la acción es lo que les motiva. Realmente no es muy distinto a dar una golosina a un perro cuando realiza correctamente un truco. Y de hecho se podría usar junto con entrenamiento tradicional para conseguir acciones más complejas.

Hay que tener cuidado con los comportamientos repetitivos para conseguir retroalimentacion positiva. Son causados cuando repetir una acción te genera una recompensa, haciendo que el sujeto repita todo el rato la misma acción para conseguir la recompensa. Supongamos que queremos que una rata se levante y se rasque los bigotes. Para ello le damos una recompensa al levantarse y otra mayor al rascarse los bigotes. La rata puede descubrir que si se levanta, se sienta y se vuelve levantar experimenta placer continuamente, mientras que si se rasca lo bigotes experimenta un placer mayor pero solo una vez. Esto da lugar conductas repetititas. Se podrían debilitar la recompensa en cada repitición para reducir el número de repeticiones. Más adelante veremos los refuerzos negativos que podrian usarse para evitar estos comportamientos castigando las repeticiones.

Mejoras poco éticas

Ahora entramos en un tema delicado. No apoyo que se realicen experimentos con ninguna de las opciones que voy a contar aquí. De hecho son experimentos que dudo que recibiesen aprobación por motivos éticos. Pero tampoco le veo sentido a negar la posibilidad de su existencia o a censurarlas.

Hay más formas de mejorar el aprendizaje y asegurarse de la obediencia de las instrucciones. En los experimentos se usa el refuerzo positivo pero se puede usar refuerzo negativo. Causar dolor o molestias si no se realiza la acción. Pero a se puede refinar más el sistema siendo un poco retorcido se puede crear una molestia que vaya creciendo hasta que se cumpla la acción deseada.

La lista de pasos para el proceso no ético seria:

  1. Decidir la acción
  2. Enviar el estímulo
  3. Generar una molestia
  4. Verificar la realización de la acción
  5. Si no se realiza la acción castigar
  6. Si se realiza la acción recompensar

Desde el punto de vista del sujeto lo que se percibiría es que se siente una molestia que crece hasta el dolor y que desaparece, sintiendose un gran placer, cuando se realiza cierta acción. Tiene similitudes con algunos comportamientos compulsivos.

¿Qué tiene que ver esto con la inteligencia artificial?


Poco, pero lo he visto relacionado con la tematica del blog y me apetecia hablar de ello. Además hay un hueco para ella (siempre hay hueco para poner una I.A.), tras realizar la accion y antes de entregar la recompensa un agente externo tiene que evaluar que la acción es adecuada para entregar la recompensa. Si recurrimos a la versión no etica aun tiene más trabajo gestionando castigos.

¿Lo puede hacer una I.A.? Depende de la complejidad de las acciones. La I.A. ha de ser capaz de percibilas sin errores, hay que tener cuidado con los falsos negativos y falsos positivos ya que recompensas o castigos sin sentido podria causar confusión en el sujeto.
¿Debe de hacerlo una I.A.? tiendo a pensar que las implicaciones éticas de tener una máquina dirigiendo las acciones de un ser vivo nos impediria hacerlo. No se me ocurre ningun caso en que sea justificable.

¿Es aplicable para humanos?

Físicamente nada impide usar estas técnicas en humanos. Pero hay que recordar que este sistema no afecta a la voluntad del individuo solo le castiga/recompensa para que realice ciertas acciones. Un ser humano es consciente de la manipulación a la que es sometido y puede elegir desobedecer. La historia está llena de personas resistiendo torturas horribles sin doblegarse.

Sin embargo supongamos que el sujeto no es consciente de que tiene insertado este sistema (dejemos de lado problemas de como puede ser eso posible o de cuánto le duraría la batería). Algo le impulsaría a realizar acciones y sentiría un gran alivio y placer al realizarlas y un terrible dolor al resistirse. Sin embargo ya hay transtornos con estos comportamientos y se tratan, consiguiendo cierto grado de control sobre ellos.

Leyendo hasta aqui parece una historia de terror, pero las teconolgías usadas en estos experimentos tambien se han empleado, por ejemplo, en el tratamiento de enfermedades como el Parkinson realizando estimulación sobre la corteza motora. Esta tecnología puede servir para ayudar con diversas enfermedades y trastornos graves estimulando diversas areas cerebrales, que no tiene que ser los circuitos de recompensa. El cuando sea ético o no aplicarlas es otro tema.

Dinero como función de utilidad

Los agentes inteligentes necesitan alguna forma de comparar resultados para basar sus decisiones. Es decir saber de forma numérica “lo útil” que es cada decisión. Es algo complicado. Muchas veces podemos estar tentados en tomar atajos. Uno de los más habituales es usar el valor económico como media de este valor. Sin embargo los seres humanos tienen un relación curiosa con el dinero.

¿Por qué es importante el dinero para la I.A.?

El dinero es importante para la I.A. por el sencillo motivo de que es importante para los humanos. Si necesitamos que los agentes inteligentes interaccionen con nosotros han de tener en cuenta nuestras peculiaridades.

También resulta curioso comparar como actuamos con el dinero. El dinero actúa como una función de utilidad para nosotros y al ser tan fácilmente interpretable (es un simple valor numérico) podemos comparar como actuamos respecto a cómo esperaríamos que actúe una inteligencia artificial.

¿Eso quiere decir que algo falla en nosotros o en los agentes? No, simplemente quiere decir que hemos llegado por caminos distintos y valoramos el dinero de forma diferente. Para los agentes es simplemente un número que usar como función de utilidad, mejor cuánto mayor sea el número. Para nosotros todo es más complicado. El dinero es una mezcla de algo natural y conocido como es el acumular bienes materiales con algo nuevo y desconocido que es el valorar algo abstracto e inmaterial como es el dinero.

Los humanos entendemos que acumular bienes es beneficioso, pero en la naturaleza la mayoría de los bienes importantes no son acumulables más allá de cierto punto. La comida se estropea y tener cien lanzas en lugar de dos o tres solo te supone una carga. De hecho repartir las cosas que te sobra entre tus amigos y familia puede ser una buena inversión ya que te conseguirá su simpatía y cierto estatus social y quién sabe si en un futuro necesitarás un favor y te lo podrán devolver. Además ayuda al grupo y estar en un grupo fuerte también es beneficioso. Al final compartir puede resultar la mejor forma de usar los bienes y el reconocimiento del grupo más valioso a largo plazo que los bienes.

Sin embargo. El dinero puede acumularse sin límites, sin suponer una carga o que se eche a perder con el tiempo (se devalúa pero no es comparable). El dinero permite mejorar nuestra calidad de vida y nos proporciona seguridad para el futuro. Pero esta claro que no sabemos muy bien como valorarlo de forma intuitiva lo que da resultado a comportamientos contradictorios.

El valor del dinero y la justicia

El valor del dinero es relativo, depende de lo que tengas, de lo que tengan los que te rodean o incluso tus esperanzas de beneficio. De primeras todos podemos pensar que si sales ganando dinero has ganado. De hecho las matemáticas nos apoyan. Ganar dinero es mejor que no ganarlo y desde luego mucho mejor que perderlo desde la teoría de juegos está claro. Sin embargo para el ser humano no es tan simple.

Hay un juego llamado “ultimátum”, sus reglas son sencillas: Hay dos jugadores, a uno se le da una cantidad de dinero, supongamos 100€, su función es decidir cómo repartirlo, cuánto se queda el y cuánto el otro jugador. El otro jugador solo tiene una función, decir si acepta o no el trato. Si lo acepta ambos se quedan con su parte del dinero, si no lo acepta los dos pierden su dinero. Lo lógico sería aceptar cualquier trato cuyo valor sea mayor que 0. Algo siempre es mejor opción que nada. Pero los humanos no somos tan simples y tendemos a rechazar repartos que no sean lo suficientemente “justos”, parece que podemos asumir cierta cantidad de injusticia a cambio de un beneficio pero “sin pasarse”. Es decir mucha gente estaria dispuesta a aceptar un reparto 60-40 pero muy poca un reparto 90-10.

Para entenderlo vamos a comparar dos casos, supongamos que alguien te regala 10€, estarás agradecido. Ahora estás jugando al juego del ultimátum y te ofrecen 10€. El valor intrínseco del dinero es el mismo. Pero nuestra forma de valorarlo no. La injusticia del reparto hace que el dinero pierda valor, tanto como para llegar a rechazarlo. Ojo que al actuar así nos aseguramos que el reparto se acerque a lo justo. Incluso en el juego del dictador, una versión en la que el segundo jugador no puede decir que no, el reparto se aleja más de lo que sería justo pero no llega a los 0€ que sería lo óptimo en este caso. Esta claro que valoramos algo más que el simple beneficio económico

Se suele decir que “todos tenemos un precio”, no estoy seguro si todos lo tenemos, pero algunos desde luego. Si el ultimátum se jugará con millones de euros estoy seguro que mucha gente se trataría su orgullo y aceptaría un reparto de 99 millones a 1 millón aunque fuera injusto.

Valor del dinero en el entorno social

Hay estudios que demuestran que la gente esta más o menos satisfecha con su salario o su bienes en relación a lo que tengan la gente que le rodea. Es decir valoras el dinero como indicador de estatus social. Y aprovechándose de eso muchos productos caros se publicitan como indicadores de estatus social. Se venden como si fueran la cola de un pavo real.

Mucha gente paga más de lo que corresponde en la relación beneficio/costo solo por aparentar. Comprarse un producto caro que no va a aprovechar. Se podría discutir que se compensa por el incremento de estatus social. También se podría cuestionar lo beneficioso que es entrar en esas dinámicas absurdas donde el único beneficio real lo saca el vendedor.

El hecho que haya gente que por aparentar se endeude quiere decir que valoramos el reconocimiento social como una valor en si mismo

Valor del dinero y necesidad

Para hacer un algoritmo que valore lo beneficiosa económicamente que es una acción podemos usar cálculos como la esperanza que son independientes de tu situación, solo dependen del beneficio que se pueda esperar.

En los humanos el valor que damos al dinero depende de la necesidad que tengamos de él. A mayor necesidad mayor valor le damos al dinero, sobre todo si es inmediato. De ello viven esas empresas que dan créditos rápidos a intereses altos. Cuando necesitamos dinero no valoramos correctamente los costes de obtenerlo. De hecho cuando la deuda alcanza un nivel que es imposible de pagar mucha gente opta por adoptar el punto de vista “de perdidos al río” tomando decisiones arriesgadas que pueden hacer que la deuda crezca ¿Pero que más da si ya no podemos pagarla?

Cuando tienes mucho dinero también resulta difícil evaluar el riego y eso hace que mucha gente acabe perdiendo su fortuna. Se da en muchos casos de gente que le ha tocado mucho dinero en la lotería que lo gestiona mal y lo pierde en la llamada maldición de la lotería. Posiblemente debida a que según vas acumulando cosas la felicidad que obtienes de ello disminuye muy rápidamente y acabas gastando más de lo debido. Parece que el acumular cosas por encima de un limite no produce más felicidad.

¿Ocurre solo con el dinero?

Realmente no, ocurre con cualquier cosa que tenga valor para nosotros. Estudios con primates han demostrado comportamientos parecidos con frutas o juguetes. Parece ser que valoramos más cosas que el simple beneficio material de nuestras acciones. Que la justicia, el reconocimiento o el grupo social nos interesa más de lo que consciente mente percibimos.

Cualquier inteligencia, artificial o no, que quiera vivir en la sociedad humana ha de tener en cuenta estos valores o no logrará predecir nuestro comportamiento. Como ejemplo, el caso de un colegio que cansado de que los padres llegaran tarde a buscar a los hijos decidió multarlos. Resultado, los padres empezaron a llegar aun más tarde. Al pagar por ello dejaron de sentirse tan culpables por llegar tarde, el coste social fue reemplazado por el económico