Requisitos para usar big data o I.A. para clasificar personas

El big data esta de moda, la cantidad de empresas que anuncian que usan big data para mejorar los resultados del servicio que ofrecen no para de crecer. Muchas de ellas no tienen muy claro de que hablan o se dedican a entrenar algún modelo de aprendizaje máquina lanzandole datos sin limpiar ni procesar y esperan obtener algo que funcione. Por supuesto hay muchas que saben lo que hacen. Aún haciendo todo de forma correcta el big data y la I.A. corren el riesgo convertirse en los oráculos modernos. Le metes datos, esperas y obtienes una respuesta y sin la necesidad de sacrificar una cabra a ningún dios. El problema es que quienes acuden a estos oráculos toman las respuestas como verdades absolutas, sin entender de donde ha salido esa respuesta. Muchos de estos modelos se empiezan a aplicar para valorar a personas: concederles una hipoteca, un trabajo, la libertad condicional o una tarjeta de crédito, son solo algunos ejemplos. Aplicar estos modelos de caja negra a asuntos humanos es arriesgado y puede llegar a causar bastantes injusticias.

En esta entrada voy a tratar de describir algunos principios que deberían de cumplir los modelos obtenidos a partir de grandes cantidades de datos para que su uso con personas sea justo. Describe un ideal de las características que debería de tener un sistema así.

Ser transparente

Si se va a emplear un modelo obtenido a través de big data sobre alguna persona está debería ser correctamente informada de ello. Además debe de saber lo eficaz que es ese sistema. Su tasas de falsos positivos y negativos.

Ser entendible

Se ha de entender el proceso de decisión del sistema. Si no se entiende se corre el riesgo de estar tomando decisiones basadas en datos anecdóticos o sesgos en los datos del entrenamiento.

Para estar seguro de esto un humano experto ha de ser capaz de entender el funcionamiento del sistema y las decisiones que toma..

Ofrecer explicaciones

Tiene doble función, primero ayudar al punto anterior y segundo que la persona que ha sido evaluada por el sistema sepa que motivos han llevado a considerarla «apta» o «no apta».

Puede parecer que con que un sistema ofrezca un resultado es suficiente, pero la realidad es que no lo es. Si no sabes porque estas descartando a una persona no puedes decirselo y esta persona no sabe que tiene que cambiar para «pasar la prueba».

Resulta algo extremadamente frustrarte. Si no sabes que tienes que cambiar la sensación es que «estas marcado de por vida». Si una persona es informada de cuales han sido los motivos por los que es «no apta» puede valorar si trata de cambiarlos o no. Lo cual puede ser una ventaja para ambas partes. Imagínate que un banco te niega una hipoteca o un crédito por el único motivo de que no tienes un aval. Pero en realidad si que lo tienes o lo puedes pero no consta en los datos. Ambos estáis perdiendo una oportunidad beneficiosa.

Validación continua

Es necesario tener validación de su correcto funcionamiento permanentemente. Es fundamental comprobar que las conclusiones que ha tomado el sistema son correctas. La sociedad y el mundo cambia pudiendo hacer que el modelo quede obsoleto y falle si no se adapta correctamente. Hay que tener un mecanismo de revisión y validación para asegurarse de que sigue funcionando.

Asociado a esto tiene que tener un mecanismo de corrección. Si por ejemplo se descubre que el sistema tiene en cuenta algún dato que ya no se puede usar ha de poder descartarse este dato. En los últimos años hemos vivido varios cambios en las leyes sobre protección de datos. Un dato que se puede usar hoy en unos años puede ser ilegal usarlo, los sistemas han de ser capaces de adaptarse a eso.

Saber que datos nuestros se han usado

Tenemos derechos sobre nuestros datos y el mínimo de ellos es saber cuales se han usado y de donde provienen. Con más motivo si esos datos se usan para tomar decisiones sobre nosotros.

No solo saber que datos se usan, también El origen de los datos es importantes. La fuente que provee de datos pueden preferir cantidad a calidad y no verificarlos correctamente o ahorrar costes no verificando si datos de hace años aún son ciertos.

Muchas veces los datos tienen una historia detrás. No es lo mismo estar en una lista de morosos por tener varios créditos sin pagar que por tener pendiente una factura de un servicio tras discutir con el proveedor del mismo.

Gestión de casos extraordinarios

Solo con modelos muy simples el sistema acertará siempre. En el resto de las situaciones habrá casos extraordinarios que serán mal clasificados. Hay que saber como gestionar estos casos. No basta con justificarse en «lo dice el ordenador». Tiene que haber formas de saber si estamos ante un caso mal clasificado y es el oráculo ha hecho mal su trabajo.

Objeciones

«Una empresa privada ¿Por qué ha de seguir estas reglas?» Primero porque trabaja en la sociedad y tiene que seguir sus reglas y colaborar en mantenerlas. Segundo porque estos sistemas tienen el riesgo de extenderse. Un sistema realmente bueno puede ser vendido como servicio, que las empresas empiecen a contratarlo y entonces afectaría a millones de personas.

«Si las estadísticas dicen que algo es así será por algo». Si, obvio que es por algo. Pero antes de empezar a valorar a un grupo de personas por ser peores trabajadores o más delincuentes o menos confiables o cualquier prejuicio similar piensa que según las estadísticas un hospital es un lugar donde muere mucha gente y es mejor no ir y menos aún si estas enfermo. El que un hospital es un sitio peligroso para los enfermos es un prejuicio causado por un una visión parcial de la realidad fijándose solo en datos.

«Es un gran avance y puede producir un gran beneficio, no merece la pena frenarlo por unos pocos casos en os que resultaría injusto». Lo de sacrificar a unos pocos para obtener un bien mayor ha justificado muchas barbaridades. No es una cuestión de prohibirlo, si no de buscar un equilibrio.

«Con el tiempo mejorara y alcanzara una precisión absoluta». Es difícil que eso ocurra en los próximos años y posiblemente décadas. La realidad es demasiado compleja para separar fácilmente todos los casos sin cometer ningún error. De hecho incluso seria discutible que es un error y que no lo es.