Hace poco Meta anunció un proyecto donde había conseguido leer directamente de la mente de 35 voluntarios que teclas iban a pulsar en el teclado.
Los resultados son sorprendentes, una tasa de acierto del 80%
¿Pero como de real es eso de leer teclas de mente de una persona?
Y es que lo de «leer la mente» suena mejor que decir que leyeron la corteza neuromotora para saber que movimientos se ordenaban a los dedos. Para leer estas señales del cerebro probaron con dos técnicas no invasivas:
- EEG: Electroencefalografía, leer las señales eléctricas del cerebro.
- MEG: Magnetoencefalografía, leer los campos magnéticos que causan las señales eléctricas en el cerebro.
El problema de leer señales biológicas de forma no invasiva es la pésima relación señal ruido. Básicamente la señal está envuelta en un montón de ruido que índuce errores e incertidumbre en su lectura.
En este caso los resultados fueron mucho mejores con MEG que con EEG, lo cuál es una lastima porque EEG es un sistema más asequible y “simple” que MEG.
El proceso de captura de datos :
La tarea de cada voluntario consistía en tres pasos: Leer, esperar, escribir.
- Cada usuario leía una frase de un monitor
- Después se mostraba en la pantalla una cruz negra al desaparecer de pantalla empezaba la tercera fase
- En pantalla se mostraba un cuadrado girando mientras los usuarios escribían la frase en un teclado
Todo este proceso se hace para asegurarse de que la información procede de las “ordenes de teclear” y no por ejemplo de lo que están viendo los ojos.
Hay ciertas peculiaridades en el texto, para evitar que una letra fuera más de una pulsación (lo que complicaría el procesado de datos). Todo eran letras mayúsculas, sin tildes, diéresis y por algún motivo sin Ñ (¿Saben los americanos que tenemos una letra Ñ en el teclado?)
Cada sentencia era grabada y almacenada para luego poder ser procesada por la IA.
Arquitectura de la IA
La IA se compone de tres módulos que trabajan con un sentencia completa.

Modulo Convolucional
Se compone de cuatro partes, con las siguientes tareas:
- Codificar la posición espacial de cada sensor
- Adapta los datos a cada usuario
- Modulo convolucional (combina los datos de varios sensores próximos)
- Agrupación temporal
Transformer
Toma los datos del modelo anterior y calcula cual es la probabilidad (realmente no es la probabilidad son los logits, para los que sepáis de que hablo) de que sea cada carácter. Su función es integrar el contexto de la frase dentro de las predicciones.
Modelo de lenguaje:
Nada que ver con los LLMs, simplemente modela la relación estadística existente entre los caracteres (usando 9grams). Esto sumado a las datos del paso anterior nos da como resultado la sentencia escrita (si todo sale bien).
El resultado es tan bueno que puede llegar a corregir errores reales de tecleo del voluntario.
Teclear con la mente.
Aunque la idea de usar la mente para escribir un texto puede resultar muy atractiva, está lejos de ser la realidad de este sistema. Hay muchos “peros”.
A nivel de datos:
- Solo 35 personas. Poca variedad. Sin ningún tipo de lesión.
- Mecanógrafos expertos. Señal limpia, sin dudar a la hora de pulsar una tecla y pocos errores.
- Entorno clínico, controlado. Sin distracciones. Ni ruido ambiente.
Cómo a nivel práctico :
- Una máquina de resonancia magnética necesita un entorno clínico o de laboratorio con muchas restricciones.
- Se trabaja sobre datos grabados, sentencias completas. No carácter a carácter.
- Letras limitadas
¿Es un paso prometedor? Lo es. Significa que podremos teclear con la mente. Por ahora no, pero si algún día podemos será gracias a estudios como este.