El Futuro de la Web: Diseñando para Agentes de IA

La inteligencia artificial no solo está cambiando nuestra forma de buscar información, sino que está transformando radicalmente el desarrollo y la interacción con la web. Empresas líderes como Google, que controlan gran parte de la infraestructura de internet (desde el navegador Chrome hasta el sistema operativo Android), están impulsando una visión donde la web ya no es solo para humanos, sino también para agentes autónomos. (Para este artículo he partido de esta publicación de Google)

Más detalles en el vídeo

Desarrollo asistido por IA

El desarrollo frontend está adoptando el uso de «skills» (habilidades) que permiten a la IA desarrollar usando correctamente las diversas tecnologías. De hecho algunos creadores de frameworks o tecnologías están publicando sus propias skills para que la IA los use correctamente. Incluso hay frameworks como hyperframes diseñados pensando en que los use la IA antes que en los humanos

De Webs para Humanos a Webs para Agentes

Tradicionalmente, las webs se diseñan para que un humano las navegue visualmente, pero esto está cambiando. Surge la necesidad de crear webs para que los agentes puedan utilizar las funcionalidades de un sitio de manera eficiente. Un avance crucial en esta área es el protocolo Web MCP, una solución que permite a una página web comunicar directamente a un agente qué funciones tiene disponibles y qué parámetros necesita para ejecutarlas, como en el caso de la compra de entradas.

IA Ejecutada Localmente en el Navegador

Los modelos de IA ya no solo está en la nube, también en el dispositivo del usuario a través de tres tecnologías clave:

WebAssembly (WASM): Permite migrar herramientas y modelos de lenguajes compilados directamente al navegador.
WebGPU: Facilita el acceso a la potencia de la tarjeta gráfica desde la web para acelerar los cálculos de los modelos.
Web Neural Network: Una capa de abstracción de alto nivel, actualmente en fase de borrador, diseñada para ejecutar y posiblemente entrenar redes neuronales en local.

De hecho, navegadores como Chrome ya están integrando modelos como Gemini Nano (un modelo multimodal de 4 GB) de forma nativa. Esto permite que las webs utilicen APIs específicas para tareas como resumir textos, traducir, reescribir contenido o detectar idiomas sin necesidad de enviar datos a servidores externos.

La Era de la Navegación Autónoma

La interacción del usuario evoluciona de una navegación pasiva a una colaboración activa con un «compañero de viaje» de IA, opción ya rpesente en navegadores como Firefox. Este asistente no solo leerá la web, sino que podrá ejecutar tareas mediante diversas interacciones, con acciones del teclado, ratón o con prompts, ya sea escritos o dictados.

Pero que necesidad hay de estar escribiendo los mismos prompts, tenemos la posibilidad de guardados como skills personalizadas para automatizar acciones repetitivas.

El objetivo final es la navegación autónoma, donde el usuario simplemente da una instrucción («mírame tal noticia» o «resume este vídeo») y el agente utiliza el navegador de forma independiente para completarla.

Conclusión para Desarrolladores

Como creadores de software, el reto actual es facilitar que nuestros desarrollos sean «legibles» y utilizables por estos asistentes. La diferencia competitiva del futuro residirá en qué tan bien se comunique nuestra web con los agentes que los usuarios emplearán para navegar por el mundo digital.

HRM y HRM-Text una arquitectura diferente para los LLM

En esta entrada vamos a analizar una propuesta que rompe un poco con la tendencia actual de «cuanto más grande, mejor» en el mundo de la inteligencia artificial. Vamos a profundizar en HRM (Hierarchical Reasoning Model) y su evolución, HRM-Text, una arquitectura que está dando mucho que hablar por su eficiencia y su particular forma de razonar.

Puedes ver el vídeo para más información

¿Qué es HRM y por qué es relevante?

Seguramente habéis oído hablar del modelo O3 de OpenAI y su éxito en el test ARC-AGI, un reto que en aquel momento se resistía a las máquinas. Pero mientras que el modelo O3 gastaba el equivalente a un millón de dólares en tokens para superar estas pruebas, surgio HRM: un modelo que, con apenas 27 millones de parámetros, lograba puntuaciones altísimas en ese mismo tests.

La clave de su éxito no está en el tamaño, sino en su arquitectura. A diferencia de los LLM tradicionales, HRM utiliza bucles internos. En lugar de pasar por los pesos una sola vez, la información circula varias veces por ellos, permitiendo que un modelo pequeño «piense» mucho más de lo que sugeriría su número de parámetros.

El secreto de los módulos H y L

La arquitectura se divide fundamentalmente en dos piezas: el módulo H (de baja frecuencia) y el módulo L (de alta frecuencia). Aunque los nombres suenen complejos, la idea es sencilla y se inspira vagamente en el funcionamiento del cerebro:

Módulo H: Se encarga de buscar una solución general, marcando la dirección del razonamiento.
Módulo L: Es el encargado de refinar esa solución. Se le llama varias veces (de ahí lo de «alta frecuencia») para pulir los detalles antes de devolverle el control al módulo H.

Este proceso de exploración y refinamiento se repite hasta que el sistema decide que ha encontrado una solución satisfactoria.

De HRM a HRM-Text: El salto a la generación de texto

Originalmente, HRM no era un modelo de lenguaje; estaba diseñado para resolver problemas lógicos, laberintos o acertijos visuales. Sin embargo, con la llegada de HRM-Text, la arquitectura ha evolucionado:

Escalado: Ha pasado de 27 millones a 1.000 millones de parámetros. Sigue siendo pequeño para los estándares actuales, pero mucho más capaz.
Autorregresión: Ahora es capaz de generar texto de forma secuencial, realimentando cada token producido para generar el siguiente.
Atención híbrida: Utiliza atención bidireccional para el «prompt» inicial y atención causal para el texto generado, incorporando un mecanismo de puerta para mantener la coherencia durante las múltiples iteraciones.

Eficiencia extrema y costes reducidos

Uno de los puntos más impactantes de HRM-Text es su entrenamiento. Se ha entrenado con 40.000 millones de tokens en solo 2 días, utilizando 16 GPUs y con un coste aproximado de 1.500 dólares. Comparado con las fortunas que cuesta entrenar modelos comerciales, esto es un cambio de juego total para la democratización de la IA.

Luces y sombras: Razonamiento vs. Conocimiento

No todo es perfecto. Al tener tan pocos parámetros, HRM-Text tiene limitaciones claras:

Memoria limitada: Menos pesos significan menos capacidad para almacenar datos y conocimientos generales.
Especialización: Es increíblemente bueno en matemáticas y razonamiento lógico, pero flaquea en tareas que requieren cultura general o matices complejos del lenguaje.
Contexto: Su ventana de contexto es todavía pequeña (unos 4.000 tokens) y la atención crece de forma cuadrática, lo que dificulta procesar textos larguísimos.

Conclusión: ¿El futuro de los LLM?

HRM-Text nos demuestra que hay otros caminos más allá de simplemente añadir más capas y más parámetros. La idea de introducir bucles internos de razonamiento es fascinante y no me extrañaría ver cómo los grandes modelos empiezan a adoptar técnicas similares en el futuro cercano.

SenseNova U1. Un modelo multimodal (texto e imagen) con multitud de cosas interesantes

La familia de modelos SenseNova U1 ha llegado con una arquitectura cargada de novedades y soluciones interesantes. Se tratan de modelos que versátiles capaces de entender texto e imágenes cómo entrada, mientras que

¿Qué hace a SenseNova U1 tan especial? Aquí te resumimos sus pilares fundamentales:

Para más detalles puedes ver este vídeo

Adiós a los Encoders Tradicionales: Procesamiento a Nivel de Píxel

A diferencia de la mayoría de los modelos que convierten imágenes en parches complejos dentro de un «espacio latente», SenseNova U1 utiliza un sistema de codificación ultraligera. Mediante redes convolucionales de dos capas que procesa la imagen en bloques de pixels. Esto permite conservar los detalles finos de la imagen que otros modelos suelen perder, logrando una fidelidad visual impresionante.

«Mixture of Transformers»: Lo mejor de dos mundos

El corazón de SenseNova U1 es una mezcla de transformers. El modelo es, a la vez, autorregresivo y de difusión.

Ambos comparten el mismo contexto y mecanismo de atención, pero se bifurcan en diferentes flujos según el tipo de tokens que tenga que generar:

Autorregresivo: El flujo llamado «Understanding» (comprensión) para entender el texto y las imágenes además de generar texto.
Difusión: El flujo llamado «Generation» basado en flow matching se emplea para para generar imágenes.

Atención Híbrida: Causal y Bidireccional

Comparte el mecanismo de atención entre transformers, lo cual le obliga a combinar atención causal con atención bidireccional.

Para el texto, aplica una atención causal (donde cada token solo influye en la atención de los que viene detrás). Para las imágenes, cambia a una atención bidireccional, permitiendo que cada token interactúe con todos los demás de la imagen independientemente de su orden.

Eficiencia con Mixture of Experts (MoE)

Aunque el sistema completo cuenta con unos 17.000 millones de parámetros, su variante MoE es increíblemente ágil, funcionando con solo 3.000 millones de parámetros activos. Esto lo hace potente pero manejable, compitiendo en capacidades con modelos mucho más pesados.

Razonamiento Visual y Modelado del Mundo

Más allá de generar imágenes y textos, SenseNova U1 demuestra capacidades de razonamiento espectaculares. Es capaz de editar imágenes entendiendo conceptos abstractos o temporales. Por ejemplo, si le pides que dibuje qué pasará con un vaso de té después de una hora, el modelo es capaz de oscurecer el agua entendiendo el proceso de infusión. Esta capacidad lo posiciona no solo como un generador, sino como un posible «modelo del mundo» con potencial en robótica (VLA).

Dflash y Dmax. ¡Los modelos de difusión para lenguaje no siguen vivos!

Durante los últimos años, hemos estado acostumbrados a que los modelos de lenguaje funcionen de forma autorregresiva. Es decir, generan el texto una palabra (o token) a la vez, donde cada palabra nueva depende de las anteriores, pero nunca puede influir en lo que ya se escribió. Sin embargo, una vieja idea está regresando con fuerza para desafiar este dominio: los modelos de lenguaje basados en difusión.

Más información en el vídeo

¿Qué es un modelo de lenguaje de difusión?

A diferencia de los modelos tradicionales, los modelos de difusión generan bloques enteros de texto al mismo tiempo. Imagina que todas las palabras de un párrafo comienzan siendo una «máscara» (un estado desconocido) y, poco a poco, el modelo va resolviendo esas máscaras hasta revelar el texto definitivo.

Esto prometía una velocidad altísima y una mejor relación entre todos los términos del bloque. Sin embargo, tenían un gran problema: a veces un token se «desenmascaraba» antes de tiempo y el modelo tenía que volver a taparlo para corregirlo, lo que acababa arruinando la velocidad y la calidad del resultado.

Recientemente han surgido dos propuestas que están rescatando esta tecnología del olvido:

Dflash: Velocidad extrema mediante «borradores»

La idea de Dflash es combinar lo mejor de ambos mundos. Utiliza un modelo de difusión como un «modelo de borrador» para acelerar a un modelo más grande mediante una técnica llamada speculative decoding.

El modelo de difusión genera rápidamente una ráfaga de tokens y el modelo grande los valida todos en paralelo. Si el modelo de difusión acierta, hemos generado muchísimos tokens en un solo paso. En tareas predecibles, como las matemáticas o la programación, se han logrado incrementos de velocidad de hasta 8 o 9 veces respecto al método tradicional.

Dmax y los modelos UDLM: tokens con certeza

La segunda gran innovación es Dmax, que introduce los Modelos de Difusión de Lenguaje Uniforme (UDLM). Aquí se abandona la idea de que un token está «tapado» o «destapado».

En su lugar, cada posición en el texto es una probabilidad continua entre la incertidumbre absoluta (la máscara) y una palabra concreta (como «francia»). A medida que el proceso avanza, la probabilidad de la palabra crece y la de la máscara disminuye basándose en el contexto global. Esto permite que el texto evolucione de forma fluida y orgánica, evitando los errores de los modelos de difusión anteriores.

¿Por qué debería importarnos?

Estos avances no son solo técnicos; representan una forma de procesar la información mucho más cercana a la intuición humana. Nosotros no pensamos estrictamente palabra por palabra, sino que solemos visualizar ideas en bloques o párrafos.

Aunque los modelos autorregresivos siguen siendo los reyes del mercado, técnicas como DMAX ya están alcanzando niveles de calidad muy cercanos a ellos. Estamos ante un paso de gigante que podría cambiar la forma en que nuestras IAs escriben, programan y razonan en el futuro cercano.

Los secretos de DeepSeek 4.0

El mundo de la inteligencia artificial no descansa, y DeepSeek acaba de dar un golpe sobre la mesa con el lanzamiento de su versión 4.0. Esta nueva entrega no solo busca competir en potencia, sino que redefine lo que significa la eficiencia y la viabilidad comercial en modelos de gran lenguaje.

Más información en el vídeo

Dos Versiones, Un Contexto Gigante

DeepSeek 4.0 llega en dos sabores principales: Flash y Pro. La versión Flash, a pesar de ser la «pequeña», cuenta con 284B parámetros (13B activos), mientras que la versión Pro escala hasta los 1,6T parámetros con 49B activos

Ambos modelos utilizan una arquitectura de Mezcla de Expertos (MoE) y ofrecen una ventana de contexto impresionante de 1 millón de tokens. Además, han simplificado la interacción con tres niveles de razonamiento: sin razonamiento, nivel alto y nivel máximo.

Cuantización (QAT)

Uno de los movimientos más audaces de DeepSeek ha sido lanzar sus modelos Instruct ya cuantizados. Mientras que otras empresas prefieren lanzar modelos sin comprimir para ganar puntos en los tests de rendimiento, DeepSeek ha utilizado una técnica llamada QAT (Quantization-Aware Training).

Este proceso consiste en simular la pérdida de precisión (mezclando 8 bits y 4 bits) durante el propio entrenamiento. El resultado es un modelo mucho más resiliente y optimizado para su uso real, demostrando que la empresa prioriza un producto comercialmente viable frente a las «carreras locas» de lanzamientos cada pocos meses.

Magia en la Memoria: Optimizando la Atención

El mayor avance técnico se encuentra en cómo gestionan la atención. Han logrado reducir el tamaño de la caché de memoria de 50 GB a menos de 5 GB en contextos de un millón de tokens mediante tres técnicas combinadas:

CSA (Compress Sparse Attention): Comprime grupos de 4 tokens en uno solo.
HCA (Heavily Compressed Attention): Lleva la compresión al extremo, resumiendo 128 tokens en uno.
DSA: Un sistema que selecciona los tokens más interesantes de la caché comprimida para mantener la relevancia global.

Para no perder los detalles finos, el modelo combina esta visión global resumida con una ventana deslizante que mantiene los últimos tokens con todo su detalle original.

Innovación Estructural: mHC

DeepSeek 4.0 sustituye las clásicas conexiones residuales por un nuevo sistema llamado mHC (Manifold Constrained Hyper Connections). En lugar de un único camino para que los datos fluyan y ayuden al aprendizaje, mHC utiliza múltiples canales. Aunque esto añade carga computacional, las fuertes restricciones matemáticas aplicadas logran una estabilidad y unos resultados que superan con creces a los métodos tradicionales.

¿Qué esperar del futuro?

Una de las novedades a esperar es que el modelo se vuelva multimodal (lo dicen en el propio paper).

DeepSeek 4.0 no es solo un modelo más potente; es una declaración de intenciones sobre cómo la ingeniería inteligente puede hacer que la tecnología más avanzada sea, por fin, sostenible y accesible.

Edge AI. Placas para entusiastas aficionados

La Edge AI (Inteligencia Artificial en el borde/la frontera/limite…todas malas traducciones) se define básicamente como la ejecución de modelos de IA en dispositivos locales de capacidades y consumo limitados. El objetivo es obtener tiempos de respuesta razonables sin depender de la nube. Además en este post vamos a tratar de hacerlo manteniendo un precio contenido para entusiastas que les gusta experimentar.

Para elegir la plataforma adecuada, debemos entender que la IA tiene tres límites críticos: la memoria RAM disponible, el ancho de banda entre la RAM y la unidad de cálculo, y la potencia de cálculo (medida en TOPS o teraoperaciones por segundo).

Si no te apetece leer (o quieres ampliar la información del post) puedes ver el vídeo.

Los Tres Pilares del Rendimiento: RAM, TOPS y Ancho de Banda

Para entender por qué una placa es mejor que otra en tareas específicas, debemos fijarnos en tres métricas fundamentales que actúan como cuellos de botella para la inteligencia artificial.

1. Memoria RAM: ¿Dedicada o Compartida?

La RAM es el espacio donde se cargan los modelos. El factor clave aquí no es solo la cantidad de gigabytes, sino si la memoria es exclusiva para la IA o compartida con el sistema operativo.

Compartida: La RAM se reparte entre el sistema, las herramientas y la IA. Esto obliga a optimizar los recursos para que el sistema operativo no «robe» espacio al modelo.
Dedicada: Es el caso contrario, la IA tiene su propia memoria separada de la memoria del sistema

2. Potencia de Cálculo (TOPS)

Los TOPS (Teraoperaciones por segundo) miden la capacidad bruta, pero pueden ser engañosos. Un fabricante puede anunciar una cifra alta usando operaciones de baja precisión (INT4), que son el doble de rápidas que las de precisión estándar (INT8) pero pueden afectar la exactitud del modelo.

Es importante la distinción entre TOPS densos y dispersos: dependiendo de la cantidad de «ceros» que se usan en las matrices de datos para obtener esa cifra de TOPS. Densos son aquellos que usan pocos ceros.

3. Ancho de Banda:

El ancho de banda entre la RAM y la GPU/NPU es un factor crítico para ejecutar modelos de lenguaje (LLM). Si el ancho de banda es bajo, el modelo irá lento aunque la GPU/NPU sea potente.De nada sirve tener un procesador rapidísimo si los datos no pueden llegar a él con la suficiente velocidad desde la RAM. Este es el ancho de banda, medido en GB/s.

Comprender este equilibrio es vital: de nada sirve tener muchísimos TOPS si te quedas sin RAM para cargar el modelo, o si el ancho de banda es tan estrecho que la unidad de cálculo tiene que «esperar» a recibir los datos.

1. Raspberry Pi 5 + AI HAT+

La Raspberry Pi 5, por sí sola, no es especialmente potente para IA, pero se puede potenciar con el AI HAT+. Este módulo incorpora una NPU Hailo-10H capaz de aportar 40 TOPS adicionales y cuenta con 8 GB de RAM dedicados exclusivamente a la IA.

Ventajas: Al tener memoria dedicada, el sistema operativo no compite por esos recursos. Es ideal para acelerar algoritmos de IA clásica (visión por computador, detección de objetos o posturas).
Desventajas: No es la mejor opción para modelos de lenguaje (LLM). Debido a que utiliza memoria DDR4, su rendimiento con modelos grandes es similar a ejecutar el modelo directamente en la CPU de la Raspberry.
Precio: Entre 50€ y 250€ la placa (según RAM) más unos 150€ del HAT.

2. NVIDIA Jetson Orin Nano Super

NVIDIA ofrece la opción con mayor potencia bruta. El kit de desarrollo Orin Nano Super cuenta con versiones de 4 GB y 8 GB de RAM (compartida con el sistema) y una GPU capaz de alcanzar 67 TOPS en INT8 (y más de 130 TOPS en INT4).

Ventajas: Soporta CUDA, lo que facilita enormemente el despliegue de modelos. Es la única de las tres que permite no solo inferencia, sino también un entrenamiento ligero de redes neuronales pequeñas. Su ancho de banda de 100 GB/s la sitúa muy por encima en rendimiento.
Desventajas: La RAM es compartida, por lo que el sistema operativo y las herramientas restan espacio disponible para los modelos.
Precio: El modelo de 8 GB algo más de 300€.

3. Arduino VENTUNO Q

Es la incorporación más reciente al mercado, fruto de la colaboración tras la compra de Arduino por parte de Qualcomm. Monta un procesador Snapdragon Wing IQ8 con una NPU de 40 TOPS y unos impresionantes 16 GB de RAM LPDDR5 compartida.

Ventajas: Su gran baza es que incluye un microcontrolador, convirtiéndola en la opción definitiva para robótica. Dispone de una cantidad enorme de conectores específicos, incluyendo tres puertos para cámaras (visión 360º) y compatibilidad con Shields de Arduino y Hats de Raspberry Pi.
Capacidad: Sus 16 GB de RAM permiten tener cargados varios modelos simultáneamente (por ejemplo, uno para pasar audio a texto, un LLM para procesar la instrucción y otro de texto a voz).
Precio: Se estima que rondará los 300€.

¿Qué tipo de IA podemos ejecutar?

Es importante recordar que no todo son modelos de lenguaje. En estos dispositivos también podemos ejecutar:

Visión por computador: Identificación de objetos, expresiones faciales o profundidad.
Modelos de audio: Como Whisper para pasar voz a texto.
Sintetizadores de voz: Como Piper o Kokoro para convertir texto en audio.
Procesamiento de lenguaje natural: Algoritmos de IA «clásicos» para analizar textos

Conclusión: ¿Cuál elegir?

Si buscas potencia bruta y soporte para entrenamiento: NVIDIA Jetson Orin Nano Super.
Si tu proyecto está enfocado en la robótica y electrónica avanzada: Arduino VENTUNO Q.
Si ya tienes una Raspberry Pi y quieres acelerar tareas de visión clásica: AI HAT+.

La elección dependerá totalmente de las necesidades de tu proyecto y de si prefieres priorizar la capacidad de cálculo o la integración con componentes electrónicos.

Taalas HC1. Un LLM en un chip.

¿Alguna vez has sentido que la Inteligencia Artificial es demasiado lenta para tus necesidades? Imagina un escenario donde un modelo de lenguaje no solo responde rápido, sino que genera tal cantidad de texto que parece instantáneo. No estamos hablando de un vídeo acelerado, sino de una tecnología real que está rompiendo los límites de velocidad actuales: el chip HC1 de la empresa Taalas.

¿Qué es Taalas y cómo logra esta velocidad?

Taalas es una compañía que lleva poco más de dos años trabajando con una visión clara: dejar de depender de arquitecturas de propósito general, como las GPUs, para integrar los grandes modelos de lenguaje (LLM) directamente en el hardware. Mientras que una GPU es extremadamente potente y versátil, no deja de ser una pieza electrónica diseñada para muchas tareas distintas. Taalas, en cambio, ha implementado la arquitectura del modelo de lenguaje directamente en su chip HC1.

El resultado es asombroso. En demostraciones recientes, se ha visto un modelo Llama 3.1 de 8.000 millones de parámetros funcionando a una velocidad de 17.000 tokens por segundo. Para ponerlo en perspectiva, este sistema es capaz de generar más de 61 millones de tokens en tan solo una hora.

Eficiencia y potencia bajo el capó

Uno de los puntos más interesantes del HC1 es su eficiencia energética. Aunque consume unos 2.500 vatios por hora —una cifra que puede asustar a un usuario doméstico—, si analizamos el consumo por cada token generado, la cifra es ridículamente baja. Es, probablemente, una de las formas más eficientes de procesar lenguaje a gran escala que existen hoy en día.

Sin embargo, para alcanzar estas velocidades, se han tenido que tomar decisiones técnicas importantes:

Cuantización: El chip trabaja actualmente con pesos de 3 y 6 bits, lo que significa que el modelo está comprimido para ajustarse al hardware.
Flexibilidad limitada: Al estar la arquitectura «grabada» en el chip, no es tan sencillo actualizarlo a la última versión de un modelo que acabe de salir al mercado. Por otro lado, permite modificar los pesos, al menos algunos de ellos, ya que permite usar LoRA.
Contexto: El tamaño de la memoria de contexto es algo limitado (alrededor de 6.000 tokens), aunque suficiente para una gran variedad de aplicaciones prácticas.

El futuro: El chip HC2 y los modelos razonadores

A pesar de estas limitaciones, como el contexto reducido o la imposibilidad de ejecutar modelos gigantescos de cientos de miles de millones de parámetros, el potencial es enorme. Esta tecnología encaja perfectamente con los nuevos «modelos razonadores». Estos modelos suelen generar una gran cantidad de «pensamientos» internos antes de dar la respuesta final. Con la velocidad de Taalas, ese proceso de razonamiento sería tan rápido que el usuario ni siquiera notaría la espera.

La empresa ya está trabajando en su siguiente evolución, el chip HC2. Se espera que esta nueva versión sea todavía más rápida, soporte una mayor cantidad de pesos y ofrezca una mayor resolución (probablemente pasando a 4 y 8 bits), lo que mejorará la precisión de las respuestas sin sacrificar la velocidad que los hace únicos.

Estamos ante un cambio de paradigma: pasar de ejecutar software de IA en hardware genérico a tener hardware que es la propia IA. La era de los 17.000 tokens por segundo solo acaba de empezar.

Engram: ¿Por qué obligamos a las IA a memorizar cuando podrían estar razonando?

DeepSeek ha presentado una propuesta técnica que podría marcar un antes y un después en la arquitectura de los Transformers: Engram. Se trata de una idea que busca solucionar un problema que, aunque no solemos ver, está afectando seriamente la eficiencia de los modelos de lenguaje actuales.

El problema: Las redes neuronales no son lo mejor para memorizar

Cuando le preguntas a una IA «¿Cuál es la capital de Francia?», la respuesta («París») es un dato memorizado, no el resultado de un proceso de razonamiento complejo. Actualmente, las redes neuronales de los modelos de lenguaje tienen que hacer ambas tareas a la vez: razonar (resolver problemas) y memorizar (almacenar datos estáticos).

El problema es que las redes neuronales no son la mejor herramienta para memorizar. Al obligarlas a guardar datos, estamos desperdiciando una potencia de cómputo inmensa que podría aprovecharse mejor.

La solución de Engram: Separar la memoria

La propuesta de Engram es elegante: separar estos dos procesos. La idea es crear un mecanismo óptimo dedicado exclusivamente a la memoria y dejar que las redes neuronales se dediquen 100% a la resolución de problemas (lo que llamamos «razonamiento» como símil).

¿Cómo funciona?

Tablas y hashes: El sistema utiliza tablas de datos donde la información se recupera mediante un «hash» calculado a partir del token actual y los anteriores.
Inyección de información: Esos datos recuperados se convierten en vectores que se inyectan en el flujo de trabajo del Transformer para aportarle información estática.

La puerta de control: Para evitar errores (como cuando el contexto cambia y Francia no es un país, sino un planeta extraterrestre), existe una «puerta» reguladora. Es un vector que decide, valor a valor, cuánta de esa memoria inyectada es realmente válida para el contexto actual.

Problemas y soluciones

Al usar tablas con un hash existen dos tipos de problemas:

Asignar a tokens similares direcciones diferentes: esto ocurre porque ls funciones hash tienen a «dispersar» los resultados y dos tokens parecidos (patata y Patata) pueden apuntar a espacios de memoria diferentes. Para evitar eso se toma la medida de simplificar los tokens para que ambos sean el mismo.
Colisiones, asignar a tokens diferentes la misma dirección: el caso contrario, dos tokens distintos (camión y patata) apuntan al mismo espacio en memoria, cómo hay varias tablas de hash diferentes, aunque ocurra con una tabla el resto de valores compensaran esta respuesta errónea

La proporción adecuada

Uno de los puntos más prometedores es la eficiencia. Según los datos actuales, dedicar entre un 20% y un 25% de los pesos del modelo a este sistema de memoria permite que la IA «razone» mejor con el mismo número de parámetros.

Eficiencia, velocidad y hardware barato

Pero hay más: recuperar datos de estas tablas es muchísimo más rápido que procesar inputs a través de todas las capas de una red neuronal. Esto significa que este proceso se puede hacer en paralelo e incluso utilizando hardware más barato o de menor calidad sin que el rendimiento general del sistema sufra. Es una doble victoria: menos cálculo necesario y hardware más económico.

¿Qué esperar de Engram?

Aunque siempre hay que tomar el optimismo de los nuevos estudios con cautela, Engram es una idea sumamente interesante. El reto ahora es ver cómo escala en modelos masivos de cientos de miles de millones de parámetros.

Sin duda, no es una idea que lo cambie todo de la noche a la mañana, pero sí es un camino muy inteligente hacia una inteligencia artificial más eficiente y especializada.

¿Tendremos robots domésticos en 2026?

Muchos se preguntan si 2026 será finalmente el año en que veamos robots realizando tareas del hogar de forma masiva. Aunque ya hay empresas ofreciendo soluciones, la «letra pequeña» es que muchos de estos robots están actualmente teleoperados; es decir, no son autónomos, sino avatares controlados a distancia por personas para recolectar datos.

Para que un robot sea realmente útil en una casa, debe resolver tres retos fundamentales: navegación, planificación y manipulación.

Navegación: Un problema prácticamente resuelto

La navegación es la capacidad del robot para moverse sin chocar. Esto se logra con IA clásica: el robot crea un mapa digital, usa un punto de referencia (como su base de carga) y corrige sus errores de posición comparando lo que ve (con sensores LiDAR o cámaras) con su mapa interno. En entornos complejos, incluso se pueden usar apoyos externos como códigos QR o señales de radiofrecuencia.

Planificación y Manipulación: El verdadero desafío

A diferencia de una fábrica, un hogar es un entorno caótico. Para solucionar esto, modelos como los de Gemini Robotics (DeepMind) proponen un sistema de dos capas basado en IA generativa:

Modelo Razonador (LLM Multimodal): Recibe órdenes complejas (ej. «hazme un bocadillo»), analiza el entorno y descompone la tarea en pasos lógicos, siendo capaz de improvisar si, por ejemplo, los cubiertos no están en su sitio.
Modelo de Manipulación (VLA): Traduce esas órdenes en movimientos precisos de los motores y brazos del robot, adaptándose a la resistencia y posición de los objetos en tiempo real.

Funcionalidad	Descripción del Problema	Tecnología Utilizada	Soluciones Actuales	Limitaciones o Desafíos	Uso de IA Generativa
Planificación de tareas	Descomponer una orden compleja (ej. hacer un bocadillo) en pasos lógicos e improvisar ante la falta de instrumentos o cambios en la cocina.	IA Generativa (Modelos de lenguaje multimodal)	Modelos razonadores (como Gemini Robotics) que procesan audio, imágenes y texto para trazar y modificar planes en tiempo real.	El hogar es un entorno caótico y cambiante; la IA clásica solo es efectiva en entornos muy limitados y controlados con pocas opciones.	Se emplea como un modelo razonador para la descomposición de tareas y la gestión de la incertidumbre en el entorno doméstico.
Manipulación	Ejecutar movimientos físicos precisos con actuadores para interactuar con objetos (ej. agarrar pan o cargar una lavadora).	IA Generativa (Modelos VLA – Vision-Language-Action)	Modelos que integran órdenes, visión y propiocepción (estado de motores) para determinar la posición de los motores paso a paso.	Escasez crítica de datos de entrenamiento (datasets de robots reales) y alta dependencia del software respecto al hardware específico.	Determina el movimiento de los brazos basándose en sensores; modelos como Genie generan entornos virtuales para suplir la falta de datos.
Navegación	Localización en un plano digital y movimiento preciso evitando la acumulación de errores de odometría o cambios estructurales.	IA Clásica	Empleo de sensores LIDAR, cámaras, sonar, puntos de referencia (estación de carga) y comparación constante de mapas digitales.	El mundo real no es ideal; los errores de desplazamiento se acumulan y los cambios en el mobiliario generan discrepancias con el mapa original.	No se utiliza

El gran obstáculo: La falta de datos

El mayor problema actual es que no tenemos suficientes datos de robots realizando tareas domésticas para entrenarlos. Es un círculo vicioso: no hay robots porque no hay datos, y no hay datos porque no hay robots.

Para romper este ciclo, se están explorando tres vías:

Datos de laboratorio: Muy precisos pero lentos y caros.
Datos sintéticos y simuladores: Permiten aprender rápido, pero suelen tener sesgos y no siempre reflejan perfectamente la realidad física.
Teleoperación: Al usar humanos para controlar robots, las empresas están obteniendo los datos reales necesarios para automatizarlos en el futuro.

Además, existe una complicación extra: los modelos de manipulación dependen totalmente del hardware. Un software diseñado para un robot con tres brazos no sirve directamente para uno de dos, lo que fragmenta el aprendizaje.

Más información en este vídeo

Conclusión: La tecnología está avanzando hacia modelos capaces de razonar en el mundo físico, pero el camino hacia un robot autónomo y asequible depende de cómo resolvamos esta crisis de datos reales.

GLM Image es un modelo más importante de lo que crees

Vamos a profundizar en un modelo que me parece fascinante: GLM Image. Aunque a simple vista podría parecer un generador de imágenes más, con sus casi 18.000 millones de parámetros, su importancia no radica solo en la calidad o el rendimiento, sino en su innovadora arquitectura y en lo que representa para la industria tecnológica actual.

Una arquitectura híbrida: Lo mejor de dos mundos

Lo que hace que GLM Image destaque es que no es solo un modelo autorregresivo ni solo un modelo de difusión; es una combinación de ambos. El proceso comienza con un modelo de lenguaje basado en GLM4 (de 9.000 millones de parámetros), el cual ha sido reentrenado para producir tokens visuales.

Este modelo autorregresivo se encarga de generar lo que llamamos datos de baja frecuencia (colores y texturas generales). Para ello genera de forma autoregresiva tokens que representan estos datos. Este proceso lo hace en dos pasos, primero crear una representacion de baja resolución formada por 256 tokes y finalmente crea una version de alta resolución con un total de entre 1000 y 4000 tokens.

Posteriormente, estos tokens pasan a un modelo de difusión que genera los datos de alta frecuencia, es decir, los detalles finos y la definición de la imagen. Es como si el modelo autorregresivo hiciera el boceto con las formas y colores base, y el de difusión se encargara de darle el acabado final y la nitidez.

El reto de la edición y la codificación dual

Cuando queremos editar una imagen o usar una como referencia, nos enfrentamos a un problema: el modelo autorregresivo tiende a perder detalles minuciosos. Para solucionar esto, GLM Image utiliza un sistema de codificación dual:

• Tokens Semánticos: Van al modelo autorregresivo y se centran en la descripción de lo que hay en la imagen.

• Tokens Visuales: Van directamente al modelo de difusión y se centran en el aspecto visual de los píxeles.

Esta separación permite que el modelo sea especialmente bueno manteniendo la coherencia, y lo detalles de las imágenes.

Para mejorar el aspecto y corrección de los textos que aparecen en las imágenes. Los tokens visuales son enriquecidos con otros relativos especificamene a los textos que deben aparecer en el resultado, con un énfasis especial en caracteres chinos.

Si quieres conocer el proceso con más detalle puedes ver este vídeo en mi canal de Youtube:

¿Por qué GLM Image es realmente importante?

Más allá de sus capacidades técnicas, este modelo es un hito por dos razones estratégicas:

1. El camino hacia los modelos «Omni»: Este tipo de arquitectura es un paso necesario para lograr modelos que puedan recibir y generar cualquier tipo de dato (audio, texto, vídeo) de forma fluida. Es una apuesta por los modelos multimodales totales que tanto nos apasionan.

2. Independencia de hardware: Quizás el punto más disruptivo es que GLM Image no ha sido entrenado con hardware de Nvidia, sino utilizando hardware de Huawei. En el contexto del conflicto tecnológico entre China y Estados Unidos, esto es una señal de alerta para Nvidia. Demuestra que las GPUs chinas están empezando a competir seriamente y que el mercado de la IA podría estar a punto de cambiar sus reglas de juego.

En resumen, GLM Image es una prueba de que el desarrollo de la IA no se detiene y que la competencia en hardware está más viva que nunca.