Edge AI. Placas para entusiastas aficionados

La Edge AI (Inteligencia Artificial en el borde/la frontera/limite…todas malas traducciones) se define básicamente como la ejecución de modelos de IA en dispositivos locales de capacidades y consumo limitados. El objetivo es obtener tiempos de respuesta razonables sin depender de la nube. Además en este post vamos a tratar de hacerlo manteniendo un precio contenido para entusiastas que les gusta experimentar.

Para elegir la plataforma adecuada, debemos entender que la IA tiene tres límites críticos: la memoria RAM disponible, el ancho de banda entre la RAM y la unidad de cálculo, y la potencia de cálculo (medida en TOPS o teraoperaciones por segundo).

Si no te apetece leer (o quieres ampliar la información del post) puedes ver el vídeo.

Los Tres Pilares del Rendimiento: RAM, TOPS y Ancho de Banda

Para entender por qué una placa es mejor que otra en tareas específicas, debemos fijarnos en tres métricas fundamentales que actúan como cuellos de botella para la inteligencia artificial.

1. Memoria RAM: ¿Dedicada o Compartida?

La RAM es el espacio donde se cargan los modelos. El factor clave aquí no es solo la cantidad de gigabytes, sino si la memoria es exclusiva para la IA o compartida con el sistema operativo.

Compartida: La RAM se reparte entre el sistema, las herramientas y la IA. Esto obliga a optimizar los recursos para que el sistema operativo no «robe» espacio al modelo.
Dedicada: Es el caso contrario, la IA tiene su propia memoria separada de la memoria del sistema

2. Potencia de Cálculo (TOPS)

Los TOPS (Teraoperaciones por segundo) miden la capacidad bruta, pero pueden ser engañosos. Un fabricante puede anunciar una cifra alta usando operaciones de baja precisión (INT4), que son el doble de rápidas que las de precisión estándar (INT8) pero pueden afectar la exactitud del modelo.

Es importante la distinción entre TOPS densos y dispersos: dependiendo de la cantidad de «ceros» que se usan en las matrices de datos para obtener esa cifra de TOPS. Densos son aquellos que usan pocos ceros.

3. Ancho de Banda:

El ancho de banda entre la RAM y la GPU/NPU es un factor crítico para ejecutar modelos de lenguaje (LLM). Si el ancho de banda es bajo, el modelo irá lento aunque la GPU/NPU sea potente.De nada sirve tener un procesador rapidísimo si los datos no pueden llegar a él con la suficiente velocidad desde la RAM. Este es el ancho de banda, medido en GB/s.

Comprender este equilibrio es vital: de nada sirve tener muchísimos TOPS si te quedas sin RAM para cargar el modelo, o si el ancho de banda es tan estrecho que la unidad de cálculo tiene que «esperar» a recibir los datos.

1. Raspberry Pi 5 + AI HAT+

La Raspberry Pi 5, por sí sola, no es especialmente potente para IA, pero se puede potenciar con el AI HAT+. Este módulo incorpora una NPU Hailo-10H capaz de aportar 40 TOPS adicionales y cuenta con 8 GB de RAM dedicados exclusivamente a la IA.

Ventajas: Al tener memoria dedicada, el sistema operativo no compite por esos recursos. Es ideal para acelerar algoritmos de IA clásica (visión por computador, detección de objetos o posturas).
Desventajas: No es la mejor opción para modelos de lenguaje (LLM). Debido a que utiliza memoria DDR4, su rendimiento con modelos grandes es similar a ejecutar el modelo directamente en la CPU de la Raspberry.
Precio: Entre 50€ y 250€ la placa (según RAM) más unos 150€ del HAT.

2. NVIDIA Jetson Orin Nano Super

NVIDIA ofrece la opción con mayor potencia bruta. El kit de desarrollo Orin Nano Super cuenta con versiones de 4 GB y 8 GB de RAM (compartida con el sistema) y una GPU capaz de alcanzar 67 TOPS en INT8 (y más de 130 TOPS en INT4).

Ventajas: Soporta CUDA, lo que facilita enormemente el despliegue de modelos. Es la única de las tres que permite no solo inferencia, sino también un entrenamiento ligero de redes neuronales pequeñas. Su ancho de banda de 100 GB/s la sitúa muy por encima en rendimiento.
Desventajas: La RAM es compartida, por lo que el sistema operativo y las herramientas restan espacio disponible para los modelos.
Precio: El modelo de 8 GB algo más de 300€.

3. Arduino VENTUNO Q

Es la incorporación más reciente al mercado, fruto de la colaboración tras la compra de Arduino por parte de Qualcomm. Monta un procesador Snapdragon Wing IQ8 con una NPU de 40 TOPS y unos impresionantes 16 GB de RAM LPDDR5 compartida.

Ventajas: Su gran baza es que incluye un microcontrolador, convirtiéndola en la opción definitiva para robótica. Dispone de una cantidad enorme de conectores específicos, incluyendo tres puertos para cámaras (visión 360º) y compatibilidad con Shields de Arduino y Hats de Raspberry Pi.
Capacidad: Sus 16 GB de RAM permiten tener cargados varios modelos simultáneamente (por ejemplo, uno para pasar audio a texto, un LLM para procesar la instrucción y otro de texto a voz).
Precio: Se estima que rondará los 300€.

¿Qué tipo de IA podemos ejecutar?

Es importante recordar que no todo son modelos de lenguaje. En estos dispositivos también podemos ejecutar:

Visión por computador: Identificación de objetos, expresiones faciales o profundidad.
Modelos de audio: Como Whisper para pasar voz a texto.
Sintetizadores de voz: Como Piper o Kokoro para convertir texto en audio.
Procesamiento de lenguaje natural: Algoritmos de IA «clásicos» para analizar textos

Conclusión: ¿Cuál elegir?

Si buscas potencia bruta y soporte para entrenamiento: NVIDIA Jetson Orin Nano Super.
Si tu proyecto está enfocado en la robótica y electrónica avanzada: Arduino VENTUNO Q.
Si ya tienes una Raspberry Pi y quieres acelerar tareas de visión clásica: AI HAT+.

La elección dependerá totalmente de las necesidades de tu proyecto y de si prefieres priorizar la capacidad de cálculo o la integración con componentes electrónicos.