¿Cómo de abierto es un modelo de lenguaje?

La OSI presento hace poco una definición de modelo de IA abierta, el equivalente del «Open Source» para los modelos de lenguajes. Antes de entrar en detalles con lo que ha definido la OSI vamos a hablar de los diferentes aspectos que se pueden «liberar» Grosso modo:

  • API: dar acceso al modelo a través de una API pública.
  • Pesos: el modelo propiamente dicho. Junto con el modelo se libera información de aspectos técnicos cómo información sobre cómo ejecutarlo o cuál es el formato de los prompts
  • Pesos destilados: es una versión reducida del modelo de lenguaje obtenidos a partir de «refinar» el modelo original. Es más cerrado puesto que complica el generar modelos derivados. Por ejemplo el finetuning del modelo.
  • Documentación de cómo usarlo: no basta con los pesos, hay que saber cómo usarlos. La arquitectura del modelo, el formato del prompt, …
  • Cómo replicar el modelo: generalmente tiene la forma de «el paper» del modelo. Dónde se explica cómo se ha creado el modelo y permite duplicarlo. No siempre es tan exhausto, últimamente hay muchos casos que parecen más un documento de marketing que de investigación.
  • El código de entrenamiento: el código necesario para entrenar tu propio modelo «igual» que el proporcionado
  • Descripción del dataset: un resumen indicando el tipo de datos y su origen. Por lo general se mezclan dataset públicos, privados y datos sintéticos.
  • Dataset: los datos usados para el entrenamiento. Es la parte más difícil que sea liberada ya que es lo más valioso y complicado de conseguir.

Por lo general las licencias suelen restringir algunas de las siguientes libertades:

  • Usar el modelo de forma comercial. Muchos modelos solo permiten su uso no comercial.
  • Usar el modelo de forma libre sin limitaciones. Es habitual que las empresas limiten los usos del modelo. La más habitual es que prohíban usarlo para entrenar otros modelos.
  • Modificar/reentrenar el modelo. Algunas empresas prohíben modificar sus modelos.

Para cumplir con la OSI es necesario que la licencia del modelo no tenga restricciones.

Para más información puedes ver el siguiente vídeo de mi canal:

Haz click para ver el vídeo en mi canal de YouTube