Evitar la censura de los modelos de lenguaje (LLM) usando control vectors.

Es comprensible que las empresas, para evitar mala imagen, censuren los modelos de lenguaje que publican. Igualmente comprensible es que la comunidad trate de eliminar esa censura de diversas formas.

En el siguiente video explico una forma simple de saltarse, o al menos intentarlo, usando control vectors.

En resumen, el truco es entrenar un control vectors que haga el modelo más propenso a seguir las órdenes (con las características: servicial, obediente, positivo). De esa forma es posible que contrarreste el sesgo que lleva a qué el modelo se niegue para ciertos temas. Ahora está solución puede hacer que el modelo se muestre «inestable»

Relacionado