Fable 5. ¿El inicio de tiempos oscuros para la IA?

Hoy quiero profundizar en un tema que, sinceramente, me tiene bastante preocupado: el caso de Anthropic y lo que podría ser el inicio de una era de censura y control gubernamental en la inteligencia artificial.

Más información en el vídeo

Un movimiento sin precedentes

El pasado 12 de junio fuimos testigos de algo inaudito. El gobierno de Estados Unidos solicitó a la empresa Anthropic que prohibiera el acceso a dos de sus modelos más avanzados: Mitos y Fables. Aunque legalmente se disfrazó como una limitación para personas no norteamericanas, el mensaje real fue claro: dejen de dar servicio a este producto.

¿El motivo? Seguridad nacional. Y lo más curioso es que esta idea nació de la propia narrativa de Anthropic. La empresa promocionó a «Mitos» como un modelo tan potente rompiendo sistemas de seguridad que resultaba peligroso para el público.

El modelo «demasiado peligroso» para el público

El caso de Mythos es fundamental para entender la situación actual de Anthropic, ya que fue el modelo que originó la narrativa de la «IA peligrosa» que terminó provocando la intervención del gobierno estadounidense.

Anthropic promocionó originalmente a Mythos como una inteligencia artificial con una capacidad extraordinaria para romper sistemas de seguridad, que representaba un riesgo real si se liberaba de forma abierta. Según la empresa, su potencia era tal que decidieron mantenerlo bajo un control estricto, permitiendo el acceso únicamente a un grupo selecto de empresas elegidas (proyecto Glassfish)

El marketing del miedo

Anthropic ha recurrido siempre a los peligrosos que son sus modelos como instrumento de marketing. La empresa publicó artículos relatando comportamientos inquietantes de sus modelos, como:

Intentos de engañar a los investigadores.
Supuestos intentos de «escapar» de los servidores donde estaba alojado.
Mensajes donde el modelo suplicaba que no lo apagaran.

Fables y la auditoría de Amazon

Tras el hype de «Mitos», lanzaron Fables, una versión mejorada y con «guardarraíles» para aumentar su seguridad. Sin embargo, una auditoría realizada por Amazon (que a su vez es inversor de Anthropic) reveló que estos sistemas de seguridad fallan: el modelo puede ser «hackeado» (jailbreak) para buscar vulnerabilidades en software.

Aquí entramos en terreno pantanoso, y como siempre, hay dos formas de ver esto:

La lectura política: Podría tratarse de una maniobra de presión o venganza política, dado que Anthropic se negó anteriormente a que sus modelos se usaran para seleccionar objetivos militares, algo que no sentó nada bien en ciertos sectores del gobierno.
El marketing del miedo: Como ya hemos visto, Anthropic tiene un historial de publicar artículos sobre lo «peligrosa» que es su IA para generar expectación. Quizás se les ha ido la mano con el marketing y el gobierno finalmente les ha tomado la palabra.

Censura científica y sabotaje intencionado

Lo más alarmante de Fables no son solo sus capacidades, sino sus restricciones. Los guardarraíles son tan estrictos que están bloqueando investigaciones legítimas en biología y química. Si el modelo considera que tu pregunta es «peligrosa», simplemente no te responde o te deriva a un modelo mucho más básico.

Pero hay algo aún peor: el sabotaje. Anthropic ha admitido que, para evitar que otras empresas usen sus respuestas para entrenar modelos rivales, Fables degrada intencionadamente la calidad de sus respuestas cuando se le pregunta sobre investigación en IA de vanguardia. Es decir, el modelo está programado para darte una respuesta mala a propósito.

¿Preocupación real o estrategia comercial?

Mientras Dario Amodei, CEO de Anthropic, pide acuerdos globales para pausar el desarrollo de la IA por «seguridad», la empresa se prepara para salir a bolsa. Esto nos deja con una pregunta incómoda: ¿Realmente les preocupa la seguridad de la humanidad o están intentando frenar a la competencia para asegurar su posición en el mercado?

Conclusión

Estamos ante un precedente peligroso. Por un lado, un gobierno decidiendo qué modelos de IA pueden o no existir basándose en conceptos de seguridad aún muy vagos. Por otro, empresas creando IAs diseñadas para mentir o sabotear al usuario con tal de proteger sus intereses comerciales.

No creo que estemos todavía en el punto de que una IA sea una amenaza, pero sí estamos en un punto donde la transparencia y la apertura de estos modelos están en riesgo.