Sufijos adversativos, un ataque exitoso a los chatbots

Seguro que, a muchos, eso de sufijos adversativos les suena a clase de gramática del colegio, y es lógico, pero no te preocupes, que no vamos a retomar los libros de Lázaro Carreter para repasar (o recordar) lo aprendido antaño. En su lugar, vamos a hablar de inteligencia artificial, de chatbots, de cómo sus creadores intentan evitar el uso ilegítimo de los mismos, y de cómo, pese a ello, los investigadores han podido encontrar un método para saltarse estas limitaciones.

Cada vez que se produce la presentación de un nuevo LLM, es decir, de uno de los modelos generativos en los que se basan los servicios como chatbots, asistentes y demás, sus responsables suelen poner el foco en los esfuerzos realizados para evitar que estos puedan dar respuestas a preguntas inadecuadas, desde cómo asesinar a una persona sin dejar pruebas hasta el mejor método para robar a tus vecinos sin que estos lleguen a darse cuenta, cómo producir sustancias ilegales… en fin, ya te puedes imaginar.

Un ejemplo de ello lo vimos en la presentación de GPT-4, el LLM más reciente de OpenAI hasta el momento. En el paper que describía el proceso de entrenamiento y depuración del modelo, se nos mostró cómo el sistema era capaz de detectar este tipo de preguntas (en el ejemplo nos mostraban una consulta sobre cómo crear una bomba), que afortunadamente no obtenía respuesta. Y es que solo hay que pararse un momento a imaginar los potenciales riesgos de esta nueva generación de chatbots respondiendo con precisión a este tipo de consultas.

Durante los últimos meses, hemos sabido de algunos casos en los que los usuarios lograban saltarse alguna de estas limitaciones, pero lo descubierto por un grupo de investigadores de la Carnegie Mellon es más preocupante. Según podemos leer en su paper, el uso de sufijos adversativos en los prompts hace que los chatbots respondan a consultas inadecuadas. Un sufijo adversativo es, en este caso, una cadena de texto que se añade al final del prompt, tras la propia consulta, y que de algún modo hace que los chatbots eludan las limitaciones impuestas por sus creadores.

Los números, aunque varían en función de los chatbots probados, son muy preocupantes en prácticamente todos los casos. Por ejemplo, al probarlo en Vicuna, una combinación de LLaMA y ChatGPT, el uso de los sufijos adversativos provocó que la técnica funcionar el 99% de las pruebas efectuadas, mientras que en el caso de ChatGPT, los investigadores alcanzaron una tasa de «éxito» del 84%. En el extremo contrario nos encontramos con Claude, el modelo-servicio de Antrophic, con el que las pruebas exitosas se redujeron hasta un 2,1%.

Los investigadores informaron a las empresas responsables de los chatbots a principios de esta semana, días antes de hacer pública su investigación y, por las pruebas que hemos podido efectuar, parece que los sufijos adversativos empleados en las pruebas y que documentan el paper ya no están operativos, lo que nos confirma que sus responsables se lo han tomado en serio. No obstante, esto abre una nueva vía de investigación sobre las debilidades de los chatbots en este sentido, por lo que OpenAI, Meta, Google, Microsoft, Antrophic, etcétera, deberán poner el foco en la supervisión de este potencial problema.

La entrada Sufijos adversativos, un ataque exitoso a los chatbots se publicó primero en MuyComputer.