Google empleará publicaciones personales para entrenar sus IA

Con la reciente eclosión de la inteligencia artificial, tecnológicas como Google y Microsoft, además de otras especializadas en el sector como OpenAI, se han visto avocadas a tener que encontrar infinitud de fuentes de datos con las que entrenar los algoritmos en los que se basan los servicios que ofrecen. Y cuando hablo de infinitud realmente me refiero a volúmenes que superan, en varios órdenes de magnitud, aquellos con los que se ha trabajado para prácticamente cualquier otro fin hasta la actualidad.

Esto puede llegar a plantear un problema, pues ha obligado a estas empresas a buscar tantos orígenes de datos como fuera posible, algo en lo que Internet ha jugado un papel clave. Desde webs especializadas hasta foros, desde medios de comunicación hasta redes sociales, hasta ahora todo contenido publicado en Internet era susceptible de ser ingerido por uno o varios algoritmos durante su entrenamiento. Claro, con el riesgo de que a posteriori, si hablamos de modelos generativos, pudieran reproducirlo de una manera prácticamente idéntica al estado en el que lo recibieron durante su «formación».

Como ya sabrás, esto ha suscitado bastantes movimientos que plantean que deben establecerse límites al respecto, entre otras razones porque parte del material empleado está sujeto a determinados derechos de autoría y, claro, por lo tanto no puede empleado comercialmente ni reproducido. Y luego nos encontramos con casos un poco más peculiares, como el de Twitter, que se ha mostrado bastante molesta e incluso ha querido denunciar a OpenAI porque, según afirma Elon Musk, ha empleado vastos conjuntos de tweets para entrenar sus modelos de lenguaje, en los que se basan tanto GPT en sus iteraciones como ChatGPT.

Consciente de esta problemática, pero también de la necesidad de alimentar los procesos de entrenamiento, Google ha explicitado que empleará publicaciones de tipo personal para entrenar a sus modelos. En concreto, lo ha hecho introduciendo algunos cambios en la versión en inglés de los términos de privacidad, en los que anteriormente se indicaba que las publicaciones personales se podían emplear para entrenar modelos de lenguaje, y como ejemplo citaba su traductor, y ahora se menciona específicamente «modelos de IA» y se mencionan servicios como Bard y Cloud AI.

En este punto es importante, eso sí, aclarar que Google habla de publicaciones personales, no de datos personales. Es decir, que todo nuestro contenido privado seguirá manteniendo esa condición y que, por lo tanto, no será empleado con estos fines. Y con respecto al hecho de que los términos solo se hayan actualizado en su versión en inglés, es decir, la dirigida principalmente al mercado interno de la compañía (el estadounidense) tiene bastante sentido pensar que, al menos de momento, este cambio no se aplicará de manera internacional y, especialmente, en Europa, donde la compañía del buscador está trabajando para poder lanzar sus servicios basados en IA adaptándose al complejo marco legal que ya ha comenzado a establecerse.

La entrada Google empleará publicaciones personales para entrenar sus IA se publicó primero en MuyComputer.