ChatGPT ahora puede ver, oír y hablar

Ha pasado algo menos de un año desde que ChatGPT viera la luz, a finales de noviembre de 2022. La llegada del chatbot de OpenAI marcó, sin duda, un antes y un después, al punto de que podemos considerar que este servicio es el principal responsable del nivel de crecimiento y popularización de la inteligencia artificial que estamos viviendo a lo largo de todo este año, y que promete mantenerse en esa tendencia a corto y probablemente también a medio plazo.

Esto, claro, ha cambiado sustancialmente el terreno de juego de ChatGPT, pues durante sus primeros meses de vida fue, prácticamente, la única opción, pero desde entonces ha visto como proliferaban nuevos servicios como el nuevo Bing, Bard, Poe y más. Servicios que, en muchos casos, se han esforzado por poder ofrecer más funciones que el servicio de OpenAI, algo que sumado a la normalización de estos servicios, ha ocasionado que los números de este chatbot hayan bajado durante los últimos meses.

Evidentemente, OpenAI no podía quedarse cruzada de brazos ante esta situación, pues de poco o nada sirve ser el primero en llegar a un mercado (ergo, inaugurarlo) si cuando, a posteriori, empiezan a llegar nuevos competidores, no muestras la capacidad necesaria para hacerles frente. Y esta es una lección que cualquier persona que conozca la historia del sector tecnológico sabe que debe ser tenida muy en cuenta constantemente, y es que la lista de gigantes que hemos visto caer con el paso de los años es terriblemente extensa.

Parece que en OpenAI son plenamente conscientes de ello y para dar respuesta, ya han empezado a añadir funciones de voz e imagen en ChatGPT, tal y como podemos leer en su blog oficial. Así, parece que la intención de la compañía es convertir a su chatbot en la plataforma más multimodal, pues con la implementación completa de estas novedades, para la que la compañía da un plazo de dos semanas, será posible emplear texto, voz e imágenes como medio de entrada, y también podremos obtener texto, voz e imágenes como respuesta a nuestros prompts. El alcance que esto ofrece es más que destacable.

Para tal fin, podemos entender que ChatGPT hará uso de otras soluciones de OpenAI, como el recientemente presentado DALL-E 3, la solución de reconocimiento de voz Whisper (de la que hemos hablado antes, con la novedad de los podcasts de Spotify) y otras tantas. Esto, claro, nos explica que estas funciones vayan a ser exclusivas, como podíamos imaginar, de los niveles de pago del servicio, es decir, ChatGPT Plus y Enterprise.

La entrada ChatGPT ahora puede ver, oír y hablar se publicó primero en MuyComputer.