En un salto hacia la multimodalidad, la compañía de inteligencia artificial OpenAI anunció la integración de capacidades de voz e imagen para ChatGPT, su popular chatbot de IA, el cual contará con funciones que le permitirán ver, escuchar y hablar a través de las consultas de los usuarios.
Te puede interesar: OpenAI anuncia DALL-E 3, su modelo IA de generación de imágenes más avanzado y que estará integrado de forma nativa en ChatGPT
ChatGPT ahora podrá ver, escuchar y hablar
ChatGPT seguirá evolucionando como modelo de inteligencia artificial, ahora con la integración de características que le permitirán procesar y recibir solicitudes en imágenes, así como también procesar contenido de audio enviadas por los usuarios y responder también con su propia voz.
Esto significa un paso adelante por parte de OpenAI rumbo a la multimodalidad de ChatGPT.
La multimodalidad dentro de la inteligencia artificial se refiere a la capacidad de los sistemas basados en IA para comprender y procesar información proveniente de diversas fuentes o modalidades, como imágenes, texto, audio, entre otros.
En las próximas semanas, ChatGPT podrá procesar imágenes enviadas por los usuarios con consultas complementadas con texto.
Te puede interesar: Google, OpenAI, Microsoft y Anthropic crean un organismo para vigilar el desarrollo responsable de los modelos de inteligencia artificial más poderosos
Por ejemplo, los usuarios podrán pedir a ChatGPT que les ayude a realizar tareas, analizar documento, aprender a configurar o arreglar algún dispositivo físico o entender un gráfico complejo de datos, sólo enviando imágenes al chatbot.
Los usuarios podrán enviar diferentes tipos de imágenes, tanto fotografías, como capturas de pantalla o documentos con texto e imágenes. Además, se podrán enviar varias imágenes a la vez, y será posible realizar modificaciones o especificaciones a las mismas con un editor interno.
Por otro lado, con respecto a la parte de audio, OpenAI está dotando a ChatGPT de “voz y oídos” que activarán la opción de charlar con el asistente de IA.
Te puede interesar: OpenAI presenta una versión de ChatGPT para empresas
El chatbot podrá procesar solicitudes de audio enviadas por los usuarios, quienes contarán con un botón de audio para enviar sus consultas, que luego ChatGPT podrá comprender a través de un nuevo modelo de conversión de texto a voz y la integración de su modelo de reconocimiento de voz, Whisper.
Tras hacerlo, ChatGPT responderá en formato de voz, a través de voces creadas de forma sintética utilizando voces reales, proceso en el cual OpenAI trabajó con actores de doblaje. Existirán cinco voces que los usuarios podrán elegir como “la voz de ChatGPT”.
Estas nuevas características de voz e imágenes del chatbot estarán disponibles para usuarios de ChatGPT Plus y Enterprise, dentro de dos semanas, según explicó la compañía en un anuncio.
La función de voz estará disponible en la aplicación móvil del chatbot tanto en iOS como Android, mientras que la función de imágenes contará con soporte para todas las plataformas.
ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb
— OpenAI (@OpenAI) September 25, 2023
Los movimientos de OpenAI parecen responder a un posible salto a la multimodalidad de otras compañías como Google, que desde hace meses está trabajando en el desarrollo de su gran modelo de lenguaje (LLM), Gemini, el cual han asegurado cuenta con un desarrollo desde cero para ser multimodal y que apunta a ser competidor directo de ChatGPT.
Días atrás, Google también expandió la función de imágenes de su chatbot Bard a escala mundial.
Imagen cortesía: Arbaz Khan en Vecteezy
¿Más temas de interés?
Extienden por 6 meses el plazo para la reestructuración de la Sunacrip en Venezuela
MicroStrategy compra 5.445 bitcoins más para sus balances corporativos
SEED Latam Presenta “Aula Abierta”: Un Ciclo de Formación en Gobernanza Blockchain
Regístrate en Binance y obten un 15% de descuento en tus comisiones de por vida con nuestro enlace
Compra ahora tu cuenta Tradingview con este enlace y disfruta de beneficios exclusivos
Abre hoy una cuenta GRATIS en BINGX y disfruta del mejor CopyTrading y descuentos en comisiones