Kosmos-1 puede analizar imágenes y resolver acertijos de visión

2023 será el año en que la inteligencia artificial cambie la forma en que buscamos en Internet. Sin embargo, las cosas no parecen quedar ahí. Recientemente, Microsoft, una de las empresas tecnológicas más comprometidas con el desarrollo e implementación de la inteligencia artificial, compartió la creación de una nueva herramienta multimodal Kosmos-1. Puede analizar imágenes, resolver acertijos visuales, reconocer texto y comprender manuales de usuario. A diferencia de ChatGPT, el nuevo Bing o el próximo Bard en el que está trabajando Google, Kosmos-1 puede procesar imágenes. Mientras tanto, las otras herramientas solo pueden responder preguntas de los usuarios usando texto. No siempre los mejores resultados.

Es este comportamiento multimodal del nuevo tipo de IA, que puede analizar imágenes y texto, lo que se considera «necesario para lograr una inteligencia artificial general en forma de adquisición de conocimiento y conexión con el mundo real», dijeron los investigadores. El desarrollo se presenta en un comunicado compartido por el sitio web profesional «Ars Technica». Los desarrolladores mostraron varios ejemplos de cómo la máquina encontró respuestas a las preguntas de los usuarios relacionadas con las imágenes. Por ejemplo, podría explicar por qué la imagen de un gato es graciosa, o nombrar la fecha de estreno de una película como una imagen de una película relacionada. Si bien esto muestra resultados prometedores, es solo el primer paso hacia la IA multimodal que eventualmente puede reemplazar a los chatbots de solo texto.


En principio, el desarrollo de Kosmos-1 es un proyecto exclusivo de Microsoft, en el que no participa OpenAI, la empresa detrás de la tecnología de Windows, propietario de ChatGPT, que ha invertido decenas de miles de millones de dólares en los últimos años. Si bien aún no hay una nueva IA, Microsoft ha anunciado que planea ponerla a disposición de los desarrolladores.

Fuente: Esta nueva inteligencia artificial de Microsoft hace muchas más cosas que ChatGPT y Bing (abc.es)