Google ha lanzado su nueva Inteligencia Artificial llamada ScreenAI, prometiendo cambiar radicalmente la forma en que interactuamos en la web. Este innovador modelo de visión-lenguaje, desarrollado por Google AI, está diseñado para comprender tanto interfaces de usuarios como infografías, ofreciendo una serie de nuevas funcionalidades que prometen transformar nuestra experiencia en línea.
ScreenAI actúa como un intérprete todopoderoso de la interfaz de usuario, capaz de realizar una amplia gama de tareas, desde responder preguntas sobre capturas de pantalla hasta navegar por interfaces y resumir el contenido visual en unas pocas oraciones. Su funcionamiento se basa en un proceso de capacitación previa, donde aplica aprendizaje autosupervisado para generar etiquetas de datos, seguido de un ajuste fino utilizando datos etiquetados manualmente por evaluadores humanos, lo que garantiza resultados precisos y de alta calidad.
Entre las características destacadas de ScreenAI se encuentran sus capacidades de respuesta a preguntas, navegación en pantalla y resumen de contenido visual. Por ejemplo, la IA puede responder preguntas sobre elementos específicos en una captura de pantalla, ejecutar acciones específicas en una interfaz basadas en comandos de lenguaje natural, y resumir rápidamente el contenido visual para una fácil comprensión.
Aunque ScreenAI aún se encuentra en fase de investigación y no está disponible para el público en general, Google ha afirmado que este proyecto representa el futuro de la interacción de la interfaz de usuario y está decidido a transformar la forma en que navegamos por la web. Este avance podría allanar el camino hacia una experiencia de usuario más intuitiva y sin la necesidad de utilizar teclados o mouse, simplemente con comandos de voz. Mantente atento, porque este es solo el comienzo de una revolución en la navegación en línea.