Apple ha introducido una novedosa herramienta de edición de imágenes con inteligencia artificial que permite a los usuarios describir los cambios deseados en lenguaje simple, sin necesidad de interactuar directamente con el software de edición de fotos.
El modelo MGIE, desarrollado en colaboración con la Universidad de California en Santa Bárbara, permite recortar, redimensionar, voltear y aplicar filtros a las imágenes simplemente a través de mensajes de texto. Esta herramienta puede manejar tanto tareas básicas como complejas, como modificar objetos específicos en una imagen para cambiar su forma o realzar su brillo.
El enfoque del modelo combina dos capacidades de los modelos de lenguaje multimodal: primero, interpreta las instrucciones del usuario y luego «imagina» la edición deseada (por ejemplo, aumentar el brillo en una parte específica de una imagen en respuesta a una solicitud de hacer el cielo más azul).
La edición de fotos con MGIE es tan simple como escribir lo que se quiere cambiar en la imagen. Por ejemplo, al pedir que se haga una pizza de pepperoni «más saludable», la herramienta agregará aderezos de verduras. Del mismo modo, una foto de tigres en el Sahara puede transformarse de oscura a luminosa al solicitar que se «agregue más contraste para simular más luz».
Los investigadores responsables del desarrollo expresaron que, en comparación con las guías de edición tradicionales, MGIE es capaz de derivar intenciones visuales explícitas y guiar ediciones de imágenes de manera más coherente. Han realizado estudios exhaustivos para demostrar la efectividad del modelo, manteniendo una eficiencia competitiva. Además, creen que este enfoque guiado por MLLM puede contribuir significativamente a futuras investigaciones en visión y lenguaje.
Aunque Apple ha puesto a disposición el MGIE a través de GitHub y ha lanzado una demostración web en Hugging Face Spaces, aún no ha revelado sus planes futuros para el modelo más allá de la investigación.
A pesar de no haber sido un actor destacado en el ámbito de la inteligencia artificial generativa, a diferencia de otras empresas como Microsoft, Meta o Google, Apple ha expresado su interés en integrar más funciones de IA en sus dispositivos.
Tanto The Information como el analista Jeff Pu afirman que Apple tendrá algún tipo de función de IA generativa disponible en el iPhone y el iPad a finales de 2024 , que es cuando saldrá iOS 18. Se dice que iOS 18 incluye una versión mejorada de Siri con funcionalidad de IA generativa similar a ChatGPT y tiene el potencial de ser la actualización de software «más grande» en la historia del iPhone.