Se hablaba mucho del Big Datay de la revolución de los datos, pero el gran fenómeno de esta década parece que está protagonizado por las Inteligencias Artificiales. Y en realidad una cosa está totalmente ligada a la otra.
Estas mentes pensantes están construidas con gigantescas bases de datos. De ahí van sacando patrones y referencias para luego obtener resultados a demanda. Eso es justo lo que está sucediendo con los nuevos generadores de arte.
Nos referimos aDALL·E, DALL·E 2 y DALL-E mini, los programas que toman el nombre del famoso personaje de Pixar para hacer referencia al futuro. ¿O es que crear un cuadro a lo Van Gogh sin tener ni idea de pintar no lo parece?
Muchas herramientas que están haciendo ruido son de pago, o bien limitadas. Los ingenieros aún alimentan los algoritmos para mejorar su precisión, especialmente en el apartado de los rostros y los textos. Así es el machine learning.
IA para dibujar hay muchas: Wombo, que modifica fotos; Botto, que genera imágenes con descripciones; GauGAN 2, que dibuja con inputs de trazos o bocetos; Image, de Google; NightCafe, para crear vídeos... Pero ninguna es como DALL·E 2.
La IA entrenada con GPT-3 por OpenAI (la matriz de Google creada por Elon Musky el programador SamAltman) ha alcanzado una calidad nunca vista. Y su versión reducida y libre, DALL-E mini, lo está petando en redes sociales.
Qué es DALL-E mini
DALL-E mini es una Inteligencia Artificial para generar arte. Pero eso es quedarse en la superficie. Hablamos de un generador OpenAi y open source con millones de imágenes en GitHub.
Detrás de él está Boris Dayma, un programador que se lanzó a capitalizar el fenómeno del machine learning aplicado al arte en una competición de Google y Hugging Face celebrada en verano de 2021.
La versión inicial de DALL-E mini solo contó con un entrenamiento de tres días en TPUv3-8, un motor de Google Cloud disponible durante el programa. Con ese tiempo y una arquitectura 27 veces más pequeña que DALL-E, logró ya resultados increíbles.
¿Es lo mismo DALL·E 2 que DALL-E mini?
No. Son generadores diferentes pero con las mismas funciones. DALL-E mini es un proyecto mucho más humilde con menos recursos, datos y capacidades de procesamiento. A cambio, permite un acceso libre y sin necesidad de instalación.
DALL·E 2 por su parte es bastante más potente, y por eso sus resultados son mucho más realistas y certeros. El problema es que es más complicado llegar a utilizarlo, y que requiere de recursos alojados en un equipo para funcionar.
Datos, datos, datos y más datos. The Hugging Face Hub contiene todo tipo de ficeheros seleccionados por la comunidad para cosas como la traducción, el reconocimiento automático o la clasificación de imágenes.
"Cada conjunto de datos es un repositorio Git, equipado con los scripts necesarios para descargar los datos y generar divisiones para el entrenamiento, la evaluación y las pruebas", explican en los documentos de la herramienta.
Esta librería contiene más de 60.000 modelos, 6.000 hojas de datos y 6.000 aplicaciones en desarrollo (lo que ellos llaman "Spaces"). No es exclusivo de DALL-E mini, pero es su principal fuente de datos de la que bebe para generar imágenes.
Sin entrar en cuestiones técnicas, los usuarios van alimentando este hub con imágenes, que sirven de aprendizaje para el motor neuronal. Este segmenta sus descripciones en millones de inputs, los categoriza y busca patrones.
"El modelo se entrena observando millones de imágenes de Internet con sus correspondientes pies de foto. Con el tiempo, aprende a dibujar una imagen a partir de un texto", explica su creador.
"Algunos de los conceptos se aprenden de memoria, ya que puede haber visto imágenes similares. Sin embargo, también puede aprender a crear imágenes únicas que no existen, como «la torre Eiffel está aterrizando en la Luna», combinando varios conceptos".
Para conseguirlo DALL-E mini combina varios modelos:
Codificador que convierte las imágenes en bruto en una secuencia de números con su decodificador asociado
Modelo que convierte un texto en una imagen codificada
Modelo que juzga la calidad de las imágenes generadas para depurar el filtrado
Así, cuando escribes "Bad Bunny corriendo bajo la lluvia", ya sabe que lo primero es un cantante con ciertos rasgos físicos, que correr implica protagonismo de las piernas y sensación de velocidad, y que la lluvia son gotas de agua que caen.
Limitaciones de DALL-E mini
A DALL-E mini le pasa lo mismo que al resto de IA especializadas en arte (o casi todas). Tiene muchos problemas a la hora de crear rostros concretos y de reproducir textos. Lo cual es bastante lógico.
Las caras se cruzan con el problema de los derechos de propiedad y cuestiones ligadas a la privacidad de las personas. Por eso la Inteligencia Artificial ignora deliberadamente todos los rostros. ¿Qué peligro tiene esto?
Imagínate que quieres hacerle daño a otra persona, y que creas una imagen con el susodicho haciendo algo vergonzoso o denigrante. Lo mismo aplicaría a famosos, políticos y cualquiera que estuviera presente en Internet (o sea toda la humanidad).
Con los textos tenemos el peligro que ya afronta Ask Delphi, otra IA alimentada con este tipo de datos, que tenía como objetivo generar mensajes éticos, y ha terminado lanzando mensajes machistas y misóginos. Es imposible controlar algo así.
Se trata de una tecnología revolucionaria, pero que necesita regulación. Las imágenes generadas parten de obras con derechos de autor, pero se mueven en un limbo legal. ¿Quieres saber si han pillado algo tuyo para una IA? Consúltalo aquí.
Cómo usar DALL-E mini
Lo primero es entrar en su web. Hay que aclarar que desde 2022 DALL-E mini ya no se llama así. Google ha presionado para que se modifique su nombre y evitar de esa manera equivocaciones con DALL-E 2. Ahora debes buscarla como "Craiyon".
Ojo, y lo recalcamos: puedes usar DALL-E gratis. Hay tipos de suscripciones con mensualidades, pero están pensadas para programadores y desarrolladores interesados en alimentar The Hugging Face Hub.
Y no hay ningún secreto. La IA se mantiene con publicidad, por lo que no depende de los usuarios que quieran utilizarla (sí de sus visitas y clics).
Desde aquí solo tienes que introducir lo que quieres generar. DALL-E mini tardará unos 2 minutos en entregarte los resultados. Siempre 9 imágenes y siempre en resoluciones contenidas (es uno de los mayores retos a superar de este tipo de IA).
Aquí solo te damos un consejo: sé lo más específico posible. Cuantos más datos le des al algoritmo, mejores resultados conseguirás. Puedes combinar objetos, estilos, ideas; lo que quieras. Y si es en inglés, el resultado será aún más preciso.
Ve probando hasta que domines las palabras clave del generador. Recuerda que todo lo que sale de DALL-E mini está libre de derechos, y que lo puedes utilizar para difundirlo, ponerlo en tu blog personal o crear memes. Lo que quieras. 🤖🖌️