Resultados

No hemos encontrado ningún artículo relacionado :(

DALL-E mini: así es la Inteligencia Artificial que dibuja

31 Octubre 2022 - Actualizado 02 Marzo 2023

Se hablaba mucho del Big Data y de la revolución de los datos, pero el gran fenómeno de esta década parece que está protagonizado por las Inteligencias Artificiales. Y en realidad una cosa está totalmente ligada a la otra.

Estas mentes pensantes están construidas con gigantescas bases de datos. De ahí van sacando patrones y referencias para luego obtener resultados a demanda. Eso es justo lo que está sucediendo con los nuevos generadores de arte.

Nos referimos a DALL·E, DALL·E 2 y DALL-E mini, los programas que toman el nombre del famoso personaje de Pixar para hacer referencia al futuro. ¿O es que crear un cuadro a lo Van Gogh sin tener ni idea de pintar no lo parece?

Muchas herramientas que están haciendo ruido son de pago, o bien limitadas. Los ingenieros aún alimentan los algoritmos para mejorar su precisión, especialmente en el apartado de los rostros y los textos. Así es el machine learning.

IA para dibujar hay muchas: Wombo, que modifica fotos; Botto, que genera imágenes con descripciones; GauGAN 2, que dibuja con inputs de trazos o bocetos; Image, de Google; NightCafe, para crear vídeos... Pero ninguna es como DALL·E 2.

Dall E 2
La IA permite crear obras de arte introduciendo conceptos, estilos o ideas. Por ejemplo: «astronauta a caballo en la Luna».

La IA entrenada con GPT-3 por OpenAI (la matriz de Google creada por Elon Musk y el programador Sam Altman) ha alcanzado una calidad nunca vista. Y su versión reducida y libre, DALL-E mini, lo está petando en redes sociales.

Qué es DALL-E mini

DALL-E mini es una Inteligencia Artificial para generar arte. Pero eso es quedarse en la superficie. Hablamos de un generador OpenAi y open source con millones de imágenes en GitHub.

Detrás de él está Boris Dayma, un programador que se lanzó a capitalizar el fenómeno del machine learning aplicado al arte en una competición de Google y Hugging Face celebrada en verano de 2021.

La versión inicial de DALL-E mini solo contó con un entrenamiento de tres días en TPUv3-8, un motor de Google Cloud disponible durante el programa. Con ese tiempo y una arquitectura 27 veces más pequeña que DALL-E, logró ya resultados increíbles.

¿Es lo mismo DALL·E 2 que DALL-E mini?

No. Son generadores diferentes pero con las mismas funciones. DALL-E mini es un proyecto mucho más humilde con menos recursos, datos y capacidades de procesamiento. A cambio, permite un acceso libre y sin necesidad de instalación.

DALL·E 2 por su parte es bastante más potente, y por eso sus resultados son mucho más realistas y certeros. El problema es que es más complicado llegar a utilizarlo, y que requiere de recursos alojados en un equipo para funcionar.

Cómo funciona DALL-E mini

Datos, datos, datos y más datos. The Hugging Face Hub contiene todo tipo de ficeheros seleccionados por la comunidad para cosas como la traducción, el reconocimiento automático o la clasificación de imágenes.

"Cada conjunto de datos es un repositorio Git, equipado con los scripts necesarios para descargar los datos y generar divisiones para el entrenamiento, la evaluación y las pruebas", explican en los documentos de la herramienta.

Esta librería contiene más de 60.000 modelos, 6.000 hojas de datos y 6.000 aplicaciones en desarrollo (lo que ellos llaman "Spaces"). No es exclusivo de DALL-E mini, pero es su principal fuente de datos de la que bebe para generar imágenes.

Sin entrar en cuestiones técnicas, los usuarios van alimentando este hub con imágenes, que sirven de aprendizaje para el motor neuronal. Este segmenta sus descripciones en millones de inputs, los categoriza y busca patrones.

"El modelo se entrena observando millones de imágenes de Internet con sus correspondientes pies de foto. Con el tiempo, aprende a dibujar una imagen a partir de un texto", explica su creador.

Dall E mini
Resultados de Dall-E mini. En la primera fila con la búsqueda «rábano daikon bebé con un tutú paseando a un perro», en la segunda con «bebé erizo con capa mirando su reflejo en un espejo», y en la última con «bebé panda con auriculares que sostiene un paraguas bajo la lluvia».

"Algunos de los conceptos se aprenden de memoria, ya que puede haber visto imágenes similares. Sin embargo, también puede aprender a crear imágenes únicas que no existen, como «la torre Eiffel está aterrizando en la Luna», combinando varios conceptos".

Para conseguirlo DALL-E mini combina varios modelos:

  • Codificador que convierte las imágenes en bruto en una secuencia de números con su decodificador asociado
  • Modelo que convierte un texto en una imagen codificada
  • Modelo que juzga la calidad de las imágenes generadas para depurar el filtrado


Así, cuando escribes "Bad Bunny corriendo bajo la lluvia", ya sabe que lo primero es un cantante con ciertos rasgos físicos, que correr implica protagonismo de las piernas y sensación de velocidad, y que la lluvia son gotas de agua que caen.

Craiyon Bad Bunny

Limitaciones de DALL-E mini

A DALL-E mini le pasa lo mismo que al resto de IA especializadas en arte (o casi todas). Tiene muchos problemas a la hora de crear rostros concretos y de reproducir textos. Lo cual es bastante lógico.

Las caras se cruzan con el problema de los derechos de propiedad y cuestiones ligadas a la privacidad de las personas. Por eso la Inteligencia Artificial ignora deliberadamente todos los rostros. ¿Qué peligro tiene esto?

Imagínate que quieres hacerle daño a otra persona, y que creas una imagen con el susodicho haciendo algo vergonzoso o denigrante. Lo mismo aplicaría a famosos, políticos y cualquiera que estuviera presente en Internet (o sea toda la humanidad).

Con los textos tenemos el peligro que ya afronta Ask Delphi, otra IA alimentada con este tipo de datos, que tenía como objetivo generar mensajes éticos, y ha terminado lanzando mensajes machistas y misóginos. Es imposible controlar algo así.

Craiyon
Imagen generada con DALL-E mini que muestra textos sin definir.

Se trata de una tecnología revolucionaria, pero que necesita regulación. Las imágenes generadas parten de obras con derechos de autor, pero se mueven en un limbo legal. ¿Quieres saber si han pillado algo tuyo para una IA? Consúltalo aquí.

Cómo usar DALL-E mini

Lo primero es entrar en su web. Hay que aclarar que desde 2022 DALL-E mini ya no se llama así. Google ha presionado para que se modifique su nombre y evitar de esa manera equivocaciones con DALL-E 2. Ahora debes buscarla como "Craiyon".

Ojo, y lo recalcamos: puedes usar DALL-E gratis. Hay tipos de suscripciones con mensualidades, pero están pensadas para programadores y desarrolladores interesados en alimentar The Hugging Face Hub.

Y no hay ningún secreto. La IA se mantiene con publicidad, por lo que no depende de los usuarios que quieran utilizarla (sí de sus visitas y clics).

Dall E mini prueba
Interfaz de DALL-E mini con su buscador

Desde aquí solo tienes que introducir lo que quieres generar. DALL-E mini tardará unos 2 minutos en entregarte los resultados. Siempre 9 imágenes y siempre en resoluciones contenidas (es uno de los mayores retos a superar de este tipo de IA).

Aquí solo te damos un consejo: sé lo más específico posible. Cuantos más datos le des al algoritmo, mejores resultados conseguirás. Puedes combinar objetos, estilos, ideas; lo que quieras. Y si es en inglés, el resultado será aún más preciso.

Ciudad en Marte DALL E mini

Ve probando hasta que domines las palabras clave del generador. Recuerda que todo lo que sale de DALL-E mini está libre de derechos, y que lo puedes utilizar para difundirlo, ponerlo en tu blog personal o crear memes. Lo que quieras. 🤖🖌️

SUSCRÍBETE

En Yoigo vamos a tratar tus datos para enviarte periódicamente la información solicitada. Puedes ejercitar tus derechos con privacidad-yoigo@yoigo.com. Más Info AQUÍ.