CIENCIA

‘DALL-E’ de OpenAI genera imágenes a partir de descripciones de texto

La inteligencia artificial se ha vuelto muy buena en algunas cosas, incluso se está acercando a la capacidad de las personas cuando se trata de reconocer objetos y generar texto. ¿Y el arte? OpenAI tiene ideó una nueva red neuronal llamada DALL-E (es como Dali con un guiño al querido robot de Pixar WALL-E). Todo lo que necesita hacer es darle algunas instrucciones a DALL-E, y podrá dibujar una imagen para usted. A veces, las representaciones son un poco mejores que pintar con los dedos, pero otras veces son representaciones sorprendentemente precisas.

OpenAI ha sido noticia últimamente por sus redes neuronales GPT, que a veces se denominan “generadores de noticias falsas” debido a lo bien que pueden inventar mentiras para respaldar el texto de entrada. GPT3 demostró que las grandes redes neuronales pueden completar tareas lingüísticas complejas. El equipo quería ver qué tan bien podía moverse una IA entre texto e imágenes. Al igual que GPT3, DALL-E admite el “razonamiento cero”, lo que le permite generar una respuesta a partir de una descripción y una pista sin ningún entrenamiento adicional. diferente a GPT, DALL-E es un modelo de lenguaje transformador que puede aceptar tanto texto como imágenes como entrada. DALL-E no necesita valores e instrucciones precisos como un motor de renderizado 3D; su entrenamiento anterior le permite completar los espacios en blanco para agregar detalles que no se indican en la solicitud.

Caso en cuestión: vea a continuación algunos pingüinos bebés con suéteres navideños y tocando la guitarra. No es necesario decir que el pingüino tiene un gorro de Papá Noel; DALL-E simplemente presenta ese detalle por sí solo en varias representaciones.

DALL-E también tiene una mejor comprensión de los objetos en contexto en comparación con otros artistas de IA. Por ejemplo, puede pedirle a DALL-E una imagen de un teléfono o una aspiradora de un período de tiempo específico, y entiende cómo han cambiado esos objetos. Bueno, al menos en general. Algunas de las imágenes tendrán botones en el lugar incorrecto o una forma extraña. Pero todos estos se renderizan desde cero en la IA.

Esa racha caprichosa ayuda a DALL-E a combinar múltiples conceptos de formas fascinantes. Cuando se le pide que combine un caracol y un arpa, se le ocurren algunas variaciones inteligentes sobre el tema. Con instrucciones más sencillas como “dibuja un emoji de un aguacate enamorado”, obtienes algunas opciones ingeniosas y bastante adorables que Unicode debería considerar agregar a la lista oficial de emoji.

El equipo también demostró que DALL-E puede combinar instrucciones de texto y una indicación visual. Puedes alimentarlo con una imagen y solicitar una modificación de esa misma imagen. Por ejemplo, podría mostrarle a DALL-E un gato y pedirle un dibujo. También puede hacer que DALL-E le agregue gafas de sol al gato o le ponga un color diferente.

OpenAI tiene una página donde puedes jugar con algunos de los valores de entrada más interesantes. El modelo todavía es bastante limitado, pero esto es solo el comienzo. OpenAI planea estudiar cómo DALL-E podría afectar la economía (agregue ilustradores a la lista de trabajos amenazados por la IA) y la posibilidad de sesgo en los resultados.

Publicaciones relacionadas

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba
Cerrar
Cerrar