DALL-E
| DALL-E | |
|---|---|
| | |
| Тип | нейронная сеть |
| Автор | OpenAI |
| Языки интерфейса | английский |
| Первый выпуск | 5 января 2021 года |
| Ссылки | |
| Сайт | openai.com/dall-e-2/ |
DALL-E — нейронная сеть НКО OpenAI, созданная при финансовой поддержке Microsoft[1], способная генерировать высококачественные изображения, исходя из текстовых описаний на английском языке[2][3]. По заявлениям ряда СМИ и экспертов в области анализа данных, данная нейронная сеть совершила значимый прорыв в области нейронных сетей[4][5][6][7].
История
Нейронная сеть DALL-E была пущена в разработку в 2019 году, когда OpenAI получила грант, суммой в 1 миллиард долларов от компании Microsoft на разработку инновационных технологий в сфере искусственного интеллекта[1].
По итогу, разработка заняла два года, и первая версия нейросети была представлена мировому сообществу 5 января 2021 года[4].
Ещё через год — 6 апреля 2022 года, была анонсирована новая версия DALL-E — DALL-E 2, что стало возможно благодаря тёплому приёму аудитории первой версии нейронной сети[3][8]. В новой версии программы были доработаны алгоритмы, что позволили создавать фотореалистичные изображения, а также редактор, позволяющий вносить правки в работе приложения[9]. Пример работы нейронной сети продемонстрировал журнал Cosmopolitan, который использовал DALL-E 2 для создания обложки для одного из выпусков своего журнала[10].
Архитектура
DALL-E использует 12-миллиардную модель GPT-3 для интерпретации данных на английском языке и генерации на их основании изображения[5][11]. Сама модель GPT-3 была разработана OpenAI ещё в 2018 году на основе архитектуры глубоких нейронных сетей Трансформер[12]. Таким образом, DALL-E представляет собой мультимодальную реализацию GPT-3 с 12 миллиардами параметров, обучаемая через интернет[13].
Так, DALL-E сначала генерирует изображения в ответ на запрос, а CLIP (Contrastive Language-Image Pre-training), как отдельная модель, «осознаёт» и ранжирует полученные изображения[4][5]. Сам CLIP был обучен на 400 миллионах пар изображений и текста, благодаря чему модель более-менее успешно определяет наиболее успешно подходящие изображения по запросу и публикует имеющиеся изображения по степени их схожести с текстовым описанием[11].
Описание и характеристики
DALL-E способна генерировать изображения в самых разных визуализациях — от фотореализма до картин и эмодзи, передвигая и видоизменяя объекты на своих изображениях[8]. Одна из способностей, отмеченная его создателями, заключалась в правильном размещении элементов дизайна в новых композициях без явных указаний: «Например, когда его попросили нарисовать Редис Дайкон, сморкающийся, потягивающий латте или катающийся на одноколёсном велосипеде, DALL·E часто рисует платок, руки и ноги в правдоподобных местах»[14]. Факт реализма и прорыва в сфере ИИ отмечали различные авторитетные издания — Input[15], NBC[16], Nature[17], Wired[18], CNN[19] и BBC[20]. Особенно интересно для специалистов стал тот факт, что ИИ получил некоторые навыки визуального мышления, позволившие оному пройти тест Рейвена, созданный для оценки интеллекта людей[21].
DALL-E характеризуется как устойчивая и крайне надёжная нейронная сеть для создания изображений различного плана[5]. Сэм Шхед в репортаже для CNBC назвал изображения «интересными» и процитировал Нила Лоуренса, профессора машинного обучения Кембриджского университета, который назвал это «вдохновляющей демонстрацией способности этих моделей хранить информацию о нашем мире и обобщать его способами, которые для людей естественны». Шхед также процитировал Марка Ридла, доцента Технической школы интерактивных вычислений Джорджии, который сказал, что результаты демонстрации DALL-E показали, что он способен «согласованно сочетать концепции», и что «демоверсия DALL-E примечательна созданием иллюстраций, которые гораздо более связны, чем другие системы Text2Image, которые я видел за последние несколько лет»[22]. BBC также цитирует Ридля, который сказал, что он был «впечатлён тем, что система могла сделать»[20].
Примечания
- ↑ 1,0 1,1 Microsoft Invests In and Partners with OpenAI to Support Us Building Beneficial AGI (англ.). OpenAI (22 июня 2019). Дата обращения: 4 июля 2022. Архивировано 7 ноября 2020 года.
- ↑ Nicolás Rivero. The best examples of DALL-E 2’s strange, beautiful AI art (англ.). QUARTZ (11 июня 2022). Дата обращения: 4 июля 2022. Архивировано 5 июля 2022 года.
- ↑ 3,0 3,1 OpenAI доработала нейросеть DALL-E: теперь она генерирует картинки по текстовому описанию и редактирует уже готовые. vc.ru (7 апреля 2022). Дата обращения: 4 июля 2022. Архивировано 5 июля 2022 года.
- ↑ 4,0 4,1 4,2 Will Douglas Heaven. This avocado armchair could be the future of AI (англ.). MIT Technology Review (5 января 2021). Дата обращения: 4 июля 2022. Архивировано 5 января 2021 года.
- ↑ 5,0 5,1 5,2 5,3 Coldewey, Devin. OpenAI’s DALL-E creates plausible images of literally anything you ask it to (англ.). TechCrunch (5 января 2021). Дата обращения: 4 июля 2022. Архивировано 6 января 2021 года.
- ↑ Jordan Novet. A.I. software called DALL-E turns your words into pictures (англ.). CNBC (18 июня 2022). Дата обращения: 4 июля 2022. Архивировано 5 июля 2022 года.
- ↑ Gary Marcus, Ernest Davis, Scott Aaronson. A very preliminary analysis of DALL-E 2 (англ.) // Cornell University. — 2022. — doi:10.48550. Архивировано 5 июля 2022 года.
- ↑ 8,0 8,1 Jeremy Kahn. Move over, Photoshop: OpenAI just revolutionized digital image making (англ.). Fortune (6 апреля 2022). Дата обращения: 4 июля 2022. Архивировано 10 апреля 2022 года.
- ↑ Hope Corrigan. Photographer uses DALL-E 2 AI to automatically edit images better than Photoshop (англ.). PC Gamer (1 июля 2022). Дата обращения: 4 июля 2022. Архивировано 5 июля 2022 года.
- ↑ Gloria Liu. The World’s Smartest Artificial Intelligence Just Made Its First Magazine Cover (англ.). Cosmopolitan (21 июня 2022). Дата обращения: 4 июля 2022. Архивировано 3 июля 2022 года.
- ↑ 11,0 11,1 Khari Johnson. OpenAI debuts DALL-E for generating images from text (англ.). VentureBeat (5 января 2021). Дата обращения: 4 июля 2022. Архивировано 5 января 2021 года.
- ↑ Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya. Improving Language Understanding by Generative Pre-Training (англ.) // OpenAI. — 2018. Архивировано 5 февраля 2021 года.
- ↑ S. Dent. OpenAI's DALL-E app generates images from just a description (англ.). Engadget (6 января 2021). Дата обращения: 4 июля 2022. Архивировано 27 января 2021 года.
- ↑ Thom Dunn. This AI neural network transforms text captions into art, like a jellyfish Pikachu (англ.). BoingBoing (10 февраля 2021). Дата обращения: 4 июля 2022. Архивировано 22 февраля 2021 года.
- ↑ Mehreen Kasana. This AI turns text into surreal, suggestion-driven art (англ.). Input (1 июля 2021). Дата обращения: 4 июля 2022. Архивировано 29 января 2021 года.
- ↑ Melanie Ehrenkranz. Here's DALL-E: An algorithm learned to draw anything you tell it (англ.). NBC (28 января 2021). Дата обращения: 4 июля 2022. Архивировано 20 февраля 2021 года.
- ↑ Emma Stoye. Tardigrade circus and a tree of life — January’s best science images (англ.). Nature (5 февраля 2021). Дата обращения: 4 июля 2022. Архивировано 8 марта 2021 года.
- ↑ Will Knight. This AI Could Go From ‘Art’ to Steering a Self-Driving Car (англ.). Wired (26 января 2021). Дата обращения: 4 июля 2022. Архивировано 21 февраля 2021 года.
- ↑ Rachel Metz. A radish in a tutu walking a dog? This AI can draw it really well (англ.). CNN (8 января 2021). Дата обращения: 4 июля 2022. Архивировано 1 июля 2022 года.
- ↑ 20,0 20,1 Jane Wakefield. AI draws dog-walking baby radish in a tutu (англ.). BBC (6 января 2021). Дата обращения: 4 июля 2022. Архивировано 2 марта 2021 года.
- ↑ Markowitz, Dale. Here's how OpenAI's magical DALL-E image generator works (англ.). TheNextWeb (23 февраля 2021). Дата обращения: 4 июля 2022. Архивировано 23 февраля 2021 года.
- ↑ Sam Shead. TECH Why everyone is talking about an image generator released by an Elon Musk-backed A.I. lab (англ.). CNBC (8 января 2021). Дата обращения: 4 июля 2022. Архивировано 16 июля 2022 года.
Книги
- Jens Knappe: Genesis. A Creation Story in Cooperation with an Artificial Intelligence, Berlin 2022, ISBN 978-3-940948-45-8.