Недавно мы задумались, не начать ли нам для нашего подкаста делать компьютерно-генерируемые обложки к выпускам. Поставил себе Stable Diffusion — это одна из моделей в бурно развивающейся в последнее время области text2image (на самом деле еще много чего умеет, но в качестве основы), у нее недавно было большое обновление и она свободно используемая. Результаты по вполне простым запросам в духе «a fresco of a parrot using a computer to write and play music, very detailed», «a painting of a group of robotic birds playing drums around a bonfire at night, dali style» или «a robot using a computer, surrounded by birds, hiroshige style» впечатляющие. Народ там вовсю реконструирует известные изображения (особенно в моде вариации на тему lo-fi girl — как в знаменитой ютуб-трансляции «музыка для учебы», где мультяшная девочка что-то читает за столом, а на фоне кот лежит).
Оно, конечно, очень прожорливое. На картинку 512x512 пикселей у меня на GPU еще памяти хватает, но для больших размеров у них там рекомендации в духе «если у вас видеопамяти меньше 10ГБ, то не судьба» (хотя можно, конечно, поверх прикрутить другую сетку, которая увеличивает разрешение).
Занятно, что легко установить, каких картинок и каких аннотаций не было в обучающем наборе изображений. Например, при запросе, начинающемся с «ancient egyptian drawing», выдача вполне себе древне-египетская, но остальная часть запроса почти целиком игнорируется. А что такое «red-figure amphora drawing» или подобное, система вообще не знает.