Доброчанька 12/05/2022 (Mon) 01:25 No.984 del
(816.38 KB 2000x1014 teaser.jpg)
Продолжается прогресс в image editing, котроле и интерпретируемости генераций, с подозрительным преобладанием израильских авторов.
https://www.timothybrooks.com/instruct-pix2pix – святой грааль image editing, преобразование картинки по техзаданию на естественном языке. Обучено на парах, сгенеренных по промптам из GPT-3.
Null-text Inversion for Editing Real Images using Guided Diffusion Models [https://arxiv.org/abs/2211.09794](https://t.co/ezB359waHM) https://twitter.com/arankomatsuzaki/status/1593418723632693248 – типичная израильская статья в этом же жанре. Изображение (не важно, генерированное или естественное) реконструируется как генерация, после чего его можно регенерировать в желаемую сторону. Впрочем, как обычно, сохраняется глобальная структура картинки.

И ещё один механизм редактирования изображений через диффузию, в этот раз фишка в скорости инференса, точности и настраиваемости силы изменений. https://arxiv.org/abs/2211.07825

dreamartist – новый уровень текстовой инверсии для stable diffusion, выучивание стиля или объекта с *одной* картинки-примера https://github.com/7eu7d7/DreamArtist-stable-diffusion

https://github.com/dome272/Paella – ещё одна быстрая диффузия, 500 мс на картинку.

https://mobile.twitter.com/lexicaart – поисковый движок для SD-генераций Lexica обучил собственную, довольно качественную, модель.

Бонусы:
http://lj.rossia.org/~tiphareth/2471743.html – вербит опять угорает с генераций.

Исследовательское: можно видеть, как по картинке распределён attention сети относительно каждого слова, насколько эти слова вообще понимаются.
https://huggingface.co/spaces/tetrisd/Diffusion-Attentive-Attribution-Maps

Message too long. Click here to view full text.