Продолжается прогресс в image editing, котроле и интерпретируемости генераций, с подозрительным преобладанием израильских авторов. https://www.timothybrooks.com/instruct-pix2pix – святой грааль image editing, преобразование картинки по техзаданию на естественном языке. Обучено на парах, сгенеренных по промптам из GPT-3. Null-text Inversion for Editing Real Images using Guided Diffusion Models [https://arxiv.org/abs/2211.09794](https://t.co/ezB359waHM)https://twitter.com/arankomatsuzaki/status/1593418723632693248 – типичная израильская статья в этом же жанре. Изображение (не важно, генерированное или естественное) реконструируется как генерация, после чего его можно регенерировать в желаемую сторону. Впрочем, как обычно, сохраняется глобальная структура картинки.
И ещё один механизм редактирования изображений через диффузию, в этот раз фишка в скорости инференса, точности и настраиваемости силы изменений. https://arxiv.org/abs/2211.07825