#
Обзор 25 ноябряДропаю сюда отчёт из ноября, на который я забил. Чуть дополнен.
Мораль сезона: продолжается слияние моделей и обобщение задач.
##
1. Генеративные модели### 1.1 звук
https://ganstrument.github.io/ganstrument-demo/https://github.com/LAION-AI/audio-dataset/tree/main/laion-audio-630khttps://github.com/LAION-AI/CLAP/tree/claphttps://github.com/minju0821/musical_instrument_retrieval### статичные картинки
генерализация диффузии для задач преобразования между разными формами контентаIn this work, we expand the existing single-flow diffusion pipeline into a multi-flow network, dubbed Versatile Diffusion (VD), that handles text-to-image, image-to-text, image-variation, and text-variation in one unified model. Moreover, we generalize VD to a unified multi-flow multimodal diffusion framework with grouped layers, swappable streams, and other propositions that can process modalities beyond images and text.
https://github.com/SHI-Labs/Versatile-Diffusion
Message too long. Click here to view full text.