Доброчанька 12/05/2022 (Mon) 01:24 No.983 del
(296.05 KB 1216x1088 Fi5GGbuXgAMcZS6.jpeg)
# Обзор 25 ноября

Дропаю сюда отчёт из ноября, на который я забил. Чуть дополнен.

Мораль сезона: продолжается слияние моделей и обобщение задач.

## 1. Генеративные модели
### 1.1 звук
https://ganstrument.github.io/ganstrument-demo/
https://github.com/LAION-AI/audio-dataset/tree/main/laion-audio-630k
https://github.com/LAION-AI/CLAP/tree/clap
https://github.com/minju0821/musical_instrument_retrieval

### статичные картинки
генерализация диффузии для задач преобразования между разными формами контента
In this work, we expand the existing single-flow diffusion pipeline into a multi-flow network, dubbed Versatile Diffusion (VD), that handles text-to-image, image-to-text, image-variation, and text-variation in one unified model. Moreover, we generalize VD to a unified multi-flow multimodal diffusion framework with grouped layers, swappable streams, and other propositions that can process modalities beyond images and text.
https://github.com/SHI-Labs/Versatile-Diffusion

Message too long. Click here to view full text.