Доброчанька 12/05/2022 (Mon) 01:26 No.985 del
(1.49 MB 1784x629 first_fig.png)
## 2. классификаторы.
Текстовые энкодеры на основе распознавания акустики легко усиливаются добавлением семантической информации, это может добить оставшиеся ошибки систем вроде whisper.
https://arxiv.org/abs/2211.08402
https://github.com/microsoft/FocalNet – vision classifier
https://mind-vis.github.io – декодирование человеческого зрения из МРТ

https://github.com/SHI-Labs/OneFormer – OneFormer: One Transformer to Rule Universal Image Segmentation
https://github.com/JialianW/GRiT – по сути сегментация/классификация/подробное описание объектов на изображениях.

Классификация движения, монокулярное стерео-зрение, оценка глубины в рамках одной модели.
Did you know that SotA flow, stereo and depth results can be obtained using simple winner-takes all feature correlation without cost-volume post-processing? Impossible? Then try out our new UniMatch model: [https://haofeixu.github.io/unimatch/](https://t.co/aT7EUGbMbx) [https://arxiv.org/abs/2211.05783](https://t.co/HJOnxmlHuD)

К вопросу зрелых бенчмарков
TAP-Vid - эталон в области анализа движения на видео
DeepMind формализовали задачу долгосрочного отслеживания любой точки на видео (TAP, track any point), включая деформацию, ускорения, повороты, перекрытие другими объектами. 
https://arxiv.org/abs/2211.03726

Message too long. Click here to view full text.