Доброчанька 12/21/2022 (Wed) 19:18 No.1881 del

>>1832
Нет. Просто к значению пикселей добавляется ещё один канал – глубины. По сути это создание барельефа. MiDaS (или что-то лучше) даёт монокулярную оценку удалённости точек от гипотетического объектива, и это принимается во внимание при генерации, что особо полезно в img2img. Представь, что ты загружаешь какую-то банальную картинку (портрет тянки на дефолтном фоне городских окраин) и пытаешься её перерендерить в фентези-стиль с промтпом вроде ancient witch in the foreground, dreadful towers, medieval wells in the background. Плоская картинка может быть интерпретирована так, что глаза тянки станут бездонными колодцами, а многоэтажки в бэкграунде станут не башнями, а ещё двумя тянками. (В реальности будет не так, но для примера). Когда по оригиналу выстраивается карта глубины, она влияет на распределение внимания сети при рендеринге, и токены из фразы ancient witch in the foreground сосредотачиваются на объекте переднего плана, причём учитывая, где нос, а где уши. Это очередное приближение к человеческому восприятию сцен.