Новый год – новые нейросети и старые пятна на кальсонах отрицателей.
Мне известно уже о полудюжине опенсорсных проектов репликации ChatGPT, также аналогах от Google, you.com (команда из Salesforce) и Anthropic, которые сравнимы по качеству.
Антропик даже получше:
https://twitter.com/andy_l_jones/status/1611063295850729472В ближайшее время выходит опенсорсная модель для генерации картинок IF от DeepFloyd (профинансированных Stability), которая будет очень хороша в тексте и, вероятно, других мелких деталях. (Неожиданный факт, за ней стоит украинская команда).
С ней, вероятно, можно будет сравнить недавнюю гугловскую Muse
https://arxiv.org/abs/2301.00704, которая продолжает тренд замены других типов нейросетей трансформерами (в данном случае выкинули U-Net).
http://muse-model.github.io Чем Muse интересна? В первую очередь пониманием композиционной семантики и кардинальности объектов. Почему это интересно? Потому что свет наш Гэри Маркус, выступающий на всех цирковых площадках от шоу Эзры Кляйна до The Economist, главный критик нейросетей без эксплицитных вшитых в архитектуру нейросимволических методов (т.е всего современного мейнстрима глубокого обучения), говорил не далее как в апреле 2022-го:
https://twitter.com/garymarcus/status/1512647983317151747> Композиционность *это и есть* стена [в которую упирается машинное обучение]. "В математической логике и смежных дисциплинах принцип композиционности - это принцип, согласно которому значение сложного выражения определяется значениями составляющих его выражений и правилами, используемыми для их объединения. ... Принцип композиционности утверждает, что если из осмысленного предложения убрать лексические части , то останутся только правила композиции. Возьмем, к примеру, фразу «Сократ был человеком». После удаления значимых лексических элементов - «Сократ» и «человек» - остается псевдо-предложение «S было M». Задача сводится к описанию связи между S и M."
Соответственно нейросети, которые ПРОСТО комбинируют или интерполируют между элементами датасета (хуй его знает, что такое ПРОСТО в понимании критиков, но допустим) – никогда не смогут с высокой вероятностью правильно интерпретировать промпты, описывающие что-то сложнее набора объектов, расположенных в сцене случайным или статистически вероятным (для обучающего датасета) образом.
Ну как поупирались в стену?
Слева направо: Dall-e 2, Imagen, Muse. Понимание промпта очевидно растёт, а ресурсоёмкость моделей всё падает. Помимо своих других достоинств, Muse примерно на порядок быстрее предыдущего поколения моделей от Google (1.3 секунды на картинку на чипе класса A100). Обучение тоже вряд ли стоило больше, чем Stable Diffusion, не говоря уж о Dall-E.
Мне очень интересно, как Маркус будет выкручиваться в этот раз. Как кальсон, доёбываться до ошибок композициональности ("ахаха, у книжки обложки разного цвета!") и игнорировать, что их вероятность снизилась с почти 100% до 20-40% менее чем за год?
Message too long. Click here to view full text.