Доброчанька 12/03/2022 (Sat) 18:17 No.961 del

>>952
Для начала, эта проблема – неудачное начало ответа заставляет модель продолжать блажить – обходится уже сейчас банальными механизмами вроде best of N, то есть генерацией нескольких линий ответов с разными случайными сидами и сравнению их по качеству (даже банальной perplexity по оценке самой модели). Учитывая скорость генерации ChatGPT, при best of 20 она всё ещё будет в разы быстрее человека. Есть более изощрённые механики из этого класса, например self-consistency https://arxiv.org/abs/2203.11171

Всё это очень похоже на человеческую проблему трейдоффа глубокого и быстрого мышления, система 2 vs. система 1.

Но дело даже не в этом.

> Каким образом ты полагаешь GPT - мозг-в-банке - сможет это синтезировать?
Ещё по RLHF погоняют (пикрелейтед) и у неё появится интуитивное понимание правильных ответов на кодерские вопросы. Этот "публичный бета-тест" для того и используется. Думаешь, вы такие умные, что тиражируете в сети примеры ошибок? Всё это пойдёт в дело как начало вектора от нежелательных к желательным ответам, и она не просто запомнит частные случаи (ей некуда их запоминать), а обобщит принцип, как уже обобщила очень многое, как может обобщить принцип микроагрессии на воображаемый диалог между макаронами и удоном или стиль речи гангстера на мануал по computer science. В достаточно большой и плотной модели углубление понимания каждого домена приводит к росту понимания всех связанных доменов.

Тебя не смущает, что ты приводишь аналогию с глупым человеком и материалами, написанными глупыми людьми? Ровно такого сорта контент можно получить от индуса на странице поддержки. Два года назад за подобные аналогии ты бы предложил пить таблетки, ведь было "очевидно", что модель просто перебирает слова, теряя когерентность даже между предложениями.

Тебя не смущает, что ошибок и откровенного бреда стало намного меньше? Почему ты так привязан к тому, чтобы выискивать failure modes, а не оценивать количественно и качественно разницу между поколениями ИИ и изучать, как эта разница была достигнута?

А я скажу почему. Потому что вот это –
> Вот человек может *заморочиться* и *реально* выяснить
– неправда. Люди ограниченны. Дурачок-индус *не может* просто подумать подольше и найти верное решение без копипастинга из чужой работы, он упирается в свой потолок. Ты тоже не можешь просто напрячься, отвлечься от защиты своего статуса и проанализировать вопрос от первых принципов, вместо того занимаясь *бесполезным бормотанием* про мозг в банке (интересно, какие ещё органы, по-твоему, нужны для понимания линукс-драйверов).

Message too long. Click here to view full text.