Доброчанька 04/27/2023 (Thu) 18:25 No.3546 del
>>3545
>галлюционируешь выдуманными положительными сценариями, которых нет ИРЛ, успокаиваешь себя, коупишь.

Что ты несёшь, крестьянин? Я назвал конкретные созданные модели, подтверждающие, что рост числа параметров не необходим для роста качества генерации. Всё, что я сказал, верифицировано в том или ином масштабе или задеплоено. То, что я могу экстраполировать из этого гипотезу о следующей итерации с большой степенью уверенности – моё преимущество над тупой базой данных, которая просто перебирает данные ей факты.

А вот журналист WIRED нагаллюцинировал из заявленного окончания тренда на увеличение моделей и того, что Альтман ему не удосужился перечислить статьи, по которым они сейчас ведут работу – "unclear exactly where future advances will come from". Ну да, это правда. Technically true. Я тоже не знаю, какие exactly трюки из десятков доступных они применят в 2023, а какие отложат на потом. Только они все уже существуют и известны. В дополнение к тем, которые OpenAI скрывает, конечно, как они скрывают свои методы тюнинга гиперпараметров.

А ты, будучи тупым животным, ведёшься на эти журналистские приколы с мотивированной интерпретацией. Это как когда журналист насрёт кому-то на голову и пишет "obosranniy did not immediately reply to a request for comment" или нечто подобное, как бы намекая, что ответить-то и нечего. Надо понимать, что тебе очень бы хотелось поверить в данном случае.

> Altman’s declaration suggests an unexpected twist in the race to develop and deploy new AI algorithms.
Для кого unexpected? Для желтушных журналистов? Шиншилла-70B вышла год назад и показала, что для моделей больше самых больших на 2022 год (PaLM, Megatron) просто не хватит текста для обучения до оптимальности, что заведомо ограничило смысл тупой стратегии масштабирования:
> By training 400 language models ranging from 70 million to 10 billion parameters on 5 to 500 billion tokens, we find that for compute-optimal training, the model size and the training dataset size should be scaled equally: for every doubling of model size the training dataset size should also be doubled.
> Based on our estimated compute-optimal frontier, we predict that for the compute budget used to train Gopher, an optimal model should be 4 times smaller, while being training on 4 times more tokens. We verify this by training a more compute-optimal 70B model, called Chinchilla, on 1.4 trillion tokens. Not only does Chinchilla outperform its much larger counterpart, Gopher, but its reduced model size reduces inference cost considerably and greatly facilitates downstream uses on smaller hardware. The energy cost of a large language model is amortized through its usage for inference an fine-tuning. The benefits of a more optimally trained smaller model, therefore, extend beyond the immediate benefits of its improved performance.
> Chinchilla uniformly and significantly outperforms Gopher (280B), GPT-3 (175B), Jurassic-1 (178B), and Megatron-Turing NLG (530B) on a large range of downstream evaluation tasks.


Более того, конкретно Альтман не в первый раз сообщает про UNEXPECTED TWIST, например 2 года назад он уже говорил, что GPT-4 не будет значительно больше:

Message too long. Click here to view full text.