Доброчанька
04/23/2023 (Sun) 01:13
No.3538
del
>>3533>>3536>>3537Успокойтесь, ничего не over. Он просто сказал то, что я уже давно говорю, и что всем было понятно с Шиншиллы, модели можно делать мощнее и умнее без увеличения числа параметров, для начала тупо более длительным обучением на более объёмных данных. GPT-3 это 175 миллиардов параметров и 500 миллиардов токенов, 1:3. Шиншилла это 70/1400, 1:20. В статье Лламы тоже видно, что 7B продолжала снижать лосс после 1 триллиона токенов, 1/143. Емад сейчас грозится обучить 3B на 3T, то есть 1:1000. Это более дешёвый подход к обучению и колоссально более дешёвый подход к инференсу. Проблема в том, что с такими пропорциями для больших моделей не хватит данных, но это решается мультимодальностью и синтетическими данными, которые для визуальных моделей уже сравнимы по эффективности с натуральными.