>>3588 > Что он не умеет считать буквы? Да, не умеет. Потому что он их не видит В чём у ей проблема интерпретировать текст запроса как набор байт?
>>3776 Где-то видел мельком, что именно из-за побуквенности чатжпт плох на русском. Что-то вроде так быстрее выходит за лимит доступный для генерирования.
Вообще, дорогие, я думаю что русскоязычную LLM надо обучить на архиве non-fiction Флибусты, lib.ru, libgen-а, гуманитарной, исторической и философской литературе. Это можем сделать только мы, из-за копиразма в остальном мире (из-за чего огромная индексированная коллекция книг Google Books остается полузакрытой и это не планирует измениться). Корпы так же этого не сделают из-за своей прогибаемости, ссыкливости и бздливости. Только энтузиасты. Я мечтаю, что анонимы всех руборд, забыв распри, начнут такое дистрибутед обучение. На удивление, сосаки наиболее способны к продуктивной кооперации. Оставив организационные вопросы, знатоки, возможно ли это в разрезе 1. Этих бибилотечных данных хватит до сих пор позорно прожорливым до них моделям? Если нет, заменится ли файнтюном или чем-то в этом роде? 2. Распределенное обучение на чайниках существует? Помню тот крик когда-то у технарей везде про map-reduce.