Доброчанька 11/01/2023 (Wed) 17:14 No.3779 del

>>3588
> Что он не умеет считать буквы? Да, не умеет. Потому что он их не видит
В чём у ей проблема интерпретировать текст запроса как набор байт?

>>3776
Где-то видел мельком, что именно из-за побуквенности чатжпт плох на русском. Что-то вроде так быстрее выходит за лимит доступный для генерирования.

Вообще, дорогие, я думаю что русскоязычную LLM надо обучить на архиве non-fiction Флибусты, lib.ru, libgen-а, гуманитарной, исторической и философской литературе. Это можем сделать только мы, из-за копиразма в остальном мире (из-за чего огромная индексированная коллекция книг Google Books остается полузакрытой и это не планирует измениться). Корпы так же этого не сделают из-за своей прогибаемости, ссыкливости и бздливости. Только энтузиасты.
Я мечтаю, что анонимы всех руборд, забыв распри, начнут такое дистрибутед обучение. На удивление, сосаки наиболее способны к продуктивной кооперации. Оставив организационные вопросы, знатоки, возможно ли это в разрезе
1. Этих бибилотечных данных хватит до сих пор позорно прожорливым до них моделям? Если нет, заменится ли файнтюном или чем-то в этом роде?
2. Распределенное обучение на чайниках существует? Помню тот крик когда-то у технарей везде про map-reduce.