Доброчанька
11/02/2023 (Thu) 08:46
No.3780
del
>>3779> В чём у ей проблема интерпретировать текст запроса как набор байт?BPE колоссально удешевляет и упрощает как обучение так и инференс, и вообще всю логику системы.
У них фиксированный словарь. У лламы там 32к токенов, ничего другого для неё не существует.
Есть статьи
https://arxiv.org/abs/2306.00238https://arxiv.org/abs/2305.07185 решающие твою задачу, но пока я не в курсе чтобы из этого сделали что-то product-grade.
> Вообще, дорогие, я думаю что русскоязычную LLM надо обучить на архиве non-fiction Флибусты, lib.ru, libgen-а, гуманитарной, исторической и философской литературе.
Да.
Самая разумная база для этого - вероятно, Qwen-14B, у него огромный словарь без биаса по размеру токенов\плотности сжатия в разных языках.
Данных достаточно, да не тех – мы же не литературную модель обучаем, нужно что-то, что понимает снэпшоты современного интернета и может говорить. Это довольно серьёзная задача инжиниринга данных.
Message too long. Click here to view full text.