Доброчанька
07/20/2023 (Thu) 06:58
No.3694
del
>>3692Спок, дебс, я закончил с твоей тупой шуткой и просто вернулся к разговору с кальсоном. LLM лучше тебя парсит контексты.
>>3693> Идея динамической подгрузки необходимого и управления памятью хоть сколько-нибудь развивается?На нескольких уровнях, например
https://github.com/FMInference/FlexGenДа и просто питорч это может.
Но оффлоадинг в целом сосёт. Посмотри на неплохое альтернативное решение (от Яндекса)
https://petals.ml> модульныеТы имеешь в виду что-то вроде MoE, где некоторые наиболее популярные эксперты загружаются во VRAM?