Доброчанька 07/20/2023 (Thu) 06:58 No.3694 del
>>3692
Спок, дебс, я закончил с твоей тупой шуткой и просто вернулся к разговору с кальсоном. LLM лучше тебя парсит контексты.

>>3693
> Идея динамической подгрузки необходимого и управления памятью хоть сколько-нибудь развивается?
На нескольких уровнях, например https://github.com/FMInference/FlexGen
Да и просто питорч это может.

Но оффлоадинг в целом сосёт. Посмотри на неплохое альтернативное решение (от Яндекса) https://petals.ml

> модульные
Ты имеешь в виду что-то вроде MoE, где некоторые наиболее популярные эксперты загружаются во VRAM?