Доброчанька 12/05/2022 (Mon) 01:34 No.988 del
(90.06 KB 959x524 960x0.jpg)
Cerebras построили свой суперкомпьютер экзафлопсного класса, используя свои хвалёные чипы размером с квадрат, вписанный в стандартную пластину (420 квадратных сантиметров). 240 киловатт, 30 миллионов, околонулевые потери на параллелизацию, рекордная пропускная способность памяти. На практике будет сравнимо с Tesla Dojo Exapod. Google TPU v4 Pod построен на более ортодоксальной технологии, но пиковая производительность тоже около 1 exaFLOPS. В целом – продолжение тренда на железо от новых игроков, специализированное под обучение больших моделей. Компании попроще и попильные конторы вроде Department of Energy продолжат пользоваться чипами NVDA.
https://www.hpcwire.com/2022/11/14/cerebras-builds-exascale-ai-supercomputer/

https://news.mit.edu/2022/synthetic-data-ai-improvements-1103 синтетические данные улучшают обучение.

## фундаментальное
The models, dubbed a “closed-form continuous-time” (CfC) neural network, outperformed state-of-the-art counterparts on a slew of tasks, with considerably higher speedups and performance in recognizing human activities from motion sensors, modeling physical dynamics of a simulated walker robot, and event-based sequential image processing. On a medical prediction task, for example, the new models were 220 times faster on a sampling of 8,000 patients.
Возможно, обман чтобы набрать классы.
https://news.mit.edu/2022/solving-brain-dynamics-gives-rise-flexible-machine-learning-models-1115

https://arxiv.org/abs/2211.03495 – возможно attention is not needed, это снимет квадратичный рост стоимости инференса, и позволит масштабировать модели сравнительно безнаказанно.

https://ai.googleblog.com/2022/11/characterizing-emergent-phenomena-in.html – исследование эмерджентных способностей языковых моделей

https://42papers.com/p/self-conditioned-embedding-diffusion-for-text-generation
диффузия для текста, наканецто.

Message too long. Click here to view full text.