/

/

Обзор ДокументацияВойти

/

/

Аналитика

Безопасность

ModuleFormer

YS
Yikang Shen
Merge pull request #8 from LuciferianInk/enable-gradient-checkpointing
год назад
850f1eb

Описание

ModuleFormer is a MoE-based architecture that includes two different types of experts: stick-breaking attention heads and feedforward experts. We released a collection of ModuleFormer-based Language Models (MoLM) ranging in scale from 4 billion to 8 billion parameters.

Избранное0

Языки

Python

Сообщить о нарушении

Коммиты:

implement transformers activation functions

год назад

2 года назад

2 года назад

Update README.md

2 года назад

2 года назад

2 года назад

README.md

Описание

ModuleFormer is a MoE-based architecture that includes two different types of experts: stick-breaking attention heads and feedforward experts. We released a collection of ModuleFormer-based Language Models (MoLM) ranging in scale from 4 billion to 8 billion parameters.

Избранное0

Языки

Python

Сообщить о нарушении