Golos

Шаблон
1

Описание

Речевой тренажёр «GolosAI» основан на технологиях генеративного искусственного интеллекта и использовании больших языковых моделей. Алгоритм функционирования тренажёра включает распознавание речи, генерацию ответов, синтез голоса и анализ выполнения задач.

Шаблон

Используйте репозиторий как шаблон для создания нового репозитория

Языки

  • Python100%
5 месяцев назад
5 месяцев назад
5 месяцев назад
5 месяцев назад
5 месяцев назад
5 месяцев назад
5 месяцев назад
5 месяцев назад
README.md

GolosAI — автономный речевой LLM-тренажёр для изучения иностранных языков

Интерактивный тренажёр для развития навыков диалога на иностранном языке.

Возможности

🎙️ ASR: faster-whisper (CTranslate2) локально; Vosk — как fallback.

💬 LLM: локальные OpenAI-совместимые серверы (LM Studio и др.) или внешние API (cloud.ru, Yandex Cloud).

🔊 TTS: движок Piper.

🎯 Цели-«огоньки» в процессе для предварительного выполнения цели + финальный отчёт через LLM.

🧰 Конструктор ситуаций (унификация целей на русском), Статистика, боковая QLabel-панель с вспомогательными материалами (меню, прайс, анкеты).

Системные требования

Windows 10/11 x64.

CPU x64 (рекомендовано ≥4 ядра).

RAM: 8–32 GB (по выбранным моделям).

Микрофон и наушники (лучше гарнитура).

Быстрый старт

**Установочник для готовой версии из коробки (1,7 GB, англ.яз, Внешняя LLM) https://disk.yandex.ru/d/XRfHiRLTYcBGhA

Настройки (правый верхний угол) → ASR: whisper-faster (стоит по умолчанию) или Vosk (offline), укажите папку CT2-модели и нажми Загрузить.

Для whisper указывается или путь к папке на диске (D:/Speech_trainer/whisper/small) или прописывается тип модели для скачивания онлайн - tiny, small.

Whisper универсальная для европейских языков, но требует больше ресурсов. Vosk работает быстрее, но каждый язык надо подключать отдельно.

Настройки → LLM: для автономного варианта задайте llm_url (например, http://127.0.0.1:1234 для LM Studio) и назавание llm_model.

Для внешнего варианта по умолчанию указаны действующие настройки https://foundation-models.api.cloud.ru/v1 и Qwen/Qwen3-Next-80B-A3B-Instruct и пароль

Настройки → Piper: проверь piper.exe и выберите голос в зависимости от языка.

Перейди во вкладку Тренажёр, выберите язык (en, es, de fr, ru), ситуацию, нажмите и удерживайте Запись, чтобы произнести фразу.

По мере выполнения речевых целей у Вас будут загораться зеленые огоньки, если Вы сказали правильную фразу.

Верхняя панель, правый столбец Материалы - при нажатии развернется картинка и займет правую часть экрана.

Нажмите Завершить — получите отчёт.

Как это работает (pipeline)

Захват голоса (push-to-talk).

ASR (Whisper CT2 или Vosk) → текст (распознавание речи).

LLM получает реплику ученика в виде текста и формирует свой ответ.

Piper озвучивает по предложениям.

Огоньки целей — предварительное выполнение цели (зеленый); финальное подтверждение — в отчёте LLM.

Финальный зачёт делает LLM: ищет цитату-evidence и учитывает ограничения цели (числа/виды).

Панели Конструктор, Статистика и материалы

Конструктор (пароль для редактирования 5142)

Методист создаёт унифицированные цели на русском и промпт оценки; преподаватели по языкам добавляют материалы (подсказки, документы, изображения/видео).

Для каждого языка предусмтрена своя вкладка справа от основной (там указываем цели для LLM, которые соотносятся с целями ученика), нажимаем Сохранить

Статистика: таблица «дата — ситуация — ошибки/покрытие целей».

QLabel-панель: боковой виджет с учебными меню, прайсами, схемами и т.д. для повышения реалистичности сцены во время диалогов.

Контакты

Автор/поддержка: Илья, luxa2@ya.ru, Telegram - @ilia1406

Идеи/баг-репорты — в Issues репозитория.