Speak-to-train
7 месяцев назад
7 месяцев назад
7 месяцев назад
7 месяцев назад
7 месяцев назад
7 месяцев назад
README.md
Speak To Train

Простое приложение для быстрого создания датасета голосовых данных для обучения TTS моделей.
✨ Что умеет
- 🎤 Легко записать голос - одна кнопка, никаких сложностей
- 📝 Автоматически показывает текст - просто читайте что написано
- 🎨 Красота в простоте - ничего лишнего, только нужное
- 📊 Видите прогресс - сколько уже записали
- 💾 Все сохраняется автоматически - в правильном формате
- 📋 Готовые метаданные - сразу для обучения модели
- ⚡ Работайте быстро - максимум эффективности
🚀 Как начать
- Установите нужные библиотеки:
- Запустите программу:
- Начинайте записывать:
- Нажмите кнопку с микрофоном 🎤
- Читайте текст который показан
- Нажмите кнопку еще раз чтобы остановить
- Следующий текст появится сам
📁 Структура проекта
Speak-to-train/
├── app.py # Основное приложение
├── requirements.txt # Зависимости Python
├── sentences.txt # Предложения для записи
├── dataset/
│ ├── wavs/ # Аудиофайлы (.wav)
│ └── metadata.csv # Метаданные для обучения
└── assets/
└── preview.png # Скриншот приложения
📊 Формат данных
- Аудио: WAV, 22050 Гц, 16 бит, моно
- Метаданные: CSV формат wavs/filename.wav|Текст предложения
- Совместимость: Coqui TTS, VITS, другие TTS системы
🔧 Требования
- Python: 3.7+
- Микрофон: любой совместимый с системой
- ОС: Windows/macOS/Linux
- Память: Записи сохраняются в директорию проекта, поэтому убедитесь, что там есть место
📚 Используемые библиотеки
- tkinter - графический интерфейс
- sounddevice - запись и воспроизведение аудио
- numpy - численные вычисления
- scipy - обработка аудио данных
- librosa - анализ аудио сигналов
- pathlib - работа с файловыми путями
📝 Лицензия
MIT лицензия - можете:
- ✅ Использовать в любых проектах
- ✅ Изменять как угодно
- ✅ Продавать и зарабатывать
- ✅ Раздавать бесплатно
Только не забудьте указать автора в коде.
🤝 Вклад в проект
Приветствуются любые улучшения и предложения! Создавайте issues и pull requests.
Сделано чтобы быстро и легко создавать датасеты для TTS моделей