Speak-to-train

0
README.md

Speak To Train

Preview

Простое приложение для быстрого создания датасета голосовых данных для обучения TTS моделей.

✨ Что умеет

  • 🎤 Легко записать голос - одна кнопка, никаких сложностей
  • 📝 Автоматически показывает текст - просто читайте что написано
  • 🎨 Красота в простоте - ничего лишнего, только нужное
  • 📊 Видите прогресс - сколько уже записали
  • 💾 Все сохраняется автоматически - в правильном формате
  • 📋 Готовые метаданные - сразу для обучения модели
  • Работайте быстро - максимум эффективности

🚀 Как начать

  1. Установите нужные библиотеки:
  1. Запустите программу:
  1. Начинайте записывать:
    • Нажмите кнопку с микрофоном 🎤
    • Читайте текст который показан
    • Нажмите кнопку еще раз чтобы остановить
    • Следующий текст появится сам

📁 Структура проекта

Speak-to-train/ ├── app.py # Основное приложение ├── requirements.txt # Зависимости Python ├── sentences.txt # Предложения для записи ├── dataset/ │ ├── wavs/ # Аудиофайлы (.wav) │ └── metadata.csv # Метаданные для обучения └── assets/ └── preview.png # Скриншот приложения

📊 Формат данных

  • Аудио: WAV, 22050 Гц, 16 бит, моно
  • Метаданные: CSV формат
    wavs/filename.wav|Текст предложения
  • Совместимость: Coqui TTS, VITS, другие TTS системы

🔧 Требования

  • Python: 3.7+
  • Микрофон: любой совместимый с системой
  • ОС: Windows/macOS/Linux
  • Память: Записи сохраняются в директорию проекта, поэтому убедитесь, что там есть место

📚 Используемые библиотеки

  • tkinter - графический интерфейс
  • sounddevice - запись и воспроизведение аудио
  • numpy - численные вычисления
  • scipy - обработка аудио данных
  • librosa - анализ аудио сигналов
  • pathlib - работа с файловыми путями

📝 Лицензия

MIT лицензия - можете:

  • ✅ Использовать в любых проектах
  • ✅ Изменять как угодно
  • ✅ Продавать и зарабатывать
  • ✅ Раздавать бесплатно

Только не забудьте указать автора в коде.

🤝 Вклад в проект

Приветствуются любые улучшения и предложения! Создавайте issues и pull requests.


Сделано чтобы быстро и легко создавать датасеты для TTS моделей