Репозиторий помещен в архив 05 января 2026. Вся функциональность доступна только для чтения.

speech-to-text-eo

Архивный
0
5 месяцев назад
5 месяцев назад
6 месяцев назад
5 месяцев назад
5 месяцев назад
5 месяцев назад
README.md

Elvoĉ - Голос-в-текст (TTS) и текст-в-голос (STT)

Возможности:

  • TTS на базе проектов Kokoro, Silero
  • автоматическое разспознавание языка по тексту с помощью fasttext
  • STT распознавание речи с языка Эсперанто

Телеграм-боты:

  • TTS-бот https://t.me/chat2voice_bot "Текст в голос | 100 языков"
  • STT-бот https://t.me/vocxbot , отправив ему голосовое на Эсперанто, получите в ответ транскрипцию.

STT

Elvoĉ выполняет перевод голоса в текст (speech-to-text, STT/automatic speech recognition, ASR) по де-факто стандарту openai, пример запроса:

$ curl -s http://localhost:8010/v1/audio/transcriptions" -F file=@eo_test_0/common_voice_eo_17920711.mp3 | jq .text "Ĝi jam staras al mi en la gorĝa"

Выбранные решения:

  • используется HuggingFace-модель cpierse/wav2vec2-large-xlsr-53-esperanto
  • движок модели XLS-R/Wav2Vec2, не
    whisper
    , в данный момент без языковой модели (корректировки слов нет, без пунктуации)
  • длинные файлы транскрибируются (long form audio)

Дальнейшие опции развития:

  • дообучить последний XLS-R с языковой моделью вместо устаревающей текущей модели (меньше рисков)
  • дообучить
    whisper
    (возможны сложности с long form audio etc)
  • попробовать на базе
    GigaAM
    (вероятно сложна)

(eo) Elvoĉ - rekono de parolo de Esperanto

Elvoĉ plenumas transskribadon de voĉo al teksto (speech-to-text, STT/automatic speech recognition, ASR) laŭ fakta normo de openai, ekzemplo de demando:

$ curl -s http://localhost:8010/v1/audio/transcriptions" -F file=@eo_test_0/common_voice_eo_17920711.mp3 | jq .text "Ĝi jam staras al mi en la gorĝa"

Elvoĉ estas instalita kiel servilo por la telegram-a roboto https://t.me/vocxbot, sendante al ĝi voĉmesaĝon en Esperanto, vi ricevos transskribon kiel respondon.

La elektitaj decidoj:

  • estas uzata HuggingFace-modelo cpierse/wav2vec2-large-xlsr-53-esperanto
  • XLS-R/Wav2Vec2 modelmotoro, ne
    whisper
    , nuntempe sen lingva modelo (sen vortkorekto, sen interpunkcio)
  • longaj dosieroj estas transskribataj (longforma aŭdio)

Pluaj ebloj por evolui:

  • ĝis-trejni la plej novan XLS-R kun lingva modelo anstataŭ la malmoderniĝanta nuna modelo (malpli da riskoj)
  • ĝis-trejni
    whisper
    (malfacilaĵoj eblas kun longforma aŭdio ktp)
  • provi per la
    GigaAM
    -bazo (verŝajne malfacile)

(en) Elvoĉ - Esperanto Speech Recognition

Elvoĉ transcribes voice into text (speech-to-text, STT/automatic speech recognition, ASR) according to de facto openai standard, a request example:

$ curl -s http://localhost:8010/v1/audio/transcriptions" -F file=@eo_test_0/common_voice_eo_17920711.mp3 | jq .text "Ĝi jam staras al mi en la gorĝa"

Elvoĉ is deployed as backend for the telegram bot https://t.me/vocxbot , by sending a voice message in Esperanto to it, one receives a transcription in response.

Selected solutions:

  • HuggingFace model cpierse/wav2vec2-large-xlsr-53-esperanto is used
  • XLS-R/Wav2Vec2 model engine, not
    whisper
    , currently without language model (no word correction, no punctuation)
  • long files are transcribed (long form audio)

Further development options:

  • fine-tune the latest XLS-R with language model instead of the getting outdated current model (less risks)
  • fine-tune
    whisper
    (possible difficulties with long form audio etc)
  • try on the basis of
    GigaAM
    (probably difficult)