speech-to-text-eo
Elvoĉ - Голос-в-текст (TTS) и текст-в-голос (STT)
Возможности:
- TTS на базе проектов Kokoro, Silero
- автоматическое разспознавание языка по тексту с помощью fasttext
- STT распознавание речи с языка Эсперанто
Телеграм-боты:
- TTS-бот https://t.me/chat2voice_bot "Текст в голос | 100 языков"
- STT-бот https://t.me/vocxbot , отправив ему голосовое на Эсперанто, получите в ответ транскрипцию.
STT
Elvoĉ выполняет перевод голоса в текст (speech-to-text, STT/automatic speech recognition, ASR) по де-факто стандарту openai, пример запроса:
$ curl -s http://localhost:8010/v1/audio/transcriptions" -F file=@eo_test_0/common_voice_eo_17920711.mp3 | jq .text
"Ĝi jam staras al mi en la gorĝa"
Выбранные решения:
- используется HuggingFace-модель cpierse/wav2vec2-large-xlsr-53-esperanto
- движок модели XLS-R/Wav2Vec2, не
, в данный момент без языковой модели (корректировки слов нет, без пунктуации)whisper - длинные файлы транскрибируются (long form audio)
Дальнейшие опции развития:
- дообучить последний XLS-R с языковой моделью вместо устаревающей текущей модели (меньше рисков)
- дообучить
(возможны сложности с long form audio etc)whisper - попробовать на базе
(вероятно сложна)GigaAM
(eo) Elvoĉ - rekono de parolo de Esperanto
Elvoĉ plenumas transskribadon de voĉo al teksto (speech-to-text, STT/automatic speech recognition, ASR) laŭ fakta normo de openai, ekzemplo de demando:
$ curl -s http://localhost:8010/v1/audio/transcriptions" -F file=@eo_test_0/common_voice_eo_17920711.mp3 | jq .text
"Ĝi jam staras al mi en la gorĝa"
Elvoĉ estas instalita kiel servilo por la telegram-a roboto https://t.me/vocxbot, sendante al ĝi voĉmesaĝon en Esperanto, vi ricevos transskribon kiel respondon.
La elektitaj decidoj:
- estas uzata HuggingFace-modelo cpierse/wav2vec2-large-xlsr-53-esperanto
- XLS-R/Wav2Vec2 modelmotoro, ne
, nuntempe sen lingva modelo (sen vortkorekto, sen interpunkcio)whisper - longaj dosieroj estas transskribataj (longforma aŭdio)
Pluaj ebloj por evolui:
- ĝis-trejni la plej novan XLS-R kun lingva modelo anstataŭ la malmoderniĝanta nuna modelo (malpli da riskoj)
- ĝis-trejni
(malfacilaĵoj eblas kun longforma aŭdio ktp)whisper - provi per la
-bazo (verŝajne malfacile)GigaAM
(en) Elvoĉ - Esperanto Speech Recognition
Elvoĉ transcribes voice into text (speech-to-text, STT/automatic speech recognition, ASR) according to de facto openai standard, a request example:
$ curl -s http://localhost:8010/v1/audio/transcriptions" -F file=@eo_test_0/common_voice_eo_17920711.mp3 | jq .text
"Ĝi jam staras al mi en la gorĝa"
Elvoĉ is deployed as backend for the telegram bot https://t.me/vocxbot , by sending a voice message in Esperanto to it, one receives a transcription in response.
Selected solutions:
- HuggingFace model cpierse/wav2vec2-large-xlsr-53-esperanto is used
- XLS-R/Wav2Vec2 model engine, not
, currently without language model (no word correction, no punctuation)whisper - long files are transcribed (long form audio)
Further development options:
- fine-tune the latest XLS-R with language model instead of the getting outdated current model (less risks)
- fine-tune
(possible difficulties with long form audio etc)whisper - try on the basis of
(probably difficult)GigaAM