Coqui XTTS v2 Voice Studio

Локальное создание и тест своих голосов

Загрузи WAV-референсы, зарегистрируй новый voice_id и сразу проверь результат через тот же OpenAI-compatible путь POST /v1/audio/speech.

Model: xtts-v2
Default language: ru
Sample rate: 24000 Hz

Рекомендации по референсам

Лучше всего работают 2-6 чистых WAV-файлов с одним и тем же голосом, без музыки, эха и сильного фонового шума.

  • Предпочтительны 16-bit PCM WAV.
  • Один voice_id должен описывать один стабильный голос.
  • Описание стоит заполнять так, чтобы потом было легко отличать профили.
  • После регистрации голос сразу доступен в API и в форме теста ниже.

Создать voice profile

При регистрации сервис может автоматически прогнать референсы через denoise, high-pass, low-pass, mono downmix и нормализацию уровней.

Узкие референсы по абзацам

Можно записать несколько коротких отдельных фрагментов с микрофона. Это помогает собрать более чистый voice profile, чем один длинный дубль. Для лучшего качества стоит набрать хотя бы пять разных абзацев.

Файлы вручную пока не выбраны.

Проверить синтез

Зарегистрированные голоса

Список синхронизирован с /opt/tts-xtts/voices/registry.json.

API routes

  • GET /health
  • GET /v1/models
  • GET /voices
  • POST /v1/audio/speech
  • POST /admin/voices/dry-run
  • POST /admin/voices/register
  • POST /admin/voices/<voice_id>/validate
  • DELETE /admin/voices/<voice_id>