Gwen-TTS 0.6B - Natural Vietnamese Voice Cloning

Gwen-TTS is a Vietnamese text-to-speech model with natural voice cloning capability.

Key highlights:

  • Clone any voice with just a few seconds of reference audio
  • Natural and expressive Vietnamese voice cloning
  • Finetuned from Qwen3-TTS-0.6B on ~1,000 hours of Vietnamese audio data crawled from TikTok

Demo: https://g-voice.g-ailab.com/tts (integrated with TTS text normalization and serving)

GitHub: https://github.com/ggroup-ai-lab/gwen-tts

How to Use

Installation

pip install -U qwen-tts
# Optional: for optimized performance
pip install -U flash-attn --no-build-isolation

Voice Cloning

Note: For best quality, proactively apply TTS text normalization (numbers, symbols, abbreviations, etc.) and split input into chunks before passing to the model.

import torch
import soundfile as sf
from qwen_tts import Qwen3TTSModel

# Load model
model = Qwen3TTSModel.from_pretrained(
    "g-group-ai-lab/gwen-tts-0.6B",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
)

# Recommended generation config for Gwen-TTS
generation_config = dict(
    temperature=0.3,
    top_k=20,
    top_p=0.9,
    max_new_tokens=4096,
    repetition_penalty=2.0,
    subtalker_do_sample=True,
    subtalker_temperature=0.1,
    subtalker_top_k=20,
    subtalker_top_p=1.0,
)

# Generate speech with voice cloning
wavs, sr = model.generate_voice_clone(
    text="<your text to synthesize>",
    language="Vietnamese",
    ref_audio="<path/to/reference.wav>",
    ref_text="<transcript of the reference audio>",
    **generation_config,
)

sf.write("output.wav", wavs[0], sr)

Voice Samples

Each speaker shows the reference audio (voice input) and the generated inference audio (output).

Yến Nhi  yen_nhi

Reference

sao lại không liên quan. các anh lấy vợ rồi các anh cứ đội chị lên đầu làm nóc nhà ấy, suốt ngày hỏi ý kiến các chị thì làm sao mà ra vấn đề được cho em đúng không.
Inference

Dạ chào anh, em gọi trực tiếp từ bộ phận phê duyệt hồ sơ thẻ tín dụng. Hiện tại hồ sơ của mình đang nằm trong danh sách ưu tiên nhận hạn mức lên đến hai trăm triệu đồng, kèm ưu đãi miễn phí thường niên trọn đời. Không biết mình có tiện trao đổi hai phút để em hướng dẫn nhận thẻ ngay không ạ?

Mỹ Vân  my_van

Reference

bạn thân mến, chúng ta sẽ đến với một bài tập tiếp theo để giúp cho các bạn có hơi thở dài, sâu và đầy đặn hơn.
Inference

Dạ chào anh, em gọi trực tiếp từ bộ phận phê duyệt hồ sơ thẻ tín dụng. Hiện tại hồ sơ của mình đang nằm trong danh sách ưu tiên nhận hạn mức lên đến hai trăm triệu đồng, kèm ưu đãi miễn phí thường niên trọn đời. Không biết mình có tiện trao đổi hai phút để em hướng dẫn nhận thẻ ngay không ạ?

Ái Vy  ai_vy

Reference

việt nam đang kiêu hãnh bước vào kỷ nguyên vươn mình rực rỡ với khát vọng mãnh liệt, trí tuệ đổi mới và tinh thần đoàn kết đất nước, tự tin bứt phá, kiến tạo một tương lai thịnh vượng và vươn tầm quốc tế.
Inference

Dạ chào anh, em gọi trực tiếp từ bộ phận phê duyệt hồ sơ thẻ tín dụng. Hiện tại hồ sơ của mình đang nằm trong danh sách ưu tiên nhận hạn mức lên đến hai trăm triệu đồng, kèm ưu đãi miễn phí thường niên trọn đời. Không biết mình có tiện trao đổi hai phút để em hướng dẫn nhận thẻ ngay không ạ?

An Nhi  an_nhi

Reference

việt nam đang kiêu hãnh bước vào kỷ nguyên vươn mình rực rỡ với khát vọng mãnh liệt, trí tuệ đổi mới và tinh thần đoàn kết đất nước, tự tin bứt phá, kiến tạo một tương lai thịnh vượng và vươn tầm quốc tế.
Inference

Thưa quý vị, sáng nay tại TP.HCM, Diễn đàn Kinh tế số đã chính thức khai mạc. Phát biểu tại hội nghị, các chuyên gia nhấn mạnh việc ứng dụng Trí tuệ nhân tạo sẽ là đòn bẩy chiến lược giúp doanh nghiệp tối ưu hóa quy trình sản xuất và nâng cao năng lực cạnh tranh trong kỷ nguyên công nghệ bốn chấm không.

Diệu Linh  dieu_linh

Reference

việt nam đang kiêu hãnh bước vào một kỷ nguyên vươn mình rực rỡ với khát vọng mãnh liệt, trí tuệ đổi mới và tinh thần đoàn kết.
Inference

Thưa quý vị, sáng nay tại TP.HCM, Diễn đàn Kinh tế số đã chính thức khai mạc. Phát biểu tại hội nghị, các chuyên gia nhấn mạnh việc ứng dụng Trí tuệ nhân tạo sẽ là đòn bẩy chiến lược giúp doanh nghiệp tối ưu hóa quy trình sản xuất và nâng cao năng lực cạnh tranh trong kỷ nguyên công nghệ bốn chấm không.

Khánh Toàn  khanh_toan

Reference

việt nam đang kiêu hãnh bước vào kỷ nguyên vươn mình rực rỡ với khát vọng mãnh liệt, trí tuệ đổi mới, tinh thần đoàn kết.
Inference

Thưa quý vị, sáng nay tại TP.HCM, Diễn đàn Kinh tế số đã chính thức khai mạc. Phát biểu tại hội nghị, các chuyên gia nhấn mạnh việc ứng dụng Trí tuệ nhân tạo sẽ là đòn bẩy chiến lược giúp doanh nghiệp tối ưu hóa quy trình sản xuất và nâng cao năng lực cạnh tranh trong kỷ nguyên công nghệ bốn chấm không.

Trần Lâm  tran_lam

Reference

trí tuệ đổi mới và tinh thần đoàn kết, đất nước tự tin bứt phá, kiến tạo một tương lai thịnh vượng và vươn tầm quốc tế.
Inference

Trên tay mình lúc này là siêu phẩm mới nhất trong năm nay. Cảm giác cầm nắm cực kỳ đầm tay với khung viền titan sang trọng. Điểm ăn tiền nhất chính là cụm camera được nâng cấp mạnh mẽ, cho khả năng quay phim chuẩn điện ảnh ngay cả trong điều kiện thiếu sáng. Một thiết bị thực sự đáng đồng tiền bát gạo!

NSND Hà Phương  nsnd_ha_phuong

Reference

đây là những lời cuối cùng của típ rót người sáng lập ra ai phôn áp bồ chấn động cả thế giới.
Inference

Khi thành phố đã chìm sâu vào giấc ngủ, chỉ còn tiếng gió khẽ lay những tán lá bên cửa sổ. Hãy gạt bỏ mọi lo âu của ngày dài, thả mình vào sự tĩnh lặng tuyệt đối. Trong giấc mơ đêm nay, bạn sẽ thấy mình đi lạc vào một cánh rừng nguyên sơ, nơi chỉ có tiếng suối róc rách và hương hoa cỏ dịu nhẹ...

NSND Kim Cúc  nsnd_kim_cuc

Reference

đi họp người ta đả thông mãi rồi. lão dòng tai nghe, rồi lão rủm cả người. lão làm như vô tình kéo ghế xích lại đám đông.
Inference

Khi thành phố đã chìm sâu vào giấc ngủ, chỉ còn tiếng gió khẽ lay những tán lá bên cửa sổ. Hãy gạt bỏ mọi lo âu của ngày dài, thả mình vào sự tĩnh lặng tuyệt đối. Trong giấc mơ đêm nay, bạn sẽ thấy mình đi lạc vào một cánh rừng nguyên sơ, nơi chỉ có tiếng suối róc rách và hương hoa cỏ dịu nhẹ...

Supported Languages

Vietnamese (primary), Chinese, English, Japanese, Korean, French, German, Italian, Portuguese, Russian, Spanish.

Note: This model is optimized for Vietnamese. Performance on other languages may differ from the base Qwen3-TTS model.

Citation

@misc{gwen-tts,
    title={Gwen-TTS: Natural Vietnamese Voice Cloning},
    author={G-Group AI Lab},
    year={2026},
    url={https://github.com/ggroup-ai-lab/gwen-tts}
}

License

This model is released under the MIT License.

Acknowledgments

Downloads last month
1,026
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for g-group-ai-lab/gwen-tts-0.6B

Finetuned
(8)
this model