Gwen-TTS 0.6B - Natural Vietnamese Voice Cloning
Gwen-TTS is a Vietnamese text-to-speech model with natural voice cloning capability.
Key highlights:
- Clone any voice with just a few seconds of reference audio
- Natural and expressive Vietnamese voice cloning
- Finetuned from Qwen3-TTS-0.6B on ~1,000 hours of Vietnamese audio data crawled from TikTok
Demo: https://g-voice.g-ailab.com/tts (integrated with TTS text normalization and serving)
GitHub: https://github.com/ggroup-ai-lab/gwen-tts
How to Use
Installation
pip install -U qwen-tts
# Optional: for optimized performance
pip install -U flash-attn --no-build-isolation
Voice Cloning
Note: For best quality, proactively apply TTS text normalization (numbers, symbols, abbreviations, etc.) and split input into chunks before passing to the model.
import torch
import soundfile as sf
from qwen_tts import Qwen3TTSModel
# Load model
model = Qwen3TTSModel.from_pretrained(
"g-group-ai-lab/gwen-tts-0.6B",
device_map="cuda:0",
dtype=torch.bfloat16,
attn_implementation="flash_attention_2",
)
# Recommended generation config for Gwen-TTS
generation_config = dict(
temperature=0.3,
top_k=20,
top_p=0.9,
max_new_tokens=4096,
repetition_penalty=2.0,
subtalker_do_sample=True,
subtalker_temperature=0.1,
subtalker_top_k=20,
subtalker_top_p=1.0,
)
# Generate speech with voice cloning
wavs, sr = model.generate_voice_clone(
text="<your text to synthesize>",
language="Vietnamese",
ref_audio="<path/to/reference.wav>",
ref_text="<transcript of the reference audio>",
**generation_config,
)
sf.write("output.wav", wavs[0], sr)
Voice Samples
Each speaker shows the reference audio (voice input) and the generated inference audio (output).
Yến Nhi |
|
|
Reference sao lại không liên quan. các anh lấy vợ rồi các anh cứ đội chị lên đầu làm nóc nhà ấy, suốt ngày hỏi ý kiến các chị thì làm sao mà ra vấn đề được cho em đúng không. |
Inference Dạ chào anh, em gọi trực tiếp từ bộ phận phê duyệt hồ sơ thẻ tín dụng. Hiện tại hồ sơ của mình đang nằm trong danh sách ưu tiên nhận hạn mức lên đến hai trăm triệu đồng, kèm ưu đãi miễn phí thường niên trọn đời. Không biết mình có tiện trao đổi hai phút để em hướng dẫn nhận thẻ ngay không ạ? |
Mỹ Vân |
|
|
Reference bạn thân mến, chúng ta sẽ đến với một bài tập tiếp theo để giúp cho các bạn có hơi thở dài, sâu và đầy đặn hơn. |
Inference Dạ chào anh, em gọi trực tiếp từ bộ phận phê duyệt hồ sơ thẻ tín dụng. Hiện tại hồ sơ của mình đang nằm trong danh sách ưu tiên nhận hạn mức lên đến hai trăm triệu đồng, kèm ưu đãi miễn phí thường niên trọn đời. Không biết mình có tiện trao đổi hai phút để em hướng dẫn nhận thẻ ngay không ạ? |
Ái Vy |
|
|
Reference việt nam đang kiêu hãnh bước vào kỷ nguyên vươn mình rực rỡ với khát vọng mãnh liệt, trí tuệ đổi mới và tinh thần đoàn kết đất nước, tự tin bứt phá, kiến tạo một tương lai thịnh vượng và vươn tầm quốc tế. |
Inference Dạ chào anh, em gọi trực tiếp từ bộ phận phê duyệt hồ sơ thẻ tín dụng. Hiện tại hồ sơ của mình đang nằm trong danh sách ưu tiên nhận hạn mức lên đến hai trăm triệu đồng, kèm ưu đãi miễn phí thường niên trọn đời. Không biết mình có tiện trao đổi hai phút để em hướng dẫn nhận thẻ ngay không ạ? |
An Nhi |
|
|
Reference việt nam đang kiêu hãnh bước vào kỷ nguyên vươn mình rực rỡ với khát vọng mãnh liệt, trí tuệ đổi mới và tinh thần đoàn kết đất nước, tự tin bứt phá, kiến tạo một tương lai thịnh vượng và vươn tầm quốc tế. |
Inference Thưa quý vị, sáng nay tại TP.HCM, Diễn đàn Kinh tế số đã chính thức khai mạc. Phát biểu tại hội nghị, các chuyên gia nhấn mạnh việc ứng dụng Trí tuệ nhân tạo sẽ là đòn bẩy chiến lược giúp doanh nghiệp tối ưu hóa quy trình sản xuất và nâng cao năng lực cạnh tranh trong kỷ nguyên công nghệ bốn chấm không. |
Diệu Linh |
|
|
Reference việt nam đang kiêu hãnh bước vào một kỷ nguyên vươn mình rực rỡ với khát vọng mãnh liệt, trí tuệ đổi mới và tinh thần đoàn kết. |
Inference Thưa quý vị, sáng nay tại TP.HCM, Diễn đàn Kinh tế số đã chính thức khai mạc. Phát biểu tại hội nghị, các chuyên gia nhấn mạnh việc ứng dụng Trí tuệ nhân tạo sẽ là đòn bẩy chiến lược giúp doanh nghiệp tối ưu hóa quy trình sản xuất và nâng cao năng lực cạnh tranh trong kỷ nguyên công nghệ bốn chấm không. |
Khánh Toàn |
|
|
Reference việt nam đang kiêu hãnh bước vào kỷ nguyên vươn mình rực rỡ với khát vọng mãnh liệt, trí tuệ đổi mới, tinh thần đoàn kết. |
Inference Thưa quý vị, sáng nay tại TP.HCM, Diễn đàn Kinh tế số đã chính thức khai mạc. Phát biểu tại hội nghị, các chuyên gia nhấn mạnh việc ứng dụng Trí tuệ nhân tạo sẽ là đòn bẩy chiến lược giúp doanh nghiệp tối ưu hóa quy trình sản xuất và nâng cao năng lực cạnh tranh trong kỷ nguyên công nghệ bốn chấm không. |
Trần Lâm |
|
|
Reference trí tuệ đổi mới và tinh thần đoàn kết, đất nước tự tin bứt phá, kiến tạo một tương lai thịnh vượng và vươn tầm quốc tế. |
Inference Trên tay mình lúc này là siêu phẩm mới nhất trong năm nay. Cảm giác cầm nắm cực kỳ đầm tay với khung viền titan sang trọng. Điểm ăn tiền nhất chính là cụm camera được nâng cấp mạnh mẽ, cho khả năng quay phim chuẩn điện ảnh ngay cả trong điều kiện thiếu sáng. Một thiết bị thực sự đáng đồng tiền bát gạo! |
NSND Hà Phương |
|
|
Reference đây là những lời cuối cùng của típ rót người sáng lập ra ai phôn áp bồ chấn động cả thế giới. |
Inference Khi thành phố đã chìm sâu vào giấc ngủ, chỉ còn tiếng gió khẽ lay những tán lá bên cửa sổ. Hãy gạt bỏ mọi lo âu của ngày dài, thả mình vào sự tĩnh lặng tuyệt đối. Trong giấc mơ đêm nay, bạn sẽ thấy mình đi lạc vào một cánh rừng nguyên sơ, nơi chỉ có tiếng suối róc rách và hương hoa cỏ dịu nhẹ... |
NSND Kim Cúc |
|
|
Reference đi họp người ta đả thông mãi rồi. lão dòng tai nghe, rồi lão rủm cả người. lão làm như vô tình kéo ghế xích lại đám đông. |
Inference Khi thành phố đã chìm sâu vào giấc ngủ, chỉ còn tiếng gió khẽ lay những tán lá bên cửa sổ. Hãy gạt bỏ mọi lo âu của ngày dài, thả mình vào sự tĩnh lặng tuyệt đối. Trong giấc mơ đêm nay, bạn sẽ thấy mình đi lạc vào một cánh rừng nguyên sơ, nơi chỉ có tiếng suối róc rách và hương hoa cỏ dịu nhẹ... |
Supported Languages
Vietnamese (primary), Chinese, English, Japanese, Korean, French, German, Italian, Portuguese, Russian, Spanish.
Note: This model is optimized for Vietnamese. Performance on other languages may differ from the base Qwen3-TTS model.
Citation
@misc{gwen-tts,
title={Gwen-TTS: Natural Vietnamese Voice Cloning},
author={G-Group AI Lab},
year={2026},
url={https://github.com/ggroup-ai-lab/gwen-tts}
}
License
This model is released under the MIT License.
Acknowledgments
- Qwen Team for the Qwen3-TTS base model
- G-Group AI Lab for training and releasing this model
- Downloads last month
- 1,026
Model tree for g-group-ai-lab/gwen-tts-0.6B
Base model
Qwen/Qwen3-TTS-12Hz-0.6B-Base