Tsukuyomichan OmniVoice — Model Variants
このリポジトリには、つくよみちゃん向けにファインチューニングされた OmniVoice の LLM バックボーン を 2 種類収録しています。
音声トークナイザー(デコーダー)は含みません。 推論時に自動でベースモデルから読み込まれます。
| バリアント | フォルダ | サイズ | 対象 |
|---|---|---|---|
| FP16(元モデル) | fp16/ |
2.38 GB | 高品質推論・学習継続 |
| 8-bit GPTQ(圧縮版) | gptq8/ |
0.73 GB | 低VRAM環境(4 GB GPU など) |
どちらを使えばいいか
- 通常の環境(8 GB VRAM 以上) →
fp16/を使ってください。速くて音質も最高です。 - 4 GB VRAM など低スペック環境 →
gptq8/を使ってください。音質はほぼ同等のまま VRAM が大幅に削減できます。
推論結果の比較
同じモデル・同じプロンプトで測定した結果です。
| 構成 | ピーク VRAM | RTF(低いほど速い) |
|---|---|---|
| FP16(元モデル) | ~3.3 GB | 0.112 |
| GPTQ 8-bit + エンコーダー除去 | ~1.35 GB | 0.338 |
RTF とは?
Real-Time Factor の略で、「音声 1 秒を生成するのにかかる時間」です。
RTF = 0.1 なら音声 10 秒分を 1 秒で生成できます。どちらもリアルタイムより大幅に速いため、実用上の問題はありません。
なぜ圧縮版は遅いのか?
GPTQ は重みを 8-bit で保持しますが、計算時に都度 FP16 に戻すため、ネイティブ FP16 より処理が重くなります。
セットアップ
1. omnivoice-kit をインストール
git clone https://github.com/kizuna-intelligence/omnivoice-kit
cd omnivoice-kit
git submodule update --init --recursive
python -m venv .venv
source .venv/bin/activate
pip install -e third_party/OmniVoice
pip install -e .
圧縮版(GPTQ8)を使う場合は Python 3.12 が必要です:
pip install -e ".[compress]"
2. 入力ファイルを用意
examples/japanese_prompts.jsonl の形式で読み上げテキストを用意します:
{"id": "001", "text": "こんにちは、今日はいい天気ですね。"}
{"id": "002", "text": "やった!ようやく完成したよ!"}
推論コマンド
FP16(通常品質)
CUDA_VISIBLE_DEVICES=0 \
omnivoice-kit generate \
--base-model kizuna-intelligence/tsukuyomichan-omnivoice-full-finetune \
--checkpoint-dir kizuna-intelligence/tsukuyomichan-omnivoice-compressed/fp16 \
--input-jsonl examples/japanese_prompts.jsonl \
--output-dir artifacts/generate_fp16 \
--language ja \
--num-step 16
GPTQ 8-bit(低 VRAM 向け)
CUDA_VISIBLE_DEVICES=0 \
omnivoice-kit generate \
--base-model kizuna-intelligence/tsukuyomichan-omnivoice-full-finetune \
--checkpoint-dir kizuna-intelligence/tsukuyomichan-omnivoice-compressed/gptq8 \
--strip-audio-encoder \
--input-jsonl examples/japanese_prompts.jsonl \
--output-dir artifacts/generate_gptq8 \
--language ja \
--num-step 16
--strip-audio-encoder を付けると、no-ref 推論では不要な音声エンコーダー(~715 MB)が除去されます。
自分でモデルを圧縮したい場合
別モデルや独自ファインチューニング済みモデルを圧縮したい場合:
# Python 3.12 + pip install "omnivoice-kit[compress]" が必要
CUDA_VISIBLE_DEVICES=0 \
omnivoice-kit compress-lm \
--model kizuna-intelligence/tsukuyomichan-omnivoice-full-finetune \
--output-dir artifacts/compressed_lm \
--total-budget-gb 3.0
圧縮には約 8 GB VRAM が必要です(キャリブレーション処理のため)。
クレジット
本モデルの学習には、フリー素材キャラクター「つくよみちゃん」(© Rei Yumesaki)が無料公開している音声データを使用しています。
本モデルやデモを公開する際は、以下のクレジットを省略せず掲載してください。
本ソフトウェアの音声合成には、フリー素材キャラクター「つくよみちゃん」(© Rei Yumesaki)が無料公開している音声データを使用しています。
■つくよみちゃんコーパス(CV.夢前黎)
https://tyc.rei-yumesaki.net/material/corpus/
出力音声の利用制限
本モデルから出力した音声は、次の目的では使用できません。
- 人を批判・攻撃すること
- 特定の政治的立場・宗教・思想への賛同または反対を呼びかけること
- 刺激の強い表現をゾーニングなしで公開すること
- 他者に対して二次利用(素材としての利用)を許可する形で公開すること
詳細は tsukuyomichan-omnivoice-full-finetune を参照してください。
ライセンス
Apache-2.0(OmniVoice upstream に準じます)
- Downloads last month
- 320