Tsukuyomichan OmniVoice — Model Variants

このリポジトリには、つくよみちゃん向けにファインチューニングされた OmniVoice の LLM バックボーン を 2 種類収録しています。

音声トークナイザー(デコーダー)は含みません。 推論時に自動でベースモデルから読み込まれます。

バリアント フォルダ サイズ 対象
FP16(元モデル) fp16/ 2.38 GB 高品質推論・学習継続
8-bit GPTQ(圧縮版) gptq8/ 0.73 GB 低VRAM環境(4 GB GPU など)

どちらを使えばいいか

  • 通常の環境(8 GB VRAM 以上)fp16/ を使ってください。速くて音質も最高です。
  • 4 GB VRAM など低スペック環境gptq8/ を使ってください。音質はほぼ同等のまま VRAM が大幅に削減できます。

推論結果の比較

同じモデル・同じプロンプトで測定した結果です。

構成 ピーク VRAM RTF(低いほど速い)
FP16(元モデル) ~3.3 GB 0.112
GPTQ 8-bit + エンコーダー除去 ~1.35 GB 0.338

RTF とは?
Real-Time Factor の略で、「音声 1 秒を生成するのにかかる時間」です。
RTF = 0.1 なら音声 10 秒分を 1 秒で生成できます。どちらもリアルタイムより大幅に速いため、実用上の問題はありません。

なぜ圧縮版は遅いのか?
GPTQ は重みを 8-bit で保持しますが、計算時に都度 FP16 に戻すため、ネイティブ FP16 より処理が重くなります。


セットアップ

1. omnivoice-kit をインストール

git clone https://github.com/kizuna-intelligence/omnivoice-kit
cd omnivoice-kit
git submodule update --init --recursive
python -m venv .venv
source .venv/bin/activate
pip install -e third_party/OmniVoice
pip install -e .

圧縮版(GPTQ8)を使う場合は Python 3.12 が必要です:

pip install -e ".[compress]"

2. 入力ファイルを用意

examples/japanese_prompts.jsonl の形式で読み上げテキストを用意します:

{"id": "001", "text": "こんにちは、今日はいい天気ですね。"}
{"id": "002", "text": "やった!ようやく完成したよ!"}

推論コマンド

FP16(通常品質)

CUDA_VISIBLE_DEVICES=0 \
omnivoice-kit generate \
  --base-model kizuna-intelligence/tsukuyomichan-omnivoice-full-finetune \
  --checkpoint-dir kizuna-intelligence/tsukuyomichan-omnivoice-compressed/fp16 \
  --input-jsonl examples/japanese_prompts.jsonl \
  --output-dir artifacts/generate_fp16 \
  --language ja \
  --num-step 16

GPTQ 8-bit(低 VRAM 向け)

CUDA_VISIBLE_DEVICES=0 \
omnivoice-kit generate \
  --base-model kizuna-intelligence/tsukuyomichan-omnivoice-full-finetune \
  --checkpoint-dir kizuna-intelligence/tsukuyomichan-omnivoice-compressed/gptq8 \
  --strip-audio-encoder \
  --input-jsonl examples/japanese_prompts.jsonl \
  --output-dir artifacts/generate_gptq8 \
  --language ja \
  --num-step 16

--strip-audio-encoder を付けると、no-ref 推論では不要な音声エンコーダー(~715 MB)が除去されます。


自分でモデルを圧縮したい場合

別モデルや独自ファインチューニング済みモデルを圧縮したい場合:

# Python 3.12 + pip install "omnivoice-kit[compress]" が必要
CUDA_VISIBLE_DEVICES=0 \
omnivoice-kit compress-lm \
  --model kizuna-intelligence/tsukuyomichan-omnivoice-full-finetune \
  --output-dir artifacts/compressed_lm \
  --total-budget-gb 3.0

圧縮には約 8 GB VRAM が必要です(キャリブレーション処理のため)。


クレジット

本モデルの学習には、フリー素材キャラクター「つくよみちゃん」(© Rei Yumesaki)が無料公開している音声データを使用しています。

本モデルやデモを公開する際は、以下のクレジットを省略せず掲載してください。

本ソフトウェアの音声合成には、フリー素材キャラクター「つくよみちゃん」(© Rei Yumesaki)が無料公開している音声データを使用しています。

■つくよみちゃんコーパス(CV.夢前黎)
https://tyc.rei-yumesaki.net/material/corpus/

出力音声の利用制限

本モデルから出力した音声は、次の目的では使用できません。

  • 人を批判・攻撃すること
  • 特定の政治的立場・宗教・思想への賛同または反対を呼びかけること
  • 刺激の強い表現をゾーニングなしで公開すること
  • 他者に対して二次利用(素材としての利用)を許可する形で公開すること

詳細は tsukuyomichan-omnivoice-full-finetune を参照してください。


ライセンス

Apache-2.0(OmniVoice upstream に準じます)

Downloads last month
320
Safetensors
Model size
0.3B params
Tensor type
I32
·
F16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for kizuna-intelligence/tsukuyomichan-omnivoice-compressed