Tsukuyomichan OmniVoice — Model Variants

このリポジトリには、つくよみちゃん向けにファインチューニングされた OmniVoice の LLM バックボーン を 2 種類収録しています。

音声トークナイザー（デコーダー）は含みません。 推論時に自動でベースモデルから読み込まれます。

バリアント	フォルダ	サイズ	対象
FP16（元モデル）	`fp16/`	2.38 GB	高品質推論・学習継続
8-bit GPTQ（圧縮版）	`gptq8/`	0.73 GB	低VRAM環境（4 GB GPU など）

どちらを使えばいいか

通常の環境（8 GB VRAM 以上） → fp16/ を使ってください。速くて音質も最高です。
4 GB VRAM など低スペック環境 → gptq8/ を使ってください。音質はほぼ同等のまま VRAM が大幅に削減できます。

推論結果の比較

同じモデル・同じプロンプトで測定した結果です。

構成	ピーク VRAM	RTF（低いほど速い）
FP16（元モデル）	~3.3 GB	0.112
GPTQ 8-bit + エンコーダー除去	~1.35 GB	0.338

RTF とは？
Real-Time Factor の略で、「音声 1 秒を生成するのにかかる時間」です。
RTF = 0.1 なら音声 10 秒分を 1 秒で生成できます。どちらもリアルタイムより大幅に速いため、実用上の問題はありません。

なぜ圧縮版は遅いのか？
GPTQ は重みを 8-bit で保持しますが、計算時に都度 FP16 に戻すため、ネイティブ FP16 より処理が重くなります。

セットアップ

1. omnivoice-kit をインストール

git clone https://github.com/kizuna-intelligence/omnivoice-kit
cd omnivoice-kit
git submodule update --init --recursive
python -m venv .venv
source .venv/bin/activate
pip install -e third_party/OmniVoice
pip install -e .

圧縮版（GPTQ8）を使う場合は Python 3.12 が必要です：

pip install -e ".[compress]"

2. 入力ファイルを用意

examples/japanese_prompts.jsonl の形式で読み上げテキストを用意します：

{"id": "001", "text": "こんにちは、今日はいい天気ですね。"}
{"id": "002", "text": "やった！ようやく完成したよ！"}

推論コマンド

FP16（通常品質）

CUDA_VISIBLE_DEVICES=0 \
omnivoice-kit generate \
  --base-model kizuna-intelligence/tsukuyomichan-omnivoice-full-finetune \
  --checkpoint-dir kizuna-intelligence/tsukuyomichan-omnivoice-compressed/fp16 \
  --input-jsonl examples/japanese_prompts.jsonl \
  --output-dir artifacts/generate_fp16 \
  --language ja \
  --num-step 16

GPTQ 8-bit（低 VRAM 向け）

CUDA_VISIBLE_DEVICES=0 \
omnivoice-kit generate \
  --base-model kizuna-intelligence/tsukuyomichan-omnivoice-full-finetune \
  --checkpoint-dir kizuna-intelligence/tsukuyomichan-omnivoice-compressed/gptq8 \
  --strip-audio-encoder \
  --input-jsonl examples/japanese_prompts.jsonl \
  --output-dir artifacts/generate_gptq8 \
  --language ja \
  --num-step 16

--strip-audio-encoder を付けると、no-ref 推論では不要な音声エンコーダー（~715 MB）が除去されます。

自分でモデルを圧縮したい場合

別モデルや独自ファインチューニング済みモデルを圧縮したい場合：

# Python 3.12 + pip install "omnivoice-kit[compress]" が必要
CUDA_VISIBLE_DEVICES=0 \
omnivoice-kit compress-lm \
  --model kizuna-intelligence/tsukuyomichan-omnivoice-full-finetune \
  --output-dir artifacts/compressed_lm \
  --total-budget-gb 3.0

圧縮には約 8 GB VRAM が必要です（キャリブレーション処理のため）。

クレジット

本モデルの学習には、フリー素材キャラクター「つくよみちゃん」（© Rei Yumesaki）が無料公開している音声データを使用しています。

本モデルやデモを公開する際は、以下のクレジットを省略せず掲載してください。

本ソフトウェアの音声合成には、フリー素材キャラクター「つくよみちゃん」（© Rei Yumesaki）が無料公開している音声データを使用しています。

■つくよみちゃんコーパス（CV.夢前黎）
https://tyc.rei-yumesaki.net/material/corpus/

出力音声の利用制限

本モデルから出力した音声は、次の目的では使用できません。

人を批判・攻撃すること
特定の政治的立場・宗教・思想への賛同または反対を呼びかけること
刺激の強い表現をゾーニングなしで公開すること
他者に対して二次利用（素材としての利用）を許可する形で公開すること

詳細は tsukuyomichan-omnivoice-full-finetune を参照してください。

ライセンス

Apache-2.0（OmniVoice upstream に準じます）

Downloads last month: 320

Safetensors

Model size

0.3B params

Tensor type

I32

F16

Model tree for kizuna-intelligence/tsukuyomichan-omnivoice-compressed

Base model

Qwen/Qwen3-0.6B-Base

Finetuned

Qwen/Qwen3-0.6B

Finetuned

k2-fsa/OmniVoice

Finetuned

kizuna-intelligence/tsukuyomichan-omnivoice-full-finetune

Quantized

(1)

this model