ボイス生成ガイド

Chatterbox を使ったブラウザ完結のボイスクローンの仕組みと、品質を最大化するためのコツ。プライバシーと法規制も含めて詳しく解説します。

AudioBuff Voice の概要

AudioBuff のボイス生成（ベータ）は、10〜20秒のリファレンス音声からその話者の声質をクローンし、入力したテキストを同じ声で読み上げる機能です。すべての処理はブラウザ内で完結し、リファレンス音声・生成音声ともに外部サーバーに送信されません。

採用しているモデルは Resemble AI の Chatterbox。コードと重みが MIT ライセンスでオープンに配布されており、500,000 時間以上のクリーン音声で学習された 0.5B パラメータ規模の TTS モデルです。同社の有料 API と同系統で、2025年の Podonos 盲検テストでは Chatterbox が ElevenLabs を 63.75% の確率で選好されたと報告されています（参考：[GenMediaLab Blind Test](https://www.genmedialab.com/news/chatterbox-open-source-tts-elevenlabs-alternative/)）。

AudioBuff は HuggingFace ONNX Community が公開している量子化版（合計 ~1.5GB）を読み込み、Web Worker + WebGPU/WASM で推論します。フル fp32 版は ~3.2GB ですが、Language Model 部分を Q4f16 に量子化することで体感品質を維持しつつ約半分以下のサイズに収めています。

モデル構造と推論パイプライン

Chatterbox は 4 つの ONNX セッションに分かれた合成モデルです。AudioBuff は Web Worker 内でこの 4 つを並列ロードし、ブラウザの WebGPU（または WebAssembly）で推論を実行します。

embed_tokens: ~60MB。入力テキスト + position id + exaggeration スカラーを embedding に変換する小さな層。Language Model に投入される前段階。
speech_encoder: ~591MB（fp32）。リファレンス音声を 192次元の話者 x-vector + conditioning 表現に変換。クローンの品質を決定する最重要セッション。
language_model: 0.5B Llama 派生（30 hidden layers, 16 KV heads）。Q4f16 量子化で ~350MB（フル fp32 では ~2GB）。テキスト + 話者条件から自己回帰的にオーディオトークンを生成する中核。
conditional_decoder: ~530MB（fp32）。Language Model が出力したオーディオトークンを 24 kHz の波形 PCM に再構築。Mel デコーダ + 学習済みボコーダで構成。

tip

初回はこれらを HuggingFace から Cache API にダウンロード（合計 ~1.5GB）。2回目以降はキャッシュ読み込み + ONNX セッションのコンパイル（30〜60秒）だけで起動できます。WebGPU 利用可能環境では shader compilation が走るため初回 generate は warmup 後に実施するのが定石で、AudioBuff はロード完了直後に自動で warmup を実行しています。

なぜブラウザで動かすのか

2026 年は「AI 推論コスト危機」が顕在化した年です。AnalyticsWeek の 2026 FinOps レポートによれば、企業の AI 予算の 85% が推論コストで占められ、主要 API の価格は 18ヶ月で 30〜50% 上昇しました。サーバー側で TTS を提供する SaaS は、文字単位課金で収益化せざるを得なくなっています。

ブラウザ完結はこの構造から完全に外れます。ユーザー自身のマシンの GPU/CPU を使うため、サービス提供者には推論コストが発生せず、ユーザーには課金が発生しません。さらにリファレンス音声がサーバーに送信されないため、プライバシー上のリスクも消えます。

実装基盤としての WebGPU は 2025 年に主要ブラウザで足並みが揃いました。Chrome（v113〜、2023）、Edge、Firefox 141（2025/7、Windows）、Safari 26（2025/9、macOS Tahoe / iOS 26）。2026 年現在で約 70% のブラウザカバレッジが達成されており、対応していない環境では WebAssembly にフォールバックする AudioBuff の構成で実用域に達します。

計算性能の観点では、Chatterbox の 0.5B 規模であれば M シリーズ Mac でも RTX 4090 でも十分実用速度です。電力効率では Apple Silicon が圧倒的に有利で、M3/M4 Max は 40〜80W で動作するのに対し RTX 4090 は ~450W を消費します。「ローカル推論」が environmental footprint の観点でも合理的になっています。

リファレンス音声の質を上げる実践テクニック

クローン品質はリファレンス音声の質にほぼ完全に依存します。「いいモデルにいい音を入れる」が鉄則で、ここに投資するのが最もリターンが大きい部分です。

長さは 10〜20 秒（10秒未満は不安定）: Chatterbox を含む TTS 系で広く知られている経験則として、3秒未満は話者特性が不足、3〜15秒で線形にスケール、それ以上では品質が頭打ちになり、長すぎると EOS トークンを発火し損ねて生成が無限ループする報告もあります。AudioBuff は 10〜20秒範囲を推奨。
マイク選び（USB コンデンサーで $200 以下）: 推奨機種：Rode NT-USB+（32-bit float、内蔵 DSP）、Audio-Technica AT2020USB-X、Elgato Wave:3（24-bit/96 kHz）、Maono PM500（34mm ゴールドカプセル）。いずれもカーディオイド指向性で、横や後ろからの反射音を自然に除去します。ノートPCの内蔵マイクは避ける。
音響処理（スタジオ不要）: 実用的なテクニック：「毛布要塞」（複数の引っ越し用毛布を重ねて壁/床に配置）、「クローゼットに向かって録音」（中で録ると箱鳴りするが、外側からクローゼット内の服に向かって録ると服が広帯域吸音材として機能）。家具・カーペット・本棚も自然な吸音材として有効。
自然な口調・テンポ: 早口・小声・ささやき・誇張した感情は避けます。普段の話し方に近づけるほど安定。意図的に「ナレーター調」を作ろうとするより、自分の地声をそのまま 20 秒録る方が結果がよくなります。
禁忌：BGM・効果音・複数話者・残響: 音楽が混ざるとモデルは「その音楽も声の特徴」として学習します。複数話者（テレビ音声がうっすら入っている等）も同様。レコーディング前に環境を確認してください。
読み上げ内容を用途に合わせる: 日常会話のクローンを作りたいなら会話調のサンプル、ナレーションなら明瞭な読み、オーディオブックなら情感のある読み。AudioBuff には 4 種類のサンプルテキストがプリセットされており、用途に応じて選択して読み上げられます。
ピーク・音量は AudioBuff が自動処理: ピーク正規化（-3 dBFS 目標）と先頭・末尾の無音トリムは AudioBuff 側でクライアント前処理として自動実行されます。録音時はクリッピングだけ避ければ OK で、レベル調整は不要です。

感情強度（Exaggeration）の使い方

スライダーは 0.0〜1.5 の範囲で、リファレンスの感情をどれだけ誇張するかを制御します。Chatterbox 独自の Classifier-Free Guidance に近い操作系で、ElevenLabs のスタイルプロンプトとは設計思想が異なります。

Resemble の推奨値はモデルのデフォルト 0.5。多くの用途でこの値が安定します。

0.0〜0.3: 抑揚を抑えた落ち着いた読み。技術解説・ニュース読み上げ・ドキュメント朗読向け。
0.4〜0.6: 自然なバランス。デフォルト推奨域。会話・ナレーション全般に。
0.7〜1.0: 感情豊か。オーディオブック・演劇的な読み・ドラマ向け。
1.0〜1.5: 誇張領域。意図的に大げさにしたい場合のみ。0.8 を超えると uncanny valley に入りやすく不自然になる。

tip

感情強度を上げてもリファレンスに無い感情は生まれません。リファレンス音声に元から込められている感情が「拡張される」だけです。穏やかな音声を入れて exaggeration=1.5 にしても怒声にはならず、穏やかさが少し誇張される程度です。

ユースケース

ボイスクローンは録音現場の制約から解放するツールとして強力です。具体的なワークフロー例：

ポッドキャストのイントロ・アウトロ統一: 一度自分の声をクローン → 各エピソードのイントロ・アウトロをテキストから生成。スタジオに入り直さずに、毎回同じトーン・同じレベルで揃います。録音環境による声色の揺れも消えます。
動画ナレーションの差し替え: 撮影後の編集段階で「あ、ここのセリフ間違えた」が起きたとき、再録音せずにテキスト編集で対応可能。AudioBuff なら生成した音声を「音声加工エディタで仕上げる」ボタンで EQ や LUFS 正規化に直接渡せるので、動画用音声の標準化までワンタブで完結。
アクセシビリティ: スクリーンリーダーや読み上げソフトの声を「自分の声」にカスタマイズ。ALS など発話障害の方が、健常時に録音した自分の声で発話を継続するユースケースも報告されています。語学学習のシャドーイングを自分の声で行うのも有効。
e-learning コースのナレーション: 6 時間のコースを録音 → 後日「この一文だけ修正したい」をテキスト編集で完結。スタジオ予約も収録もし直さなくて済みます。
インディーゲームのキャラクター VO: リファレンス 1 つ + exaggeration スライダーの調整で、複数キャラクターの差別化が可能。プロ声優を雇う予算がない開発者にとって、プロトタイプから本番まで使える選択肢に。

透かしと責任ある利用

生成音声には Resemble Perth と呼ばれる聴こえない透かしが標準で埋め込まれ、AudioBuff 側でオフにする方法はありません。MP3 圧縮やリサンプリングを経ても検出可能なニューラル透かしなので、後から「これは AI 合成音声」であると技術的に確認できます。

合成音声の開示は世界的に法制化が進んでいます（EU AI Act Article 50、米国 ELVIS Act、各種プラットフォームポリシー）。配布する立場で押さえておくのは2点だけです — ①クローン対象の声を使う許諾を得ていること、②AI 合成音声であることを開示すること（YouTube の「Altered or synthetic content」フラグなど、配布先の標準機能で大体満たせます）。

tip

透かしは違法利用を「検出」するための仕組みで、不正利用自体を技術的に防ぐものではありません。最終的な責任判断は利用者の側にあります。

プライバシーモデル

AudioBuff Voice の最大の特徴は完全ブラウザ完結です。商用 SaaS（ElevenLabs, Resemble の有料 API 等）と異なり、リファレンス音声・生成音声ともに AudioBuff のサーバーや Resemble のサーバーには一切送信されません。

モデルファイルだけは初回 Hugging Face CDN からダウンロードしますが、これも一度キャッシュされれば以降オフラインで動作します。一般的なオフライン PWA 同様、機内モードでも生成可能です。

ブラウザに保存されるデータ: Cache API: モデルファイル（~1.5GB）／ localStorage: 倫理同意フラグ（"1" または無し）。
送信されないデータ: リファレンス音声、入力テキスト、生成音声、感情強度の値、その他生成パラメータ。
ユーザーが削除可能: アプリ内「キャッシュ削除」ボタンで Cache API を 1 クリックで全消去。localStorage はブラウザ設定から消せます。

正直な制約と苦手分野

マーケティング資料では触れられませんが、Chatterbox にも明確な苦手分野があります。期待値を正しく持つために：

歌唱・絶叫・年齢極端の声は不得手: Chatterbox は「expressive speech（感情のある話し言葉）」を学習しており、歌唱・シャウト・赤ちゃん声・80代の老人声などはサポート対象外。コミュニティでは [laugh] [cough] 等のパラ言語タグも報告されていますが、出る確率にばらつきがあります。
高 exaggeration での uncanny valley: 0.8 を超えると感情がカートゥーン的に過剰になり、人間の声というより「AI 感」が増します。スイートスポットは 0.4〜0.6。
5年以上前のハードでは推論が遅い: 統合 GPU しかない 5年前のラップトップなどでは、WebGPU が使えず WASM フォールバックになり、20秒の音声生成に分単位の時間がかかる場合があります。M シリーズ Mac、Snapdragon X、RTX/Radeon クラスの GPU 推奨。
英語専用（multilingual はポート待ち）: AudioBuff Voice は現在 Chatterbox 英語版を使用。Resemble は 23 言語対応の Chatterbox Multilingual を 2025年12月にリリース済みですが、Transformers.js への移植が完了次第 AudioBuff にも導入予定です。

ボイス生成を試す

ブラウザだけで動作。リファレンス音声をアップロードしてテキストから音声を生成します。

字幕フォーマットと編集ワークフロー