発信者:Nexdata 日時: 2025-09-11
Nexdataは2011年の創業以来、AIプロジェクトのためのデータ基盤構築を支えてまいりました。画像・動画・音声・テキストに至るまで、1万件を超えるカスタムデータプロジェクトを遂行。その中で、特に「感情を伝える音声」の収録・管理には、業界でも類を見ないノウハウを蓄積してまいりました。
今回は、日本市場向けペットロボット(仮想対話型アシスタント)開発のため、高品質かつ多様性に富んだ日本語音声データセットを構築したプロジェクトについて、その課題と解決策を詳しく解説いたします。音声データの品質管理や、感情・キャラクターの再現性でお悩みの方に、必見の内容となっております。
プロジェクト概要
本プロジェクトは、ユーザーの心に寄り添う「感情豊かな対話体験」を実現するための音声データを収録・アノテーションするものでした。3月の短期間で、以下の構成にて5万文超の高精度音声コーパスを構築いたしました。
話者構成:
男性3名(多感情・クール青年キャラ)
女性1名(お姉さんキャラ)
平均音色データ提供者:80名以上の話者様
データ規模:
男性多感情音声:10,000文(喜び・怒り・哀しみ・平常 平均に)
男性青年音:5,000文
男性クールキャラ:7,000文
お姉さん:9,000文
平均音色データ:10,000文以上
データ品質要件
音声データは、単に「録れた」では価値がございません。TTSエンジンが高精度に学習できるよう、以下の技術仕様を厳格に管理いたしました。
音声フォーマット:48kHz / 24bit / 単声道
静音区間:文頭・文末ともに100msを厳密に確保(環境ノイズ含む)
エネルギー統一:全ファイルを-6dB前後に均一化
言語:標準日本語。英語表記は日本語読みで統一
音声収録の課題と解決策
本プロジェクトでは、音声データ特有の三つの核心的課題が顕在化いたしました。これらを突破した手法こそ、他社との差別化ポイントでございます。
課題1:感情・キャラクターの「再現性」と「一貫性」の確保
「感情豊かに」という指示だけでは、データとしての価値は生まれません。同一話者様が数週間にわたり、同一レベルの「哀しみ」や「怒り」を演じ続けるのは、人間の生理的限界に挑む作業でございます。
▶ Nexdataの解決策:感情を「音声パラメータ」に分解するディレクション
「哀しみ」=「ピッチを10%下げ、語尾を0.3秒伸ばし、母音エネルギーを半減」
「怒り(高揚型)」=「ピッチを15%上げ、子音を鋭く、語間を詰める」
「お姉さん」=「息混じりの母音、語尾のわずかな上昇調、句頭の柔らかい立ち上がり」
こうした科学的指標に基づき、ディレクターが各話者様に細かく指導。感情やキャラクターのブレを徹底的に排除いたしました。
課題2:80名以上の話者による「平均音色」の品質統一
平均音色データは、多様性と均一性という相反する要件を同時に満たす必要があります。話者様ごとの音質・録音環境・発声癖の差異を、どう吸収するかが鍵でございます。
▶ Nexdataの解決策:スケジュール厳守・即時フィードバック体制
朝8時:全話者様に当日の収録文と感情指示を一斉配信
昼12時:前日分をAI+人間でダブルチェック。不合格データを即時特定
夕方5時:個別に再収録指示を発出。翌日に再提出を義務化
この「毎日ループ」により、バラつきを許さず、5万文超のデータを同一品質水準で収録いたしました。
課題3:防音スタジオ環境下での「自然な演技」の引き出し
高品質な防音スタジオはノイズを排除しますが、同時に「不自然な緊張」を生みがちです。感情豊かな演技を求める本案件では、逆に品質を損なうリスクがございました。
▶ Nexdataの解決策:自社スタジオ+演出型ディレクション
Nexdataは、外部スタジオにありがちな環境差を完全に排除するため、複数の自社管理防音スタジオを駆使し、全データを同一基準の音響環境下で収録いたしました。
さらに、ディレクターがマイク越しにリアルタイムで演技指導を行い、「もっとため息を混ぜて」「その一文は恋人に話しかけるように」といった具体的かつ演出的な指示で、話者様から自然で感情豊かな発声を引き出しました。
録音直後には、その場で音声波形を即座に確認し、エネルギー値(-6dB)や前後100msの無音区間といった技術仕様をその都度微調整することで、収録段階で品質を完結させる徹底した工程管理を実現いたしました。
品質担保体制
感情音声データは安全性というより、「ユーザー体験の質」に直結する重要な要素でございます。Nexdataでは、収録者レベル・工程レベル・全体統制レベルの三層体制により、品質を万全に管理させていただいております。
収録者レベル
話者様の体調や声のコンディションにつきましては、毎日丁寧に確認をさせていただいております。指定された感情やキャラクターから逸脱した発声がございましたら、速やかに再収録を実施いたします。また、録音機材・マイク距離・ゲイン設定につきましても、随時チェックを怠らず、安定した収録環境を整えております。
工程レベル
3日ごとに、各感情・各キャラクターごとのデータ量と品質分布を分析し、不足が見られるスタイル(例:「総裁風の哀しみ」)につきましては、優先的に追加収録を手配いたします。エネルギー値のバラつきが±1dBを超える音声ファイルにつきましては、すべて再調整を実施し、均一性を確保いたします。
全体統制レベル
専用プロジェクト管理プラットフォームを活用し、全話者様の進捗・品質・残量を可視化し、適切な管理を心がけております。「収録 → 一次校正(音声)→ 二次校正(テキスト)→ 最終検品」の四段階チェック体制を整え、段階ごとに品質を高めております。最終納品前には、第三者によるランダム抽出・非公開評価を実施し、客観的な品質確認を徹底してまいります。
高品質な音声データ収録でお悩みの企業様は、ぜひNexdataまでお気軽にお問い合わせください。ゲームやVTuber、AIカスタマーサポートなど、日本語で求められる「キャラクター性を保ったままの細かい感情表現データ構築ノウハウを活用し、貴社のAI開発を強力にサポートいたします。
お問い合わせはこちら:https://jp.nexdata.ai