jp

Please fill in your name

Mobile phone format error

Please enter the telephone

Please enter your company name

Please enter your company email

Please enter the data requirement

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

The data requirement cannot be less than 5 words and cannot be pure numbers

m.nexdata.datatang.com

ボイスクローンとは?関連する様々なAI音声データセットを解説

発信者:Nexdata 日時: 2024-10-10

はじめに

音声合成技術に火が付き始めているのは、AIGC製品の応用に助けられ、ボイスクローンもますます注目されています。現在、AI音声クローニング技術は、音色、話し方の癖、感情など、人の声のシミュレーションを実現することができます。

ボイスクローンとは

AIボイスクローニングは、特定の人間の声を模倣した合成音声を生成するプロセスであり、その本質は、AIGC手段の助けを借りて、異なるスタイルの声を自動的に生成することです。ボイスクローニングは、元の音声にアクセント、スタイル(間、トーンなど)、感情、多言語切り替えなどを設定し、最終的にアプリケーションのシナリオに応じて別のスタイルの音声を出力することができます。

ボイスクローニング技術は、ゲームのキャラクターのセリフ、ドキュメンタリーのナレーション、ナレーションなど、様々なシナリオで使用することができます。AIGC産業は、様々な音声コンテンツの特定の声で短時間で生成することができ、企業が制作コストを削減するのに役立ちます。 また、コミュニケーション分野では、ボイスクローニングは、個人的に音声アシスタントをカスタマイズし、パーソナライズされた音声対話を実現するのに役立ちます。

必要とされるデータとは

ボイスクローニング技術は主にディープラーニングモデルに基づいており、大量の音声データに対して学習させることで音声の特徴を学習させ、ターゲット録音に似た音声を生成します。そのデータロジックは以下の通り:

まず、音声クローニングのベースを構築するために大規模な音声が必要です。これらのデータセットには、モデルが話者の音声特徴を確実に捉えることができるように、異なるトピックやスタイルをカバーする多言語、多スタイル、多モーションの音声サンプルが含まれている必要があります。

ベースモデルを構築した後、微調整のために数千時間に及ぶ高品質な音声データを使用してベースモデルをトレーニングする必要があります。この段階での学習データは、パラ言語アノテーションを備えていることが理想的です。 パラ言語には、リズミカルな特徴(イントネーション、ストレスなど)、突発的な特徴(笑い、泣き声など)、二次調音(鼻音など)が含まれます。これらの注釈は、モデルが感情やイントネーションをより理解するのに役立ち、より表現力豊かな音声を生成します。

最後に、生成された音声の自然さと専門性を高めるために、モデルを微調整する必要があります。 このプロセスでは通常、生成された音声が滑らかで自然であることを保証するために、従来のプロのスピーカーの音声データが必要となります。このプロフェッショナルなデータを使用することで、モデルはより洗練された発音テクニックとスピーチスタイルを学習することができ、最終的に生成されるスピーチは実際の話者の声に近づきます。

ボイスクローニングデータセット

弊社は、パラ言語アノテーション、マルチスタイル、マルチエモーション、マルチ言語音声合成ライブラリなどの著作権保護されたデータセットを提供しています。

2人日本語対話合成コーパス

話し手はプロの声優で、男女に分かれ、与えられたトピックについて自由に対話します。 プロの音声学者がアノテーションに参加し、パラ言語に注釈を付けています。パラ言語のラベルには、息の変化、間、口をすぼめる、引きずる音、咳、笑い、吃音の繰り返し、倒置、イントネーションなどが含まれ、ボイスクローニングの研究開発ニーズに正確にマッチしています。サンプリング形式48khz、24bit、PCM wav。

200時間の中国語自然対話パラ言語付き合成コーパス

400人の一般話者、2対2の自然対話で、テキスト内容、文のタイムスタンプでアノテーション済み。パラ言語に関しては、息の変化、アクセント、間、後続音、笑いなど14種類のパラ言語がラベル付けされています。サンプリング形式は48khz、24bit、PCM wav。

20時間アメリカ英語男性の声の合成コーパス

20歳から30歳までのネイティブアメリカン男性によって録音された、若くポジティブな声のライブラリで、18,000以上の文章が収録されています。内容には、一般的な宣言文や一般的な疑問文などのカテゴリーが含まれています。

10.4時間日本語女性音声合成コーパス

コンテンツは、ニュースや話し言葉の録音テキストで、合計8,000以上の発話が、音素をバランスよくカバーしています。録音者は20歳から30歳までの甘い声の女性です。日本語テキストの書き起こしは、99%以上の単語精度でラベル付けされています。

20時間アメリカ英語女性音声合成コーパス

アメリカ英語女性音声合成ライブラリは、アメリカ人のネイティブスピーカーによって録音され、甘いトーン、コーパスのバランスの取れています。音声合成の研究開発のニーズに正確にマッチするようにプロの音声学者がアノテーションに参加しています。

まとめ

データタング株式会社は、音声認識、音声合成、音声クローニング、その他多くの音声タスクを支援し、より高品質なデータ、より洗練されたデータで、お客様のパーソナルなデータニーズにお応えします。
521e3623-279e-4cd9-b6b7-ed9de1db60c3