AIモデルを最適化するための高品質TTSデータの活用

発信者：Nexdata 日時： 08/29/2024

音声合成はTTS（Text to Speech）とも呼ばれ、人間の音声を人工的に生成し、任意のテキスト情報を標準的で滑らかな音声に変換してリアルタイムで読み上げる技術です。人間と機械の対話には欠かせないものです。音声認識技術はコンピュータに「聞く」ことを学習させ、音声合成技術はコンピュータに人間のように「話す」ことを可能にします。
地図ナビゲーション、音声アシスタント、ニュースの読み上げから、スマートなカスタマーサービス、コールセンター、公共の場での放送まで、TTSの応用は私たちの生活のいたるところにあります。

音声合成技術の研究範囲には、音声合成のほかに、歌声合成、ささやき声合成、方言合成、動物の鳴き声合成などがあります。現在、音声合成技術は多くの分野で応用されています。

従来のTTS放送合成とは異なり、パーソナライズされたTTSアプリケーションはますます人気が高まっています。弊社は、膨大な音声・テキストデータアノテーションの経験に基づき、高品質、マルチシナリオ、マルチカテゴリの音声合成データソリューションを提供します。

10.4時間の日本語音声合成コーパス-女性

20代から30代の日本人女性によって録音されたものです。穏やかな標準語となります。音素のカバー率はバランスが取れています。内容としてはニュースや一般的な話し言葉が含まれます。文字起こし済みです。

2人 - 日本語平均音音声合成コーパス

このデータセットは、日本語母語話者による純粋な発音で録音され、ニュースや常用文を含み、音素をバランスよくカバーしています。プロの音声学者がアノテーションに携わっています。音声合成の研究開発ニーズに的確に対応しています。

19.46時間 - アメリカ英語音声合成コーパス-女性

このコーパスは、アメリカ英語のネイティブスピーカーによって録音されたもので、アクセントなしで、甘い響きを備えています。音素のカバー率はバランスが取れています。単語の正確率は99%以上、音素の正確率は98%以上、韻律の正確率は98%以上となります。

音声合成技術の急速な発展に伴い、TTSによって生成される音声はますます自然で生き生きとしたものになるでしょう。私たちは、技術の発展が従来の障害を突破し、私たちの日常生活にさらなる利便性をもたらすと確信しています。

まとめ
データサービスが必要な方は、[email protected] までお気軽にお問い合わせください。

Nexdata会社情報・AI開発に役立つ事例・業界レポートをダウンロードできます。

今すぐチェック