200,955件中国語テキスト韻律コーパス

中国語ニューステキストデータ

中国語韻律付きテキストデータセット

中国語口語文テキストデータ

中国語韻律アノテーションテキストデータ

本データセットは、ニュース文や口語文を含む20万件の中国語テキストに対して、4階層の韻律情報を付与したコーパスです。文長は適切にコントロールされ、文体・構文も多様になるよう厳選しています。TTSフロントエンドにおける韻律予測モデルの学習用データとして、そのままご利用いただける構成となっています。

このデータセットは、商用利用や研究目的などに役立つ有償のデータセットです。著作権ありの既製データセットは、AIプロジェクトの飛躍的なスタートに役立ちます。

音声データはどのような環境で収録されていますか？

すべての音声データは、Nexdata自社のプロ仕様録音スタジオで収録されており、音声合成（TTS）専門の言語学者・音響エンジニアが監修しています。ノイズフリーな環境と高精度マイクにより、クリアで自然な音声を実現しています。

多言語や方言にも対応していますか？

はい。英語、中国語、韓国語など主要言語のネイティブスピーカーに加え、関東・関西・九州など多数の日本語方言スピーカーも保有しています。お客様のターゲットに合わせて、最適なスピーカーを迅速に選定・編成でき、プロジェクトの立ち上げを大幅にスピードアップできます。

カスタム音声データの収録・アノテーションも可能ですか？

はい、可能です。専用録音設備、経験豊富なオペレーションチーム、TTS向けに最適化されたアノテーションツールを活用し、音素ラベル・プロソディ（韻律）・感情タグなど、お客様仕様の高精度アノテーションまでワンストップで提供します。ご要望に応じて、オリジナル音声データセットの構築も承ります。

中国語ニューステキストデータ 中国語韻律付きテキストデータセット 中国語口語文テキストデータ 中国語韻律アノテーションテキストデータ