「Datatang株式会社」は現在「Nexdata」のブランドとして事業を展開しています。本サイトより最新のAIデータサービスとソリューションをご案内いたします。

jp

Please fill in your name

Mobile phone format error

Please enter the telephone

Please enter your company name

Please enter your company email

Please enter the data requirement

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

The data requirement cannot be less than 5 words and cannot be pure numbers

m.nexdata.datatang.com

200,475件 TNデータセット(テキスト正規化)

中国語音声合成向け正規化テキストデータ
中国語TTS向けTNデータセット
音声合成向けテキスト正規化データ
中国語テキスト読み正規化データ

本データセットには、合計200,475文の原文テキストが収録されています。各文について、特殊記号や数字に対する漢字での読み(正規化結果)を付与しており、テキスト正規化モデルの学習にそのまま利用できる構成となっています。

有料データセット
このデータセットは、商用利用や研究目的などに役立つ有償のデータセットです。著作権ありの既製データセットは、AIプロジェクトの飛躍的なスタートに役立ちます。
仕様データ仕様
データ内容
200,475文のテキストを漢字表記に変換
データ規模
200,475文の元のテキスト、457,832件のアノテーション
データソース
さまざまな種類の小説、記事、ニュースから抽出された文
言語
中国語
アノテーション内容
文に含まれる特定の特殊記号やアラビア数字を漢字表記でアノテーション
応用シーン
TTS、テキスト正規化
サンプル サンプル
  • 200,475件 TNデータセット(テキスト正規化)
おすすめデータセットおすすめデータセット
ご要望をご相談ください

プライバシー保護 に同意する

よくあるご質問

音声データはどのような環境で収録されていますか?

すべての音声データは、Nexdata自社のプロ仕様録音スタジオで収録されており、音声合成(TTS)専門の言語学者・音響エンジニアが監修しています。ノイズフリーな環境と高精度マイクにより、クリアで自然な音声を実現しています。

多言語や方言にも対応していますか?

はい。英語、中国語、韓国語など主要言語のネイティブスピーカーに加え、関東・関西・九州など多数の日本語方言スピーカーも保有しています。お客様のターゲットに合わせて、最適なスピーカーを迅速に選定・編成でき、プロジェクトの立ち上げを大幅にスピードアップできます。

カスタム音声データの収録・アノテーションも可能ですか?

はい、可能です。専用録音設備、経験豊富なオペレーションチーム、TTS向けに最適化されたアノテーションツールを活用し、音素ラベル・プロソディ(韻律)・感情タグなど、お客様仕様の高精度アノテーションまでワンストップで提供します。ご要望に応じて、オリジナル音声データセットの構築も承ります。

fec934bd-6bb2-4787-9bab-3482fc490160

608e9d70-1389-4f26-8ae6-0f8b7cdfaa05