[{"@type":"PropertyValue","name":"データ内容","value":"200,475文のテキストを漢字表記に変換"},{"@type":"PropertyValue","name":"データ規模","value":"200,475文の元のテキスト、457,832件のアノテーション"},{"@type":"PropertyValue","name":"データソース","value":"さまざまな種類の小説、記事、ニュースから抽出された文"},{"@type":"PropertyValue","name":"言語","value":"中国語"},{"@type":"PropertyValue","name":"アノテーション内容","value":"文に含まれる特定の特殊記号やアラビア数字を漢字表記でアノテーション"},{"@type":"PropertyValue","name":"応用シーン","value":"TTS、テキスト正規化"}]
{"id":1102,"datatype":"1","titleimg":"https://jp.nexdata.ai/shujutang/static/image/index/datatang_yuyin_default.webp","type1":"165","type1str":null,"type2":"219","type2str":null,"dataname":"200,475件 TNデータセット(テキスト正規化)","datazy":[{"title":"データ内容","desc":"データ内容","content":"200,475文のテキストを漢字表記に変換"},{"title":"データ規模","desc":"データ規模","content":"200,475文の元のテキスト、457,832件のアノテーション"},{"title":"データソース","desc":"データソース","content":"さまざまな種類の小説、記事、ニュースから抽出された文"},{"title":"言語","desc":"言語","content":"中国語"},{"title":"アノテーション内容","desc":"アノテーション内容","content":"文に含まれる特定の特殊記号やアラビア数字を漢字表記でアノテーション"},{"title":"応用シーン","desc":"応用シーン","content":"TTS、テキスト正規化"}],"datatag":"TN,TTS,Text Normalization","technologydoc":null,"downurl":null,"datainfo":null,"standard":null,"dataylurl":null,"flag":null,"publishtime":null,"createby":null,"createtime":null,"ext1":null,"samplestoreloc":null,"hosturl":null,"datasize":null,"industryPlan":null,"keyInformation":"","samplePresentation":[{"name":"/data/apps/damp/temp/ziptemp/APY210430001_demo1711360879318/APY210430001_demo/20210927171813646_demo.jpg","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY210430001_demo1711360879318/APY210430001_demo/20210927171813646_demo.jpg?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=95%2FPPMl0M9RjZnQHrGFRikiiJ5k%3D","intro":"","size":0,"progress":100,"type":"jpg"}],"officialSummary":"本データセットには、合計200,475文の原文テキストが収録されています。各文について、特殊記号や数字に対する漢字での読み(正規化結果)を付与しており、テキスト正規化モデルの学習にそのまま利用できる構成となっています。","dataexampl":null,"datakeyword":["中国語音声合成向け正規化テキストデータ","中国語TTS向けTNデータセット","音声合成向けテキスト正規化データ","中国語テキスト読み正規化データ"],"isDelete":null,"ids":null,"idsList":null,"datasetCode":null,"productStatus":null,"tagTypeEn":"Language,Voice Type","tagTypeZh":null,"website":null,"samplePresentationList":null,"datazyList":null,"keyInformationList":null,"dataexamplList":null,"bgimg":null,"datazyScriptList":null,"datakeywordListString":null,"sourceShowPage":"speechSyn","BGimg":"brightSpot_audio","voiceBg":["/shujutang/static/image/comm/audio_bg.webp","/shujutang/static/image/comm/audio_bg2.webp","/shujutang/static/image/comm/audio_bg3.webp","/shujutang/static/image/comm/audio_bg4.webp","/shujutang/static/image/comm/audio_bg5.webp"]}
https://jp.nexdata.ai/shujutang/static/image/index/datatang_yuyin_default.webp
[{"@type":"ImageObject","embedUrl":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY210430001_demo1711360879318/APY210430001_demo/20210927171813646_demo.jpg?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=95%2FPPMl0M9RjZnQHrGFRikiiJ5k%3D"}]
200,475件 TNデータセット(テキスト正規化)
中国語音声合成向け正規化テキストデータ
中国語TTS向けTNデータセット
音声合成向けテキスト正規化データ
中国語テキスト読み正規化データ
本データセットには、合計200,475文の原文テキストが収録されています。各文について、特殊記号や数字に対する漢字での読み(正規化結果)を付与しており、テキスト正規化モデルの学習にそのまま利用できる構成となっています。
このデータセットは、商用利用や研究目的などに役立つ有償のデータセットです。著作権ありの既製データセットは、AIプロジェクトの飛躍的なスタートに役立ちます。
![仕様]()
データ仕様
データ内容
200,475文のテキストを漢字表記に変換
データ規模
200,475文の元のテキスト、457,832件のアノテーション
データソース
さまざまな種類の小説、記事、ニュースから抽出された文
アノテーション内容
文に含まれる特定の特殊記号やアラビア数字を漢字表記でアノテーション
![サンプル]()
サンプル
![おすすめデータセット]()
おすすめデータセット
よくあるご質問

音声データはどのような環境で収録されていますか?

すべての音声データは、Nexdata自社のプロ仕様録音スタジオで収録されており、音声合成(TTS)専門の言語学者・音響エンジニアが監修しています。ノイズフリーな環境と高精度マイクにより、クリアで自然な音声を実現しています。

多言語や方言にも対応していますか?

はい。英語、中国語、韓国語など主要言語のネイティブスピーカーに加え、関東・関西・九州など多数の日本語方言スピーカーも保有しています。お客様のターゲットに合わせて、最適なスピーカーを迅速に選定・編成でき、プロジェクトの立ち上げを大幅にスピードアップできます。

カスタム音声データの収録・アノテーションも可能ですか?

はい、可能です。専用録音設備、経験豊富なオペレーションチーム、TTS向けに最適化されたアノテーションツールを活用し、音素ラベル・プロソディ(韻律)・感情タグなど、お客様仕様の高精度アノテーションまでワンストップで提供します。ご要望に応じて、オリジナル音声データセットの構築も承ります。
608e9d70-1389-4f26-8ae6-0f8b7cdfaa05