[{"@type":"PropertyValue","name":"フォーマット","value":"16kHz/16bit/WAV/モノラル"},{"@type":"PropertyValue","name":"収録環境","value":"比較的静かな室内環境(認識に支障のない環境ノイズを含む)"},{"@type":"PropertyValue","name":"内容","value":"指定されたテキストを朗読して収録。各発話には少なくとも1種類の指定固有表現(人名、電話番号、住所、英数字列、メールアドレス、製品型番、シリアル番号、金額)を含む"},{"@type":"PropertyValue","name":"収録国","value":"日本"},{"@type":"PropertyValue","name":"言語地域コード","value":"ja-JP"},{"@type":"PropertyValue","name":"言語","value":"日本語"},{"@type":"PropertyValue","name":"文字正解率","value":"98% ※句読点、タグおよび非音声情報に関するラベルは主観性を伴うため、統計には含まれていません"},{"@type":"PropertyValue","name":"収録機材","value":"スマートフォン(Android端末、iOS端末)"}]
{"id":1964,"datatype":"1","titleimg":"https://jp.nexdata.ai/shujutang/static/image/index/datatang_yuyin_default.webp","type1":"165","type1str":null,"type2":"166","type2str":null,"dataname":"100時間日本語固有表現読み上げ音声データセット(数字・地名)","datazy":[{"title":"フォーマット","content":"16kHz/16bit/WAV/モノラル"},{"title":"収録環境","content":"比較的静かな室内環境(認識に支障のない環境ノイズを含む)"},{"title":"内容","content":"指定されたテキストを朗読して収録。各発話には少なくとも1種類の指定固有表現(人名、電話番号、住所、英数字列、メールアドレス、製品型番、シリアル番号、金額)を含む"},{"title":"収録国","content":"日本"},{"title":"言語地域コード","content":"ja-JP"},{"title":"言語","content":"日本語"},{"title":"文字正解率","content":"98% ※句読点、タグおよび非音声情報に関するラベルは主観性を伴うため、統計には含まれていません"},{"title":"収録機材","content":"スマートフォン(Android端末、iOS端末)"}],"datatag":"Japanese,Japan,Smartphone,Reading,Scripted Monologue","technologydoc":null,"downurl":null,"datainfo":null,"standard":null,"dataylurl":null,"flag":null,"publishtime":null,"createby":null,"createtime":null,"ext1":null,"samplestoreloc":null,"hosturl":null,"datasize":null,"industryPlan":null,"keyInformation":null,"samplePresentation":[],"officialSummary":"スマートフォンで収録された日本語の読み上げ音声を約100時間収録したデータセットです。指定されたテキストを朗読した音声で構成され、人名、電話番号、住所、数値・英数字列、メールアドレス、製品型番、シリアル番号、金額など多様な固有表現(Named Entity)を豊富に含んでいます。すべての音声には書き起こしテキストが付与されており、音声認識(ASR)、固有表現認識(NER)、音声理解、音声検索、対話AIなどの研究・開発に適しています。実環境に近いスマートフォン収録により、現実的な音響条件を反映した学習データとして利用可能です。データはプライバシー保護および関連法規を遵守して収集・管理されており、GDPR、CCPA、PIPLに準拠しています。","dataexampl":null,"datakeyword":["日本語固有表現","日本語音声データ","エンティティ音声読み上げ","NER 音声データ"],"isDelete":null,"ids":null,"idsList":null,"datasetCode":null,"productStatus":null,"tagTypeEn":"Data Type,Language","tagTypeZh":null,"website":null,"samplePresentationList":null,"datazyList":null,"keyInformationList":null,"dataexamplList":null,"bgimg":null,"datazyScriptList":null,"datakeywordListString":null,"sourceShowPage":"speechRec","dataShowType":"[{\"code\":\"0\",\"language\":\"ZH\"},{\"code\":\"1\",\"language\":\"ZH\"},{\"code\":\"2\",\"language\":\"EN,JP\"},{\"code\":\"3\",\"language\":\"EN\"},{\"code\":\"4\",\"language\":\"JP\"}]","productNameEn":"100 hours - Japanese(Japan) Entities Scripted Monologue Smartphone speech dataset","BGimg":"brightSpot_audio","voiceBg":["/shujutang/static/image/comm/audio_bg.webp","/shujutang/static/image/comm/audio_bg2.webp","/shujutang/static/image/comm/audio_bg3.webp","/shujutang/static/image/comm/audio_bg4.webp","/shujutang/static/image/comm/audio_bg5.webp"]}
https://jp.nexdata.ai/shujutang/static/image/index/datatang_yuyin_default.webp
[]
100時間日本語固有表現読み上げ音声データセット(数字・地名)
日本語固有表現
日本語音声データ
エンティティ音声読み上げ
NER 音声データ
スマートフォンで収録された日本語の読み上げ音声を約100時間収録したデータセットです。指定されたテキストを朗読した音声で構成され、人名、電話番号、住所、数値・英数字列、メールアドレス、製品型番、シリアル番号、金額など多様な固有表現(Named Entity)を豊富に含んでいます。すべての音声には書き起こしテキストが付与されており、音声認識(ASR)、固有表現認識(NER)、音声理解、音声検索、対話AIなどの研究・開発に適しています。実環境に近いスマートフォン収録により、現実的な音響条件を反映した学習データとして利用可能です。データはプライバシー保護および関連法規を遵守して収集・管理されており、GDPR、CCPA、PIPLに準拠しています。
このデータセットは、商用利用や研究目的などに役立つ有償のデータセットです。著作権ありの既製データセットは、AIプロジェクトの飛躍的なスタートに役立ちます。
![仕様]()
データ仕様
フォーマット
16kHz/16bit/WAV/モノラル
収録環境
比較的静かな室内環境(認識に支障のない環境ノイズを含む)
内容
指定されたテキストを朗読して収録。各発話には少なくとも1種類の指定固有表現(人名、電話番号、住所、英数字列、メールアドレス、製品型番、シリアル番号、金額)を含む
文字正解率
98% ※句読点、タグおよび非音声情報に関するラベルは主観性を伴うため、統計には含まれていません
収録機材
スマートフォン(Android端末、iOS端末)
![サンプル]()
サンプル
![おすすめデータセット]()
おすすめデータセット
よくあるご質問

日本語の音声認識データにはどのようなバリエーションがありますか?

子どもの日常会話、モノローグ、講義、バラエティなど幅広いジャンルを含むリアルな対話音声が収録されており、話者 ID、性別、年齢、アクセントなどもアノテーションされています。

データの多様性は実際のユースケースに役立ちますか?

はい、リアルな対話と幅広い話者属性を収録しており、日本のさまざまな環境での音声認識モデルに対応可能です。

納品までのスピードはどの程度ですか?

既製データセットは最短1日で納品可能で、カスタム収集・アノテーションも迅速対応可能です。
f55e87cc-c229-4be3-9b86-f8e5fee87211