[{"@type":"PropertyValue","name":"フォーマット","value":"16kHz/16bit/非圧縮 WAV/モノラル/話者別チャンネル分離(話者分離)"},{"@type":"PropertyValue","name":"収録環境","value":"比較的静かな屋内環境(残響なし)"},{"@type":"PropertyValue","name":"収録内容","value":"提示されたトピックリストから収録者が複数の得意分野を選択し、自然な会話の流れを保ちながら各トピックについて対話を展開して収録"},{"@type":"PropertyValue","name":"収録人数","value":"158名のアメリカ合衆国ネイティブ話者"},{"@type":"PropertyValue","name":"アノテーション特徴","value":"有効な単一発話単位を抽出してラベリングを実施。 各発話について以下の情報を付与: ・発話開始/終了タイムスタンプ ・話者ID ・書き起こしテキスト ・ノイズラベル"},{"@type":"PropertyValue","name":"収録国","value":"アメリカ合衆国"},{"@type":"PropertyValue","name":"言語","value":"英語(米国)"},{"@type":"PropertyValue","name":"想定用途","value":"音声認識(ASR) ・話者認識・声紋認証"},{"@type":"PropertyValue","name":"精度","value":"単語正解率(Word Accuracy):98%"}]
{"id":1770,"datatype":"1","titleimg":"https://jp.nexdata.ai/shujutang/static/image/index/datatang_yuyin_default.webp","type1":"165","type1str":null,"type2":"166","type2str":null,"dataname":"172時間話者分離アメリカ英語自然会話音声データセット","datazy":[{"title":"フォーマット","content":"16kHz/16bit/非圧縮 WAV/モノラル/話者別チャンネル分離(話者分離)"},{"title":"収録環境","content":"比較的静かな屋内環境(残響なし)"},{"title":"収録内容","content":"提示されたトピックリストから収録者が複数の得意分野を選択し、自然な会話の流れを保ちながら各トピックについて対話を展開して収録"},{"title":"収録人数","content":"158名のアメリカ合衆国ネイティブ話者"},{"title":"アノテーション特徴","content":"有効な単一発話単位を抽出してラベリングを実施。 各発話について以下の情報を付与: ・発話開始/終了タイムスタンプ ・話者ID ・書き起こしテキスト ・ノイズラベル"},{"title":"収録国","content":"アメリカ合衆国"},{"title":"言語","content":"英語(米国)"},{"title":"想定用途","content":"音声認識(ASR) ・話者認識・声紋認証"},{"title":"精度","content":"単語正解率(Word Accuracy):98%"}],"datatag":"full duplex,Dialogue,English","technologydoc":null,"downurl":null,"datainfo":null,"standard":null,"dataylurl":null,"flag":null,"publishtime":null,"createby":null,"createtime":null,"ext1":null,"samplestoreloc":null,"hosturl":null,"datasize":null,"industryPlan":null,"keyInformation":null,"samplePresentation":[],"officialSummary":"本データは、フルデュプレックス(全二重)対話を前提にスマートフォンで収録した高品質な英語(米国)の音声データセットです。半二重方式では再現が難しい同時発話や重なり発話、自然な相槌や割込みを含み、双方向に同時進行する対話を再現した同時双方向音声データセットとして、リアルタイム対話AIや次世代ASRの研究開発に適しています。本セットは、提示されたトピックリストから収録者が複数の得意分野を選択し、自然な流れで会話を展開して収録した英語(米国)の自然会話音声データセットです。米国内の多様な地域・文化背景を持つネイティブ話者による対話を含み、スマートフォン収録による実使用環境に近い音声として、ASRの音響・言語モデル学習、声紋識別、対話システム評価など幅広い研究用途に活用できます。データは各種プライバシー保護規制に準拠して管理されています。当社の全双工音声シリーズは、多言語に対応した全二重音声データセットとして提供され、書き起こしテキスト、発話タイムスタンプ、話者ID、性別などの詳細アノテーションを標準搭載しています。また、話者ごとの独立音声を含む話者分離音声データセットとしても利用可能で、収録条件や話者属性、ラベル仕様のカスタマイズにも柔軟に対応します。","dataexampl":null,"datakeyword":["英語音声データセット","アメリカ英語音声会話データ","話者分離音声データセット","全二重音声データセット"],"isDelete":null,"ids":null,"idsList":null,"datasetCode":null,"productStatus":null,"tagTypeEn":"Data Type,Language","tagTypeZh":null,"website":null,"samplePresentationList":null,"datazyList":null,"keyInformationList":null,"dataexamplList":null,"bgimg":null,"datazyScriptList":null,"datakeywordListString":null,"sourceShowPage":"speechRec","dataShowType":"[{\"code\":\"0\",\"language\":\"ZH\"},{\"code\":\"1\",\"language\":\"ZH\"},{\"code\":\"2\",\"language\":\"EN,PT,DE,KO,FR,ES,JP\"},{\"code\":\"3\",\"language\":\"EN\"}]","productNameEn":"172 Hours - American English Full-Duplex Spontaneous Dialogue Smartphone speech dataset","BGimg":"brightSpot_audio","voiceBg":["/shujutang/static/image/comm/audio_bg.webp","/shujutang/static/image/comm/audio_bg2.webp","/shujutang/static/image/comm/audio_bg3.webp","/shujutang/static/image/comm/audio_bg4.webp","/shujutang/static/image/comm/audio_bg5.webp"]}
https://jp.nexdata.ai/shujutang/static/image/index/datatang_yuyin_default.webp
[]
172時間話者分離アメリカ英語自然会話音声データセット
英語音声データセット
アメリカ英語音声会話データ
話者分離音声データセット
全二重音声データセット
本データは、フルデュプレックス(全二重)対話を前提にスマートフォンで収録した高品質な英語(米国)の音声データセットです。半二重方式では再現が難しい同時発話や重なり発話、自然な相槌や割込みを含み、双方向に同時進行する対話を再現した同時双方向音声データセットとして、リアルタイム対話AIや次世代ASRの研究開発に適しています。本セットは、提示されたトピックリストから収録者が複数の得意分野を選択し、自然な流れで会話を展開して収録した英語(米国)の自然会話音声データセットです。米国内の多様な地域・文化背景を持つネイティブ話者による対話を含み、スマートフォン収録による実使用環境に近い音声として、ASRの音響・言語モデル学習、声紋識別、対話システム評価など幅広い研究用途に活用できます。データは各種プライバシー保護規制に準拠して管理されています。当社の全双工音声シリーズは、多言語に対応した全二重音声データセットとして提供され、書き起こしテキスト、発話タイムスタンプ、話者ID、性別などの詳細アノテーションを標準搭載しています。また、話者ごとの独立音声を含む話者分離音声データセットとしても利用可能で、収録条件や話者属性、ラベル仕様のカスタマイズにも柔軟に対応します。
このデータセットは、商用利用や研究目的などに役立つ有償のデータセットです。著作権ありの既製データセットは、AIプロジェクトの飛躍的なスタートに役立ちます。
![仕様]()
データ仕様
フォーマット
16kHz/16bit/非圧縮 WAV/モノラル/話者別チャンネル分離(話者分離)
収録内容
提示されたトピックリストから収録者が複数の得意分野を選択し、自然な会話の流れを保ちながら各トピックについて対話を展開して収録
アノテーション特徴
有効な単一発話単位を抽出してラベリングを実施。 各発話について以下の情報を付与: ・発話開始/終了タイムスタンプ ・話者ID ・書き起こしテキスト ・ノイズラベル
精度
単語正解率(Word Accuracy):98%
![サンプル]()
サンプル
![おすすめデータセット]()
おすすめデータセット
よくあるご質問

日本語の音声認識データにはどのようなバリエーションがありますか?

子どもの日常会話、モノローグ、講義、バラエティなど幅広いジャンルを含むリアルな対話音声が収録されており、話者 ID、性別、年齢、アクセントなどもアノテーションされています。

データの多様性は実際のユースケースに役立ちますか?

はい、リアルな対話と幅広い話者属性を収録しており、日本のさまざまな環境での音声認識モデルに対応可能です。

納品までのスピードはどの程度ですか?

既製データセットは最短1日で納品可能で、カスタム収集・アノテーションも迅速対応可能です。
f4f9d8a9-e50d-4333-9a22-007e3af2949f