96時間日本日本語子供音声データセット

日本語音声データ

子供音声コーパス

日本語音声認識

日本語音声会話

日本語子供音声データ（12歳以下）は、日常会話、学校でのやり取り、ゲーム実況、動画配信、学習・講義、バラエティ風トークなど、子どもたちが実際に使う多様な口語シーンを収録しています。全国の異なる地域・文化的背景を持つ子どもたちが参加し、テキスト、話者ID、性別、アクセントなどの属性を正確にアノテーション。音声認識や対話システムの開発に活用可能な高品質データです。複数のAI開発チームが実証済みで、モデルが実際の子ども言葉に対応する上で効果を発揮しています。全データは保護者の同意を得て収集されており、研究・開発および商用利用が可能です。

このデータセットは、商用利用や研究目的などに役立つ有償のデータセットです。著作権ありの既製データセットは、AIプロジェクトの飛躍的なスタートに役立ちます。

おすすめデータセット

48kHz・579時間高音質・話者分離日本語自然会話音声データセット

本データは、フルデュプレックス（全二重）対話を前提に収録した高品質な日本語音声データセットです。半二重方式では再現が難しい同時発話や重なり発話、自然な相槌や割込みを含み、双方向に同時進行する対話を再現した同時双方向音声データセットとして、リアルタイム対話AIや次世代ASRの研究開発に適しています。本セットは、提示されたトピックリストから収録者が複数の得意分野を選択し、自然な流れで会話を展開して収録した日本語自然会話音声データセットです。日本各地のネイティブ話者による多様な対話を含み、高音質収録によりASRの音響・言語モデル学習、声紋識別、対話システム評価など幅広い研究用途に活用できます。データは各種プライバシー保護規制に準拠して管理されています。当社の全二重音声データセットシリーズは、日本語をはじめ、英語、韓国語など多言語に対応し、書き起こしテキスト、発話タイムスタンプ、話者ID、性別などの詳細アノテーションを標準搭載しています。また、話者ごとの独立音声を含む話者分離音声データセットとしても利用可能で、収録条件や話者属性、ラベル仕様のカスタマイズ収集・作成にも柔軟に対応します。

日本語音声データ話者分離音声データ全二重音声データセット同時双方向音声データセット日本語自然会話音声データ

グジャラート語の脚本に基づいた会話音声データ

グジャラート語の脚本に基づいた会話音声データは、与えられた脚本に基づいて会話をシミュレーションし、録音したもので、複数の分野をカバーし、内容が豊富である。このデータセットには、テキスト内容などの多様な属性がラベリングされており、高い正確性を備えており、音声認識に関する研究や応用に豊富なリソースを提供している。複数のAI企業による検証結果、このデータはモデルが現実世界の多様性に直面した際に優れたパフォーマンスを発揮するのに役立つ。当社はデータ保護法規やプライバシーに関する規定を厳格に遵守し、データの収集、保存、利用の過程でユーザーのプライバシーと合法的な権益を守り、すべてのデータはGDPR、CCPA、PIPLに準拠している。

グジャラート語インド会話音声

360時間のヨーロッパポルトガル語口語化音声データ

ヨーロッパポルトガル語口語化音声データ、内容は対話、インタビューなどの領域をカバーし、実世界のインタラクションシーンを反映しています。このデータセットはテキスト内容、話者識別、性別など多様な属性をアノテーションし、異なる地域や文化的背景を持つポルトガル現地人によって録音され、高精度で使いやすく、音声認識関連の研究やアプリケーションに豊富なリソースを提供します。モデルが実世界の多様性に対応するのに役立つことが複数のAI企業による検証で確認されています。データ保護法規とプライバシー規定を厳格に遵守し、データ収集、保存、使用の過程でユーザーのプライバシーと法的権利を保護します。すべてのデータはGDPR、CCPA、PIPLに準拠しています。

ポルトガル語ヨーロッパ

190時間のフランス語ゲーム領域音声データ_口語化

フランス語ゲーム領域口語化音声データ、国内で人気かつ長く続くトップゲームの会話音声を選び、プレイヤーの戦略相談、ソーシャルインタラクション、eスポーツニュースなどを含み、実世界のインタラクションシーンを反映しています。このデータセットはテキスト内容、攻撃的発言、話者識別、性別など多様な属性をアノテーションし、異なる地域や文化的背景を持つ複数の人員によって録音され、高精度で使いやすく、音声認識関連の研究やアプリケーションに豊富なリソースを提供します。複数のAI企業による検証により、モデルが実世界の多様性に対応するのに役立つことが確認されています。データ保護法規とプライバシー規定を厳格に遵守し、データ収集、保存、使用の過程でユーザーのプライバシーと法的権利を保護します。すべてのデータはGDPR、CCPA、PIPLに準拠しています。

フランス語自然な対話ゲーム

217時間のスペイン語金融領域エンティティアノテーション口語化音声データ

スペイン語金融領域エンティティアノテーション口語化音声データ、各種金融専門用語をカバーし、主にマクロ金融内容とミクロ金融内容に分かれ、実世界のインタラクションシーンを反映しています。このデータセットはテキスト内容、話者識別、性別、一般的なエンティティ用語など多様な属性をアノテーションし、さまざまな人工知能アプリケーションに豊富なリソースを提供します。複数のAI企業による検証により、モデルが実世界の多様性に対応するのに役立つことが確認されています。データ保護法規とプライバシー規定を厳格に遵守し、データ収集、保存、使用の過程でユーザーのプライバシーと法的権利を保護します。すべてのデータはGDPR、CCPA、PIPLに準拠しています。

スペイン語エンティティ自然な対話金融

200時間のブラジルポルトガル語金融領域エンティティアノテーション口語化音声データ

ブラジルポルトガル語金融領域エンティティアノテーション口語化音声データ、各種金融専門用語をカバーし、主にマクロ金融内容とミクロ金融内容に分かれ、実世界のインタラクションシーンを反映しています。このデータセットはテキスト内容、話者識別、性別、一般的なエンティティ用語など多様な属性をアノテーションし、さまざまな人工知能アプリケーションに豊富なリソースを提供します。複数のAI企業による検証により、モデルが実世界の多様性に対応するのに役立つことが確認されています。データ保護法規とプライバシー規定を厳格に遵守し、データ収集、保存、使用の過程でユーザーのプライバシーと法的権利を保護します。すべてのデータはGDPR、CCPA、PIPLに準拠しています。

ブラジルポルトガル語エンティティ自然な対話金融

203時間ドイツ語金融業界音声データセット

203時間におよぶドイツ語の金融ドメイン音声データは、マクロ経済やミクロ金融に関わる実際の会話シーンを再現したもので、金融専門用語を高密度に含んだ自然な口語表現が特徴です。テキスト内容に加え、話者ID、性別、および金融関連エンティティ（企業名、通貨、商品名など）を正確にアノテーションしており、音声認識をはじめとするさまざまなAIアプリケーションに活用可能な高品質リソースです。複数のAI企業がこのデータを実際にモデル訓練に活用し、金融現場の多様なやり取りに良好な対応力を示しています。音声はすべて話者が用途を理解した上で提供しており、機械学習の研究・開発、および製品への組み込みを含む商用利用が認められています。

ドイツ語金融業界ドイツ語音声コーパスドイツ語音声認識

105時間のイタリア語ゲーム領域音声データ_口語化

イタリア語ゲーム領域音声データ_口語化、国内で人気かつ長く続くトップゲームの会話音声を選び、プレイヤーの戦略相談、ソーシャルインタラクション、eスポーツニュースなどを含み、実世界のインタラクションシーンを反映しています。このデータセットはテキスト内容、話者識別、性別、攻撃的発言アノテーション、アクセントなど多様な属性をアノテーションし、異なる地域や文化的背景を持つ複数の人員によって録音され、高精度で使いやすく、音声認識関連の研究やアプリケーションに豊富なリソースを提供します。複数のAI企業による検証により、モデルが実世界の多様性に対応するのに役立つことが確認されています。データ保護法規とプライバシー規定を厳格に遵守し、データ収集、保存、使用の過程でユーザーのプライバシーと法的権利を保護します。すべてのデータはGDPR、CCPA、PIPLに準拠しています。

イタリア自然な対話ゲームイタリア語