531時間分の走行シーン（車内）におけるノイズデータ（携帯電話+マイク）

マイク付きハンドセットによる車両ノイズデータの収集

車両ノイズデータの収集

車両のノイズ

車両ノイズデータ

走行シーン（車内）におけるノイズデータ（携帯電話+マイク）。このデータには、さまざまな車種、道路の種類、車両速度、および窓の開閉状態が含まれています。また、車内の異なる位置に6つの録音ポイントを配置し、各位置でのノイズ状況を正確に記録することで、車両ノイズモデリングの要件に正確に適合しています。

このデータセットは、商用利用や研究目的などに役立つ有償のデータセットです。著作権ありの既製データセットは、AIプロジェクトの飛躍的なスタートに役立ちます。

サンプル

Audio
道路类型:停车怠速(0)；天气:晴天；空调开关:关；右前车窗:关闭；右后车窗:关闭；气温:2；拥堵情况:畅通；平均车速:0；车型:轿车别克君威
Audio
道路类型:停车怠速(0)；天气:晴天；空调开关:中；右前车窗:关闭；右后车窗:关闭；气温:1；拥堵情况:正常；平均车速:0；车型:轿车大众捷达
Audio
道路类型:环线辅路(65,±15)；天气:雨天；空调开关:高；右前车窗:关闭；右后车窗:关闭；气温:24；拥堵情况:疏通；平均车速:71；车型:别克昂拉克
Audio
道路类型:环线辅路(65,±15)；天气:晴天；空调开关:关；右前车窗:关闭；右后车窗:关闭；气温:3；拥堵情况:正常；平均车速:65；车型:东风日产奇骏
Audio
道路类型:环线辅路(65,±15)；天气:晴天；空调开关:关；右前车窗:关闭；右后车窗:打开2cm；气温:6；拥堵情况:无拥堵；平均车速:68；车型:丰田雷凌

おすすめデータセット

48kHz・579時間高音質・話者分離日本語自然会話音声データセット

本データは、フルデュプレックス（全二重）対話を前提に収録した高品質な日本語音声データセットです。半二重方式では再現が難しい同時発話や重なり発話、自然な相槌や割込みを含み、双方向に同時進行する対話を再現した同時双方向音声データセットとして、リアルタイム対話AIや次世代ASRの研究開発に適しています。本セットは、提示されたトピックリストから収録者が複数の得意分野を選択し、自然な流れで会話を展開して収録した日本語自然会話音声データセットです。日本各地のネイティブ話者による多様な対話を含み、高音質収録によりASRの音響・言語モデル学習、声紋識別、対話システム評価など幅広い研究用途に活用できます。データは各種プライバシー保護規制に準拠して管理されています。当社の全二重音声データセットシリーズは、日本語をはじめ、英語、韓国語など多言語に対応し、書き起こしテキスト、発話タイムスタンプ、話者ID、性別などの詳細アノテーションを標準搭載しています。また、話者ごとの独立音声を含む話者分離音声データセットとしても利用可能で、収録条件や話者属性、ラベル仕様のカスタマイズ収集・作成にも柔軟に対応します。

日本語音声データ話者分離音声データ全二重音声データセット同時双方向音声データセット日本語自然会話音声データ

100時間日本語固有表現読み上げ音声データセット（数字・地名）

スマートフォンで収録された日本語の読み上げ音声を約100時間収録したデータセットです。指定されたテキストを朗読した音声で構成され、人名、電話番号、住所、数値・英数字列、メールアドレス、製品型番、シリアル番号、金額など多様な固有表現（Named Entity）を豊富に含んでいます。すべての音声には書き起こしテキストが付与されており、音声認識（ASR）、固有表現認識（NER）、音声理解、音声検索、対話AIなどの研究・開発に適しています。実環境に近いスマートフォン収録により、現実的な音響条件を反映した学習データとして利用可能です。データはプライバシー保護および関連法規を遵守して収集・管理されており、GDPR、CCPA、PIPLに準拠しています。

日本語固有表現日本語音声データエンティティ音声読み上げ NER 音声データ

10時間ペルースペイン語音声合成データセット

本製品は、音声合成（TTS）、音声認識（ASR）、および機械学習モデルの開発用に設計された、高品質なペルースペイン語音声合成データセットです。合計10時間の音声を含み、ペルーのネイティブ話者によって録音されて、深層学習や生成 AI の研究開発ニーズに精准にマッチします。商用利用可能な学習データとして、仮想アシスタントやナビゲーションシステムなど幅広い用途に対応しています。技術仕様としては、サンプリングレート48kHz、24-bit、WAV 形式の高音質オーディオを提供し、音素バランス（Phonetically Balanced）が均等にカバーされているため頑健なモデル訓練を保証します。専門の言語学者により精度高くアノテーションされており、時間軸付きトランスクリプト（JSON, TextGrid, CSV 形式）が付属。句読点と文の境界も明確化されており、音声 AI のファインチューニングや本番環境でのデプロイに必要な基礎品質を備えています。権利関係とコンプライアンス面では、商用利用および研究利用における著作権はクリア済みで、話者が使用契約書に署名済みです。GDPR および CCPA 準拠であり、個人識別情報も適切に管理されています。即時ダウンロード可能で、スタートアップ様から大企業様まで柔軟に提供可能です。音声データ収集のカスタム要件や見積もりのご希望も、お気軽にお問い合わせください。

スペイン語音声合成データセットスペイン語音声データセットペルースペイン語音声合成データセット

グジャラート語の脚本に基づいた会話音声データ

グジャラート語の脚本に基づいた会話音声データは、与えられた脚本に基づいて会話をシミュレーションし、録音したもので、複数の分野をカバーし、内容が豊富である。このデータセットには、テキスト内容などの多様な属性がラベリングされており、高い正確性を備えており、音声認識に関する研究や応用に豊富なリソースを提供している。複数のAI企業による検証結果、このデータはモデルが現実世界の多様性に直面した際に優れたパフォーマンスを発揮するのに役立つ。当社はデータ保護法規やプライバシーに関する規定を厳格に遵守し、データの収集、保存、利用の過程でユーザーのプライバシーと合法的な権益を守り、すべてのデータはGDPR、CCPA、PIPLに準拠している。

グジャラート語インド会話音声

20時間ルーマニア語自然会話音声データセット

ルーマニア語の対話型音声データ（スマートフォン録音）は、日常会話でよくある約30のシナリオに基づき、話者が自然なやり取りを録音した約20時間分の高品質音声です。話者はルーマニア各地および異なる文化的背景を持つ多様な参加者で、各発話にはテキスト内容、タイミング、性別などのメタ情報が正確にアノテーションされています。実際のモバイル環境で収録された本データは、現実的な音声条件を反映しており、音声認識モデルのロバスト性向上に効果的です。全音声は話者の同意を得て収集されており、機械学習の研究・開発および商用利用にご利用いただけます。

ルーマニア語自然会話音声認識ルーマニア語音声コーパス

300時間タガログ語スマートフォン収録音読音声データ

タガログ語音声データ_音読（スマートフォン）は、指定されたスクリプトに基づいて音読、録音をシミュレートしたもの。内容は会話·評論、インタラクティブ系、車載、ホームデバイスコマンド系と文字列等様々な分野を網羅し、豊富なコンテンツを有しました。本データセットはテキスト内容等、複数の属性をラベリングし、高い正確度を誇りながら、音声認識に関する研究とその応用に豊富なリソースを提供しています。複数のAI企業が検証したところ、本データセット現実世界の網羅性とバリデーションに面するモデルのパフォーマンス向上に貢献。当社はデータ保護法規およびプライバシー規則を厳守し、データセットや保存とその活用のプロセスでユーザーのプライバシーと合法的権益の保護に尽力します。全データはGDPR、CCPA、PIPLに準拠しています。タガログ語音声データ_音読（スマートフォン）は、指定されたスクリプトに基づいて音読、録音をシミュレートしたもの。内容は会話·評論、インタラクティブ系、車載、ホームデバイスコマンド系と文字列等様々な分野を網羅し、豊富なコンテンツを有しました。本データセットはテキスト内容等、複数の属性をラベリングし、高い正確度を誇りながら、音声認識に関する研究とその応用に豊富なリソースを提供しています。複数のAI企業が検証したところ、本データセット現実世界の網羅性とバリデーションに面するモデルのパフォーマンス向上に貢献。当社はデータ保護法規およびプライバシー規則を厳守し、データセットや保存とその活用のプロセスでユーザーのプライバシーと合法的権益の保護に尽力します。全データはGDPR、CCPA、PIPLに準拠しています。

タガログ語フィリピンスマートフォン音読台本付きモノローグ

グジャラート語スマートフォン収集の音読音声データ

インドグジャラート語音声データ_音読（スマートフォン）は、指定されたスクリプトに基づいて音読、録音をシミュレートしたもの。内容は会話·評論、インタラクティブ系、車載、ホームデバイスコマンド系と文字列等様々な分野を網羅し、豊富なコンテンツを有しました。本データセットはテキスト内容等、複数の属性をラベリングし、高い正確度を誇りながら、音声認識に関する研究とその応用に豊富なリソースを提供しています。複数のAI企業が検証したところ、本データセット現実世界の網羅性とバリデーションに面するモデルのパフォーマンス向上に貢献。当社はデータ保護法規およびプライバシー規則を厳守し、データセットや保存とその活用のプロセスでユーザーのプライバシーと合法的権益の保護に尽力します。全データはGDPR、CCPA、PIPLに準拠しています。

グジャラート語インドスマートフォン音読台本付きモノローグ

341時間のマレー語スマートフォン採集朗読音声データ

マレーシア・マレー語音声データ_朗読(スマートフォン）は、指定されたスクリプトに基づいて朗読し、シミュレートして録音されたデータです。チャットコメント、インタラクティブ系、、車載コマンド系、ホームデバイスコマンド系、数字列など、複数の分野をカバーしており、内容が豊富です。このデータセットには、テキスト内容などのさまざまな属性がラベル付けされており、高い精度を誇ります。音声認識関連の研究やアプリケーションに豊富なリソースを提供し、多くのAI企業によって確認されています。モデルがリアルワールドの多様性に対応する際に優れたパフォーマンスを発揮するのに役立ちます。データ収集、保存、使用においては、プライバシー保護法や規制を厳守し、ユーザーのプライバシーと合法的な権利を確保しています。すべてのデータはGDPR、CCPA、PIPLなどの規制に準拠しています。

マレー語マレーシアスマートフォン朗読台本付きモノローグ

531時間分の走行シーン（車内）におけるノイズデータ（携帯電話+マイク）

マイク付きハンドセットによる車両ノイズデータの収集

車両ノイズデータの収集

車両のノイズ

車両ノイズデータ

プロジェクトの成熟度

よくあるご質問

531時間分の走行シーン（車内）におけるノイズデータ（携帯電話+マイク）

マイク付きハンドセットによる車両ノイズデータの収集 車両ノイズデータの収集 車両のノイズ 車両ノイズデータ

プロジェクトの成熟度

よくあるご質問

マイク付きハンドセットによる車両ノイズデータの収集

車両ノイズデータの収集

車両のノイズ

車両ノイズデータ