100時間日本語固有表現読み上げ音声データセット（数字・地名）

日本語固有表現

日本語音声データ

エンティティ音声読み上げ

NER 音声データ

スマートフォンで収録された日本語の読み上げ音声を約100時間収録したデータセットです。指定されたテキストを朗読した音声で構成され、人名、電話番号、住所、数値・英数字列、メールアドレス、製品型番、シリアル番号、金額など多様な固有表現（Named Entity）を豊富に含んでいます。すべての音声には書き起こしテキストが付与されており、音声認識（ASR）、固有表現認識（NER）、音声理解、音声検索、対話AIなどの研究・開発に適しています。実環境に近いスマートフォン収録により、現実的な音響条件を反映した学習データとして利用可能です。データはプライバシー保護および関連法規を遵守して収集・管理されており、GDPR、CCPA、PIPLに準拠しています。

このデータセットは、商用利用や研究目的などに役立つ有償のデータセットです。著作権ありの既製データセットは、AIプロジェクトの飛躍的なスタートに役立ちます。

おすすめデータセット

300時間タガログ語スマートフォン収録音読音声データ

タガログ語音声データ_音読（スマートフォン）は、指定されたスクリプトに基づいて音読、録音をシミュレートしたもの。内容は会話·評論、インタラクティブ系、車載、ホームデバイスコマンド系と文字列等様々な分野を網羅し、豊富なコンテンツを有しました。本データセットはテキスト内容等、複数の属性をラベリングし、高い正確度を誇りながら、音声認識に関する研究とその応用に豊富なリソースを提供しています。複数のAI企業が検証したところ、本データセット現実世界の網羅性とバリデーションに面するモデルのパフォーマンス向上に貢献。当社はデータ保護法規およびプライバシー規則を厳守し、データセットや保存とその活用のプロセスでユーザーのプライバシーと合法的権益の保護に尽力します。全データはGDPR、CCPA、PIPLに準拠しています。タガログ語音声データ_音読（スマートフォン）は、指定されたスクリプトに基づいて音読、録音をシミュレートしたもの。内容は会話·評論、インタラクティブ系、車載、ホームデバイスコマンド系と文字列等様々な分野を網羅し、豊富なコンテンツを有しました。本データセットはテキスト内容等、複数の属性をラベリングし、高い正確度を誇りながら、音声認識に関する研究とその応用に豊富なリソースを提供しています。複数のAI企業が検証したところ、本データセット現実世界の網羅性とバリデーションに面するモデルのパフォーマンス向上に貢献。当社はデータ保護法規およびプライバシー規則を厳守し、データセットや保存とその活用のプロセスでユーザーのプライバシーと合法的権益の保護に尽力します。全データはGDPR、CCPA、PIPLに準拠しています。

タガログ語フィリピンスマートフォン音読台本付きモノローグ

グジャラート語スマートフォン収集の音読音声データ

インドグジャラート語音声データ_音読（スマートフォン）は、指定されたスクリプトに基づいて音読、録音をシミュレートしたもの。内容は会話·評論、インタラクティブ系、車載、ホームデバイスコマンド系と文字列等様々な分野を網羅し、豊富なコンテンツを有しました。本データセットはテキスト内容等、複数の属性をラベリングし、高い正確度を誇りながら、音声認識に関する研究とその応用に豊富なリソースを提供しています。複数のAI企業が検証したところ、本データセット現実世界の網羅性とバリデーションに面するモデルのパフォーマンス向上に貢献。当社はデータ保護法規およびプライバシー規則を厳守し、データセットや保存とその活用のプロセスでユーザーのプライバシーと合法的権益の保護に尽力します。全データはGDPR、CCPA、PIPLに準拠しています。

グジャラート語インドスマートフォン音読台本付きモノローグ

341時間のマレー語スマートフォン採集朗読音声データ

マレーシア・マレー語音声データ_朗読(スマートフォン）は、指定されたスクリプトに基づいて朗読し、シミュレートして録音されたデータです。チャットコメント、インタラクティブ系、、車載コマンド系、ホームデバイスコマンド系、数字列など、複数の分野をカバーしており、内容が豊富です。このデータセットには、テキスト内容などのさまざまな属性がラベル付けされており、高い精度を誇ります。音声認識関連の研究やアプリケーションに豊富なリソースを提供し、多くのAI企業によって確認されています。モデルがリアルワールドの多様性に対応する際に優れたパフォーマンスを発揮するのに役立ちます。データ収集、保存、使用においては、プライバシー保護法や規制を厳守し、ユーザーのプライバシーと合法的な権利を確保しています。すべてのデータはGDPR、CCPA、PIPLなどの規制に準拠しています。

マレー語マレーシアスマートフォン朗読台本付きモノローグ

300時間のヨーロッパポルトガル語スマートフォン収集音声データ

ヨーロッパポルトガル語音読音声データ（スマートフォン）、指定されたスクリプトに基づいて音読をシミュレーション録音し、内容は豊富です。このデータセットはテキスト内容など多様な属性をアノテーションし、異なる地域や文化的背景を持つポルトガル現地人319名によって録音され、アクセントは正統で、テキストは人手で校正され、正解率が高く、音声認識関連の研究やアプリケーションに豊富なリソースを提供します。複数のAI企業による検証により、モデルが実世界の多様性に対応するのに役立つことが確認されています。データ保護法規とプライバシー規定を厳格に遵守し、データ収集、保存、使用の過程でユーザーのプライバシーと法的権利を保護します。すべてのデータはGDPR、CCPA、PIPLに準拠しています。

ポルトガル語

411時間の英語医療シナリオ音声データセット_音読

英語医療シナリオ音声データ_音読は、与えられた台本に基づいて音読し、医療シーンの対話をシミュレートしたものです。内容は、さまざまな一般的な疾患タイプをカバーし、複数の臨床症状、診断結果、治療方法などを含み、現実世界のインタラクションを反映しています。このデータセットには、テキスト内容、話者ID、性別など、さまざまな属性がアノテーションされています。複数のAI企業によって検証されており、モデルが現実世界の多様性に対して優れた性能を発揮するのに役立つことが確認されています。私たちは、データ保護法規とプライバシー規定を厳格に遵守し、データの収集、保存、使用の過程でユーザーのプライバシーと合法的権利を保護します。すべてのデータはGDPR、CCPA、PIPLに準拠して管理されています。

英語台本付き対話医療

1,300時間のトルコ語音声データ_音読（スマートフォン）

トルコ語音声データ_音読（スマートフォン）、指定されたスクリプトに基づいて音読をシミュレーション録音し、録音者は総計978名、録音者はトルコ出身、録音環境は静かでエコーなし。録音内容は広範で、各人約1,000文。テキストは人手で校正され、正解率が高く、音声認識関連の研究やアプリケーションに豊富なリソースを提供します。複数のAI企業による検証により、モデルが実世界の多様性に対応するのに役立つことが確認されています。データ保護法規とプライバシー規定を厳格に遵守し、データ収集、保存、使用の過程でユーザーのプライバシーと法的権利を保護します。すべてのデータはGDPR、CCPA、PIPLに準拠しています。

トルコトルコ語電話音声

268時間のデンマーク語音声データ_音読（スマートフォン）

デンマーク語音声データ_音読（スマートフォン）、指定されたスクリプトに基づいて音読をシミュレーション録音し、録音者は総計152名、録音者はデンマーク出身、録音環境は静かでエコーなし。録音内容は広範で、各人約1,000文。テキストは人手で校正され、正解率が高く、音声認識関連の研究やアプリケーションに豊富なリソースを提供します。複数のAI企業による検証により、モデルが実世界の多様性に対応するのに役立つことが確認されています。データ保護法規とプライバシー規定を厳格に遵守し、データ収集、保存、使用の過程でユーザーのプライバシーと法的権利を保護します。すべてのデータはGDPR、CCPA、PIPLに準拠しています。

デンマーク語音読電話

786時間のオランダ語音読音声データ（スマートフォン）

オランダ語音声データ_音読（スマートフォン）、指定されたスクリプトに基づいて音読をシミュレーション録音し、録音者は総計681名、録音者はオランダ出身、録音環境は静かでエコーなし。録音内容は広範で、各人約1,000文。テキストは人手で校正され、正解率が高く、音声認識関連の研究やアプリケーションに豊富なリソースを提供します。複数のAI企業による検証により、モデルが実世界の多様性に対応するのに役立つことが確認されています。データ保護法規とプライバシー規定を厳格に遵守し、データ収集、保存、使用の過程でユーザーのプライバシーと法的権利を保護します。すべてのデータはGDPR、CCPA、PIPLに準拠しています。

オランダ語音読 ASR オランダ語音声データオランダ語音声データセットオランダ語ASRデータ