「Datatang株式会社」は現在「Nexdata」のブランドとして事業を展開しています。本サイトより最新のAIデータサービスとソリューションをご案内いたします。

jp

Please fill in your name

Mobile phone format error

Please enter the telephone

Please enter your company name

Please enter your company email

Please enter the data requirement

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

The data requirement cannot be less than 5 words and cannot be pure numbers

100時間日本語固有表現読み上げ音声データセット(数字・地名)

日本語固有表現
日本語音声データ
エンティティ音声読み上げ
NER 音声データ

スマートフォンで収録された日本語の読み上げ音声を約100時間収録したデータセットです。指定されたテキストを朗読した音声で構成され、人名、電話番号、住所、数値・英数字列、メールアドレス、製品型番、シリアル番号、金額など多様な固有表現(Named Entity)を豊富に含んでいます。すべての音声には書き起こしテキストが付与されており、音声認識(ASR)、固有表現認識(NER)、音声理解、音声検索、対話AIなどの研究・開発に適しています。実環境に近いスマートフォン収録により、現実的な音響条件を反映した学習データとして利用可能です。データはプライバシー保護および関連法規を遵守して収集・管理されており、GDPR、CCPA、PIPLに準拠しています。

有料データセット
このデータセットは、商用利用や研究目的などに役立つ有償のデータセットです。著作権ありの既製データセットは、AIプロジェクトの飛躍的なスタートに役立ちます。
仕様データ仕様
フォーマット
16kHz/16bit/WAV/モノラル
収録環境
比較的静かな室内環境(認識に支障のない環境ノイズを含む)
内容
指定されたテキストを朗読して収録。各発話には少なくとも1種類の指定固有表現(人名、電話番号、住所、英数字列、メールアドレス、製品型番、シリアル番号、金額)を含む
収録国
日本
言語地域コード
ja-JP
言語
日本語
文字正解率
98% ※句読点、タグおよび非音声情報に関するラベルは主観性を伴うため、統計には含まれていません
収録機材
スマートフォン(Android端末、iOS端末)
サンプル サンプル
おすすめデータセットおすすめデータセット
300時間タガログ語スマートフォン収録音読音声データ

タガログ語音声データ_音読(スマートフォン)は、指定されたスクリプトに基づいて音読、録音をシミュレートしたもの。内容は会話·評論、インタラクティブ系、車載、ホームデバイスコマンド系と文字列等様々な分野を網羅し、豊富なコンテンツを有しました。本データセットはテキスト内容等、複数の属性をラベリングし、高い正確度を誇りながら、音声認識に関する研究とその応用に豊富なリソースを提供しています。複数のAI企業が検証したところ、本データセット現実世界の網羅性とバリデーションに面するモデルのパフォーマンス向上に貢献。当社はデータ保護法規およびプライバシー規則を厳守し、データセットや保存とその活用のプロセスでユーザーのプライバシーと合法的権益の保護に尽力します。全データはGDPR、CCPA、PIPLに準拠しています。 タガログ語音声データ_音読(スマートフォン)は、指定されたスクリプトに基づいて音読、録音をシミュレートしたもの。内容は会話·評論、インタラクティブ系、車載、ホームデバイスコマンド系と文字列等様々な分野を網羅し、豊富なコンテンツを有しました。本データセットはテキスト内容等、複数の属性をラベリングし、高い正確度を誇りながら、音声認識に関する研究とその応用に豊富なリソースを提供しています。複数のAI企業が検証したところ、本データセット現実世界の網羅性とバリデーションに面するモデルのパフォーマンス向上に貢献。当社はデータ保護法規およびプライバシー規則を厳守し、データセットや保存とその活用のプロセスでユーザーのプライバシーと合法的権益の保護に尽力します。全データはGDPR、CCPA、PIPLに準拠しています。

タガログ語 フィリピン スマートフォン 音読 台本付きモノローグ
ご要望をご相談ください

プロジェクトの成熟度

初期検討段階(具体的な仕様は未定)
目標は明確だが、専門的な支援が必要
開発中または最適化フェーズ
データ/アノテーションの専門チーム(明確な仕様あり)

プライバシー保護 に同意する

よくあるご質問

日本語の音声認識データにはどのようなバリエーションがありますか?

子どもの日常会話、モノローグ、講義、バラエティなど幅広いジャンルを含むリアルな対話音声が収録されており、話者 ID、性別、年齢、アクセントなどもアノテーションされています。

データの多様性は実際のユースケースに役立ちますか?

はい、リアルな対話と幅広い話者属性を収録しており、日本のさまざまな環境での音声認識モデルに対応可能です。

納品までのスピードはどの程度ですか?

既製データセットは最短1日で納品可能で、カスタム収集・アノテーションも迅速対応可能です。

f1777d1c-a5c7-4f77-a9f8-5ada5143ece1

f55e87cc-c229-4be3-9b86-f8e5fee87211