より良いデータでAIを向上させましょう

人気のデータセット

すぐに使える最新のデータセットにアクセスし、ビジネスの成長を促進しましょう。

10万時間一人称視点Egocentric操作データセット

ロボット学習データセット購入をお探しの方へ。実世界で収集された10万時間規模の一人称視点（エゴセントリック）操作データセットをご紹介します。フィジカルAIやVLAモデルの学習に最適な教師データとして、研究開発から商用製品化まで幅広くご活用いただけます。近年、ロボット制御やマルチモーダルAIの実用化において、シミュレーションから実環境への移行（Sim-to-Real）が重要な課題となっています。特に視覚・言語・行動を統合するフィジカルAIモデルの開発では、人間の操作意図や環境構造、時間的連続性を記録した高品質なデータが不可欠です。しかし実際には、実世界データの収集コスト肥大化、アノテーション品質のばらつき、マルチモーダル同期の欠如、ライセンス不明確さといった課題が開発を阻んでいます。本データセットはこれらの課題を解決するため、時間同期されたステレオ動画、カメラキャリブレーションパラメータ、3Dシーン再構築点群データ、人体関節データ、ステップ別セマンティックアノテーションをワンパッケージで提供します。すべてのモダリティがフレーム単位で同期済みであり、前処理の手間なく学習パイプラインに投入可能です。厨房・工場・家庭など200以上の実環境シナリオを網羅し、ドメイン適応研究や実世界タスクの模倣学習に最適化されています。また専門家による構造化アノテーションにより、VLAモデルのChain-of-Thought学習やタスク分割にも直接活用可能です。商用利用可能なVLAデータセット、フィジカルAI学習データを探し中の開発者様のニーズに応え、ロボット制御・実世界認識・言語連携アルゴリズムの実用化を最短ルートで支援します。サンプルデータ無料提供・カスタム収集相談も承っておりますので、お気軽にお問い合わせください。

一人称視点データセット Ego-centric フィジカルAIデータセット VLAデータセット

日本国内対応自動運転マルチセンサーアノテーション学習データセット

自動運転開発の現場では、日本国内の複雑な交通環境や多様な気象条件を反映した高品質な自動運転教師データセットや、エンドツーエンド学習に対応したE2E自動運転データセットが圧倒的に不足しており、特に実環境に近い日本国内走行データセットの需要が急増しています。Nexdataが提供する日本国内対応自動運転マルチセンサーアノテーション学習データセットは、日本の都市部および沿岸道路を実車両で走行し、LiDAR点群・6視点同期RGBカメラ・RTK-GNSS/IMU・CANバス信号をミリ秒単位で同期収録したマルチモーダル・マルチセンサーアノテーションデータであり、高精度3D物体追跡ボックスや4D車線認識アノテーション、2D交通標識検出データを包括的に搭載しているため、環境認識モデルの学習効率向上や物体追跡アルゴリズムの精度検証、HDマップ構築支援、ADAS機能の実証実験などにご活用いただけます、自動車メーカー・ティア1サプライヤー・大学研究機関・自動運転スタートアップの皆様が抱える「実環境での汎化性能不足」や「学習データの地域バイアス」といった課題を解決し、開発期間の短縮とシステム信頼性の向上を同時に実現可能です。さらに、本データセットはお客様の具体的な開発要件や検証シナリオに合わせて、収録エリア・天候条件・アノテーション項目・データ形式などを柔軟にカスタマイズ可能なオーダーメイド対応も承っておりますので、独自性の高い自動運転システムや次世代モビリティサービスの開発をお考えのお客様にも、最適な学習データソリューションをご提供いたします。

自動運転教師データセット E2E自動運転データセット日本国内走行データセットマルチセンサーアノテーションデータ

200時間韓国語話者分離・自然会話音声データセット

本データは、フルデュプレックス（全二重）対話を前提に収録した高品質な韓国語音声データセットです。半二重方式では再現が難しい同時発話や重なり発話、自然な相槌や割込みを含み、双方向に同時進行する対話を再現した同時双方向音声データセットとして、リアルタイム対話AIや次世代ASRの研究開発に適しています。本セットは、提示されたトピックリストから収録者が複数の得意分野を選択し、自然な流れで会話を展開して収録した韓国語自然会話音声データセットです。約200名の韓国ネイティブスピーカーによる多様な対話を含み、高音質収録によりASRの音響・言語モデル学習、声紋識別、対話システム評価など幅広い研究用途に活用できます。データは各種プライバシー保護規制に準拠して管理されています。当社の全二重音声データセットシリーズは、日本語をはじめ、英語、韓国語など多言語に対応し、書き起こしテキスト、発話タイムスタンプ、話者ID、性別などの詳細アノテーションを標準搭載しています。また、話者ごとの独立音声を含む話者分離音声データセットとしても利用可能で、収録条件や話者属性、ラベル仕様のカスタマイズ収集・作成にも柔軟に対応します。

韓国語音声データセット韓国語自然会話音声データ韓国語話者分離音声データ韓国語音声認識データ

800万件QA日本語対話データセット

日本 Q&Aプラットフォームのテキスト解析・処理データ。質問、回答、カテゴリ、作成日時、ユーザーなどを含む。データは継続的に更新される。4月25日時点で質問数840万件、単語数23億語。回答2,700万件・76億語；感謝（質問者から回答者への謝意）1,550万件・17億語；補足説明210万件・3億6,000万語。本データセットはLLMトレーニングやRLHF学習などのタスクに活用可能。

日本語LLMデータ日本語テキストデータ日本語QAデータセット

1,000枚OCR向け日本語請求書データセット

本データセットは、日本語の請求書画像1,000枚を収録した高品質なOCR学習用データです。基礎編集データ500枚と専門編集データ500枚から構成され、請求書の内容、編集方式、フォーマットにおいて十分な多様性を確保し、実際の業務で使用される帳票に近い構成となっています。画像内に含まれる会社名、住所、氏名、電話番号、FAX番号などの個人・企業情報はすべて仮想データに置換された匿名加工済み情報であり、プライバシーに配慮しています。本データは、日本語請求書の検出、OCRによる文字認識、帳票構造解析、キー情報抽出、エンドツーエンド型Document AIシステムの開発など、幅広いAI研究開発用途に活用可能です。

日本語OCRデータ AI-OCR学習データ請求書OCR学習用データ日本語帳票データ

日本語固有表現読み上げ音声データセット（数字・地名）

スマートフォンで収録された日本語の読み上げ音声を約100時間収録したデータセットです。指定されたテキストを朗読した音声で構成され、人名、電話番号、住所、数値・英数字列、メールアドレス、製品型番、シリアル番号、金額など多様な固有表現（Named Entity）を豊富に含んでいます。すべての音声には書き起こしテキストが付与されており、音声認識（ASR）、固有表現認識（NER）、音声理解、音声検索、対話AIなどの研究・開発に適しています。実環境に近いスマートフォン収録により、現実的な音響条件を反映した学習データとして利用可能です。データはプライバシー保護および関連法規を遵守して収集・管理されており、GDPR、CCPA、PIPLに準拠しています。

日本語固有表現日本語音声データエンティティ音声読み上げ NER 音声データ

48kHz・579時間高音質・話者分離日本語自然会話音声データセット

本データは、フルデュプレックス（全二重）対話を前提に収録した高品質な日本語音声データセットです。半二重方式では再現が難しい同時発話や重なり発話、自然な相槌や割込みを含み、双方向に同時進行する対話を再現した同時双方向音声データセットとして、リアルタイム対話AIや次世代ASRの研究開発に適しています。本セットは、提示されたトピックリストから収録者が複数の得意分野を選択し、自然な流れで会話を展開して収録した日本語自然会話音声データセットです。日本各地のネイティブ話者による多様な対話を含み、高音質収録によりASRの音響・言語モデル学習、声紋識別、対話システム評価など幅広い研究用途に活用できます。データは各種プライバシー保護規制に準拠して管理されています。当社の全二重音声データセットシリーズは、日本語をはじめ、英語、韓国語など多言語に対応し、書き起こしテキスト、発話タイムスタンプ、話者ID、性別などの詳細アノテーションを標準搭載しています。また、話者ごとの独立音声を含む話者分離音声データセットとしても利用可能で、収録条件や話者属性、ラベル仕様のカスタマイズ収集・作成にも柔軟に対応します。

日本語音声データ話者分離音声データ全二重音声データセット同時双方向音声データセット日本語自然会話音声データ

205時間話者分離日本語自然会話音声データセット

本データは、フルデュプレックス（全二重）対話を前提に収録した高品質な日本語音声データセットです。有効時間205時間。半二重方式では再現が難しい同時発話や重なり発話、自然な相槌や割込みを含み、双方向に同時進行する対話を再現した同時双方向音声データセットとして、リアルタイム対話AIや次世代ASRの研究開発に適しています。そして、本セットは提示されたトピックリストから収録者が複数の得意分野を選択し、自然な流れで会話を展開して収録した日本語自然会話音声データセットです。日本各地のネイティブ話者による多様な対話を含み、高音質収録によりASRの音響・言語モデル学習、声紋識別、対話システム評価など幅広い研究用途に活用できます。データは各種プライバシー保護規制に準拠して管理されています。当社の全二重音声データセットシリーズは、日本語をはじめ、英語、韓国語など多言語に対応し、書き起こしテキスト、発話タイムスタンプ、話者ID、性別などの詳細アノテーションを標準搭載しています。また、話者ごとの独立音声を含む話者分離音声データセットとしても利用可能で、収録条件や話者属性、ラベル仕様のカスタマイズ収集・作成にも柔軟に対応します。

日本語音声データ話者分離音声データ全二重音声データセット同時双方向音声データセット日本語自然会話音声データ

96時間日本日本語子供音声データセット

日本語子供音声データ（12歳以下）は、日常会話、学校でのやり取り、ゲーム実況、動画配信、学習・講義、バラエティ風トークなど、子どもたちが実際に使う多様な口語シーンを収録しています。全国の異なる地域・文化的背景を持つ子どもたちが参加し、テキスト、話者ID、性別、アクセントなどの属性を正確にアノテーション。音声認識や対話システムの開発に活用可能な高品質データです。複数のAI開発チームが実証済みで、モデルが実際の子ども言葉に対応する上で効果を発揮しています。全データは保護者の同意を得て収集されており、研究・開発および商用利用が可能です。

日本語音声データ子供音声コーパス日本語音声認識日本語音声会話

5,147件日本語手書きOCRデータセット

日本語手書き文字の自動認識や文書デジタル化の開発では、日本人の自然な筆跡を反映した高精度な教師データの確保が課題です。弊社が提供する本データセットは、日本人548名から収集された5,147枚の手書き画像です。性別は男性244名・女性304名。年齢層は18〜45歳が中心（494名）。実用的な筆跡バリエーションを網羅します。収録環境はA4用紙・罫線入り用紙・方眼用紙など。スマートフォンで撮影。視線レベルのアングルで統一。データ形式は画像が.jpg、注釈が.json。収録コンテンツは多岐にわたります。作文・詩・散文・ニュース・物語など、実用的な日本語テキストを幅広くカバー。日常の手書き表現を自然に反映しています。アノテーションは高精度です。行レベルの四角形バウンディングボックス＋テキスト転写を付与。収集精度・文字転写精度ともに97%超を確保。学習用として最適な品質を実現。本データセットは、日本語手書き文字認識モデルの学習や、筆跡理解・文書デジタル化アルゴリズム開発に最適。日本人筆跡特化の日本語OCR教師データ、手書きノート自動変換、フォーム入力自動化、教育・出版分野のデジタルアーカイブなど、幅広い用途にご利用いただけます。さらに、お客様の開発要件に合わせてカスタマイズ対応も可能。収録コンテンツ・アノテーション粒度・データ形式などを柔軟に調整。独自性の高い日本語手書きOCRソリューション開発を、最適な学習データ基盤でサポートいたします。

日本語手書きOCRデータセット日本語手書き文字教師データ OCRデータセット日本語OCR教師データ

日本語・英語音声データ207時間_読み上げ（携帯電話）

日本語音声データ_読み上げ（携帯電話）は、所定のスクリプトに基づいて読み上げて録音し、汎用、インタラクティブ、車載、ホームなどの多様なカテゴリーをカバーし、内容が豊富です。このデータセットにはテキストの内容などのさまざまな属性が表示されており、さまざまな地域と文化背景から来た400人以上の日本人が録画に参加しており、アクセントは本格的で、テキストは手作業で校正されており、精度が高く、音声認識関連の研究と応用に豊富な資源を提供しており、複数のAI企業のバリデーションを経て、モデルが現実世界の多様性に直面する際に優れたパフォーマンスを発揮するのに役立つ。当社はデータ保護規制とプライバシー規制を厳格に遵守し、データ収集、保存、使用の過程でユーザーのプライバシーと合法的権益を保護することを保証し、すべてのデータはGDPR、CCPA、PIPLに従っています。

アクセント英語日本語日本語英語

513時間分の日本語音声データ_会話（電話）

本データは、800人以上の話者の参加を得て収録されたもので、実際の対話のシナリオに沿って、与えられたいくつかのテーマについて、幅広い分野で、自然で流暢な声で自由にコミュニケーションをとっています。手作業によるが文字おこしが行われており、精度は高いです。

日本語自然会話音声データ日本語自然会話音声日本語自然会話データ日本語会話音声データ

1,178時間のアメリカ英語音声データ（口語化）

1,178時間のアメリカ英語音声データ（口語化）は、ソーシャルメディア、対話、講演などの分野をカバーし、実際の世界でのインタラクションの状況を反映しています。このデータセットには、文字起こし、話者の識別、性別など、さまざまな属性があります。データは、異なる地域や文化的背景を持つアメリカ本土の人々によって録音され、正確性が高く、使いやすさも優れています。このデータは、音声認識に関する研究およびアプリケーションにおいて豊富なリソースを提供し、モデルが実世界の多様性に対応できる能力を向上させるのに役立ちます。私たちは、データ収集、保存、使用の過程でユーザーのプライバシーと法的権利を保護するため、データ保護規制とプライバシーの規定を厳守しており、すべてのデータはGDPR、CCPA、PIPLに準拠しています。

口語動画音声データ英語動画データテキストアノテーション英語口語動画音声データ英語口語動画音声データセット英語口語動画音声データベース英語口語動画音声コレクション

4484人の多種族-赤外線顔識別データ

4484人の多種族赤外線顔識別データ。このデータセットの収集シーンには、屋内シーンと屋外シーンが含まれる。データには男性と女性が含まれている。人種分布にはアジア人、黒人、コーカサス人、茶色人種が含まれる。年齢分布は子供から高齢者までさまざまで、若者と中年が多数を占めている。収集装置はDV-DH 4044 S 305 ADである。データの多様性には、複数の年齢層、複数の顔の姿勢、複数のシーンが含まれる。これらのデータは赤外線顔認識などのタスクに使用できます。私たちはデータ保護法規とプライバシー基準を厳格に遵守し、データ収集、保存、使用中にユーザーのプライバシーと合法的な権利を維持することを確保し、私たちのデータセットはすべてGDPR、CCPA、PIPLに合致しています。

多人種赤外線人の顔双眼カメラ多年齢層人顔の多姿勢複数のシーン

よくあるご質問

既製品データセットは無料サンプル入手可能ですか？

お客様のご要望に応じて、既製品データセットを提案しています。もちろん、データの詳細、サンプルなどご提供可能です。

既製データセットの安全対策はどうなっていますか？

全てのデータセットは弊社版権で取り扱っています。データの提供元からAIモデル・機械学習開発に使われる許可を得ています。お客様には安心してお使いいただけます。

日本語の方言音声データ収集は対応できますか？

はい。関西弁、九州弁、東北弁など、地域ごとのアクセントに対応した収集が可能です。

学術研究向けの無料データセットは提供していますか？

はい、提供しています。Nexdataでは、大学や研究機関など世界中の非営利組織を対象に、「AIデータ支援研究プログラム」を実施しています。このプログラムを通じて、コンピュータビジョンや音声認識など、さまざまな分野における高品質なトレーニングデータセットを無償で提供し、AI研究の発展をサポートしています。ご要望に応じて、既存の提供範囲外のデータセットについても、個別にご相談承ります。

より高品質なデータで

より高精度なAIを構築

人気のデータセット

10万時間一人称視点Egocentric操作データセット

日本国内対応自動運転マルチセンサーアノテーション学習データセット

200時間韓国語話者分離・自然会話音声データセット

800万件QA日本語対話データセット

1,000枚OCR向け日本語請求書データセット

日本語固有表現読み上げ音声データセット（数字・地名）

48kHz・579時間高音質・話者分離日本語自然会話音声データセット

205時間話者分離日本語自然会話音声データセット

96時間日本日本語子供音声データセット

5,147件日本語手書きOCRデータセット

日本語・英語音声データ207時間_読み上げ（携帯電話）

513時間分の日本語音声データ_会話（電話）

1,178時間のアメリカ英語音声データ（口語化）

4484人の多種族-赤外線顔識別データ

データサービス

プラットフォーム

生成AIデータサービス

ファインチューニング

人間のフィードバックによる強化学習

レッドチーミング

自動運転向けデータサービス

車室内データセット

LiDARデータアノテーション

Nexdataが選ばれる理由

高品質

高効率

コンプライアンス

セキュリティ

よくあるご質問

最新情報

より高品質なデータで より高精度なAIを構築

人気のデータセット

10万時間一人称視点Egocentric操作データセット

日本国内対応自動運転マルチセンサーアノテーション学習データセット

200時間韓国語話者分離・自然会話音声データセット

800万件QA日本語対話データセット

1,000枚OCR向け日本語請求書データセット

日本語固有表現読み上げ音声データセット（数字・地名）

48kHz・579時間高音質・話者分離日本語自然会話音声データセット

205時間話者分離日本語自然会話音声データセット

96時間日本日本語子供音声データセット

5,147件日本語手書きOCRデータセット

日本語・英語音声データ207時間_読み上げ（携帯電話）

513時間分の日本語音声データ_会話（電話）

1,178時間のアメリカ英語音声データ（口語化）

4484人の多種族-赤外線顔識別データ

データサービス

プラットフォーム

生成AIデータサービス

ファインチューニング

人間のフィードバックによる強化学習

レッドチーミング

自動運転向けデータサービス

車室内データセット

LiDARデータアノテーション

Nexdataが選ばれる理由

高品質

高効率

コンプライアンス

セキュリティ

よくあるご質問

最新情報

より高品質なデータで

より高精度なAIを構築