「Datatang株式会社」は現在「Nexdata」のブランドとして事業を展開しています。本サイトより最新のAIデータサービスとソリューションをご案内いたします。

jp

Please fill in your name

Mobile phone format error

Please enter the telephone

Please enter your company name

Please enter your company email

Please enter the data requirement

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

The data requirement cannot be less than 5 words and cannot be pure numbers

世界のAI大手企業、ベンチャー企業・スタートアップ、大学研究機関から信頼されます。

  • NVIDIA
  • Microsoft
  • Intel
  • APTIV
  • Qualcomm
  • SAMSUNG
  • BOSCH
  • General Motors
  • Tencent
  • AWS
  • Google
  • Cerence
  • Deepmotion
  • Meta

人気のデータセット

すぐに使える最新のデータセットにアクセスし、ビジネスの成長を促進しましょう。

10万時間一人称視点Egocentric操作データセット

ロボット学習データセット購入をお探しの方へ。実世界で収集された10万時間規模の一人称視点(エゴセントリック)操作データセットをご紹介します。フィジカルAIやVLAモデルの学習に最適な教師データとして、研究開発から商用製品化まで幅広くご活用いただけます。近年、ロボット制御やマルチモーダルAIの実用化において、シミュレーションから実環境への移行(Sim-to-Real)が重要な課題となっています。特に視覚・言語・行動を統合するフィジカルAIモデルの開発では、人間の操作意図や環境構造、時間的連続性を記録した高品質なデータが不可欠です。しかし実際には、実世界データの収集コスト肥大化、アノテーション品質のばらつき、マルチモーダル同期の欠如、ライセンス不明確さといった課題が開発を阻んでいます。本データセットはこれらの課題を解決するため、時間同期されたステレオ動画、カメラキャリブレーションパラメータ、3Dシーン再構築点群データ、人体関節データ、ステップ別セマンティックアノテーションをワンパッケージで提供します。すべてのモダリティがフレーム単位で同期済みであり、前処理の手間なく学習パイプラインに投入可能です。厨房・工場・家庭など200以上の実環境シナリオを網羅し、ドメイン適応研究や実世界タスクの模倣学習に最適化されています。また専門家による構造化アノテーションにより、VLAモデルのChain-of-Thought学習やタスク分割にも直接活用可能です。商用利用可能なVLAデータセット、フィジカルAI学習データを探し中の開発者様のニーズに応え、ロボット制御・実世界認識・言語連携アルゴリズムの実用化を最短ルートで支援します。サンプルデータ無料提供・カスタム収集相談も承っておりますので、お気軽にお問い合わせください。

一人称視点データセット Ego-centric フィジカルAIデータセット VLAデータセット

日本国内対応自動運転マルチセンサーアノテーション学習データセット

自動運転開発の現場では、日本国内の複雑な交通環境や多様な気象条件を反映した高品質な自動運転教師データセットや、エンドツーエンド学習に対応したE2E自動運転データセットが圧倒的に不足しており、特に実環境に近い日本国内走行データセットの需要が急増しています。Nexdataが提供する日本国内対応自動運転マルチセンサーアノテーション学習データセットは、日本の都市部および沿岸道路を実車両で走行し、LiDAR点群・6視点同期RGBカメラ・RTK-GNSS/IMU・CANバス信号をミリ秒単位で同期収録したマルチモーダル・マルチセンサーアノテーションデータであり、高精度3D物体追跡ボックスや4D車線認識アノテーション、2D交通標識検出データを包括的に搭載しているため、環境認識モデルの学習効率向上や物体追跡アルゴリズムの精度検証、HDマップ構築支援、ADAS機能の実証実験などにご活用いただけます、自動車メーカー・ティア1サプライヤー・大学研究機関・自動運転スタートアップの皆様が抱える「実環境での汎化性能不足」や「学習データの地域バイアス」といった課題を解決し、開発期間の短縮とシステム信頼性の向上を同時に実現可能です。さらに、本データセットはお客様の具体的な開発要件や検証シナリオに合わせて、収録エリア・天候条件・アノテーション項目・データ形式などを柔軟にカスタマイズ可能なオーダーメイド対応も承っておりますので、独自性の高い自動運転システムや次世代モビリティサービスの開発をお考えのお客様にも、最適な学習データソリューションをご提供いたします。

自動運転教師データセット E2E自動運転データセット 日本国内走行データセット マルチセンサーアノテーションデータ

200時間韓国語話者分離・自然会話音声データセット

本データは、フルデュプレックス(全二重)対話を前提に収録した高品質な韓国語音声データセットです。半二重方式では再現が難しい同時発話や重なり発話、自然な相槌や割込みを含み、双方向に同時進行する対話を再現した同時双方向音声データセットとして、リアルタイム対話AIや次世代ASRの研究開発に適しています。本セットは、提示されたトピックリストから収録者が複数の得意分野を選択し、自然な流れで会話を展開して収録した韓国語自然会話音声データセットです。約200名の韓国ネイティブスピーカーによる多様な対話を含み、高音質収録によりASRの音響・言語モデル学習、声紋識別、対話システム評価など幅広い研究用途に活用できます。データは各種プライバシー保護規制に準拠して管理されています。当社の全二重音声データセットシリーズは、日本語をはじめ、英語、韓国語など多言語に対応し、書き起こしテキスト、発話タイムスタンプ、話者ID、性別などの詳細アノテーションを標準搭載しています。また、話者ごとの独立音声を含む話者分離音声データセットとしても利用可能で、収録条件や話者属性、ラベル仕様のカスタマイズ収集・作成にも柔軟に対応します。

韓国語音声データセット 韓国語自然会話音声データ 韓国語話者分離音声データ 韓国語音声認識データ

48kHz・579時間高音質・話者分離日本語自然会話音声データセット

本データは、フルデュプレックス(全二重)対話を前提に収録した高品質な日本語音声データセットです。半二重方式では再現が難しい同時発話や重なり発話、自然な相槌や割込みを含み、双方向に同時進行する対話を再現した同時双方向音声データセットとして、リアルタイム対話AIや次世代ASRの研究開発に適しています。本セットは、提示されたトピックリストから収録者が複数の得意分野を選択し、自然な流れで会話を展開して収録した日本語自然会話音声データセットです。日本各地のネイティブ話者による多様な対話を含み、高音質収録によりASRの音響・言語モデル学習、声紋識別、対話システム評価など幅広い研究用途に活用できます。データは各種プライバシー保護規制に準拠して管理されています。当社の全二重音声データセットシリーズは、日本語をはじめ、英語、韓国語など多言語に対応し、書き起こしテキスト、発話タイムスタンプ、話者ID、性別などの詳細アノテーションを標準搭載しています。また、話者ごとの独立音声を含む話者分離音声データセットとしても利用可能で、収録条件や話者属性、ラベル仕様のカスタマイズ収集・作成にも柔軟に対応します。

日本語音声データ 話者分離音声データ 全二重音声データセット 同時双方向音声データセット 日本語自然会話音声データ

205時間話者分離日本語自然会話音声データセット

本データは、フルデュプレックス(全二重)対話を前提に収録した高品質な日本語音声データセットです。有効時間205時間。半二重方式では再現が難しい同時発話や重なり発話、自然な相槌や割込みを含み、双方向に同時進行する対話を再現した同時双方向音声データセットとして、リアルタイム対話AIや次世代ASRの研究開発に適しています。そして、本セットは提示されたトピックリストから収録者が複数の得意分野を選択し、自然な流れで会話を展開して収録した日本語自然会話音声データセットです。日本各地のネイティブ話者による多様な対話を含み、高音質収録によりASRの音響・言語モデル学習、声紋識別、対話システム評価など幅広い研究用途に活用できます。データは各種プライバシー保護規制に準拠して管理されています。 当社の全二重音声データセットシリーズは、日本語をはじめ、英語、韓国語など多言語に対応し、書き起こしテキスト、発話タイムスタンプ、話者ID、性別などの詳細アノテーションを標準搭載しています。また、話者ごとの独立音声を含む話者分離音声データセットとしても利用可能で、収録条件や話者属性、ラベル仕様のカスタマイズ収集・作成にも柔軟に対応します。

日本語音声データ 話者分離音声データ 全二重音声データセット 同時双方向音声データセット 日本語自然会話音声データ

5,147件日本語手書きOCRデータセット

日本語手書き文字の自動認識や文書デジタル化の開発では、日本人の自然な筆跡を反映した高精度な教師データの確保が課題です。弊社が提供する本データセットは、日本人548名から収集された5,147枚の手書き画像です。性別は男性244名・女性304名。年齢層は18〜45歳が中心(494名)。実用的な筆跡バリエーションを網羅します。収録環境はA4用紙・罫線入り用紙・方眼用紙など。スマートフォンで撮影。視線レベルのアングルで統一。データ形式は画像が.jpg、注釈が.json。収録コンテンツは多岐にわたります。作文・詩・散文・ニュース・物語など、実用的な日本語テキストを幅広くカバー。日常の手書き表現を自然に反映しています。アノテーションは高精度です。行レベルの四角形バウンディングボックス+テキスト転写を付与。収集精度・文字転写精度ともに97%超を確保。学習用として最適な品質を実現。本データセットは、日本語手書き文字認識モデルの学習や、筆跡理解・文書デジタル化アルゴリズム開発に最適。日本人筆跡特化の日本語OCR教師データ、手書きノート自動変換、フォーム入力自動化、教育・出版分野のデジタルアーカイブなど、幅広い用途にご利用いただけます。さらに、お客様の開発要件に合わせてカスタマイズ対応も可能。収録コンテンツ・アノテーション粒度・データ形式などを柔軟に調整。独自性の高い日本語手書きOCRソリューション開発を、最適な学習データ基盤でサポートいたします。

日本語手書きOCRデータセット 日本語手書き文字教師データ OCRデータセット 日本語OCR教師データ
テキストデータサービス 動画データサービス 画像データサービス 音声データサービス

データサービス

Nexdataはグローバルなデータ処理工場とプロのアノテーターを20,000人以上整備しており、音声、画像、ビデオ、点群、テキストなどのオンデマンドデータアノテーションサービスをサポートしています。

プラットフォーム

独自のヒューマン・マシン・インタラクティブ半自動アノテーションプラットフォームは、より競争力のあるAI製品を構築するお手伝いをします。

3D点群アノテーションツール

3D 点群アノテーションツール

音声アノテーションツール

音声アノテーションツール

リモートセンシングアノテーションツール

リモートセンシング向けたツール

動画アノテーションツール

動画アノテーションツール

2D画像アノテーションツール

2D画像アノテーションツール

テキストアノテーションツール

テキストアノテーションツール

Nexdata アノテーションプラットフォーム Nexdata アノテーションプラットフォーム

生成AIデータサービス

当社のデータサービスは、生成AI開発の各段階におけるお客様のAIイニシアチブの成長を加速。

ファインチューニング

ヒントとアウトプットのアノテーションにより、モデル最適化のための高品質な教師ありファインチューニングデータを作成します。

人間のフィードバックによる強化学習

SFTで学習されたモデルによって生成された複数のアウトプットを、お客様が提供したルールに従って手動でランク付けしたり、多要素スコアリングをします。

レッドチーミング

悪意のある質問や有害な可能性のある質問など敵対的な攻撃を想定し、モデルの訓練と検証を行います。

ファインチューニング
自動運転向けデータサービス

Nexdataは車内センシングから車外知覚までカバーするデータを提供し、自動運転ソリューションのあらゆるニーズにお応えします。

車室内感知データセット

車室内データセット

Nexdataは1000を超える既製データセットを保有しており、すぐに納品可能です。また、頭のポーズ、視線、表情認識、ジェスチャー検出など、車内アプリケーションのためのデータカスタマイズサービスも提供しています。

LiDARデータアノテーション

3D点群データアノテーション、データ収集、プライベート導入可能なアノテーションプラットフォームなどADAS/AV向けにカスタマイズデータソリューションを提供します。

Nexdataが選ばれる理由
高品質

高品質

マルチレベル品質検査、ISO9001品質管理認証により、高品質のデータを納品します。

高効率

高効率

ヒューマンマシンインタラクションと半自動アノテーションをサポートし、一人あたりアノテーション効率を30%以上向上させます。

コンプライアンス

コンプライアンス

当社はGDPRおよびCCPAの規制に準拠しており、当社と共有されるすべてのデータを保護します。

セキュリティ

セキュリティ

データ収集、カスタマイズサービス、データプラットフォームをカバーする包括的なセキュリティ・パイプラインにより、データ・セキュリティを徹底します。

よくあるご質問

既製品データセットは無料サンプル入手可能ですか?

お客様のご要望に応じて、既製品データセットを提案しています。もちろん、データの詳細、サンプルなどご提供可能です。

既製データセットの安全対策はどうなっていますか?

全てのデータセットは弊社版権で取り扱っています。データの提供元からAIモデル・機械学習開発に使われる許可を得ています。お客様には安心してお使いいただけます。

日本語の方言音声データ収集は対応できますか?

はい。関西弁、九州弁、東北弁など、地域ごとのアクセントに対応した収集が可能です。

学術研究向けの無料データセットは提供していますか?

はい、提供しています。Nexdataでは、大学や研究機関など世界中の非営利組織を対象に、「AIデータ支援研究プログラム」を実施しています。このプログラムを通じて、コンピュータビジョンや音声認識など、さまざまな分野における高品質なトレーニングデータセットを無償で提供し、AI研究の発展をサポートしています。ご要望に応じて、既存の提供範囲外のデータセットについても、個別にご相談承ります。

最新情報

d2b12c46-df80-4116-8976-79fc92b26a5c