「Datatang株式会社」は現在「Nexdata」のブランドとして事業を展開しています。本サイトより最新のAIデータサービスとソリューションをご案内いたします。

jp

Please fill in your name

Mobile phone format error

Please enter the telephone

Please enter your company name

Please enter your company email

Please enter the data requirement

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

The data requirement cannot be less than 5 words and cannot be pure numbers

高品質な既製データ

高品質な既製データセットにより、AIモデルのパフォーマンスがすぐに向上します。

言語

全て

データタイプ

全て

10万時間一人称視点操作データセット

ロボット学習データセット購入をお探しの方へ。実世界で収集された10万時間規模の一人称視点(エゴセントリック)操作データセットをご紹介します。フィジカルAIやVLAモデルの学習に最適な教師データとして、研究開発から商用製品化まで幅広くご活用いただけます。近年、ロボット制御やマルチモーダルAIの実用化において、シミュレーションから実環境への移行(Sim-to-Real)が重要な課題となっています。特に視覚・言語・行動を統合するフィジカルAIモデルの開発では、人間の操作意図や環境構造、時間的連続性を記録した高品質なデータが不可欠です。しかし実際には、実世界データの収集コスト肥大化、アノテーション品質のばらつき、マルチモーダル同期の欠如、ライセンス不明確さといった課題が開発を阻んでいます。本データセットはこれらの課題を解決するため、時間同期されたステレオ動画、カメラキャリブレーションパラメータ、3Dシーン再構築点群データ、人体関節データ、ステップ別セマンティックアノテーションをワンパッケージで提供します。すべてのモダリティがフレーム単位で同期済みであり、前処理の手間なく学習パイプラインに投入可能です。厨房・工場・家庭など200以上の実環境シナリオを網羅し、ドメイン適応研究や実世界タスクの模倣学習に最適化されています。また専門家による構造化アノテーションにより、VLAモデルのChain-of-Thought学習やタスク分割にも直接活用可能です。商用利用可能なVLAデータセット、フィジカルAI学習データを探し中の開発者様のニーズに応え、ロボット制御・実世界認識・言語連携アルゴリズムの実用化を最短ルートで支援します。サンプルデータ無料提供・カスタム収集相談も承っておりますので、お気軽にお問い合わせください。
一人称視点データセット Ego-centric フィジカルAIデータセット VLAデータセット

48kHz・579時間高音質・話者分離日本語自然会話音声データセット

本データは、フルデュプレックス(全二重)対話を前提に収録した高品質な日本語音声データセットです。半二重方式では再現が難しい同時発話や重なり発話、自然な相槌や割込みを含み、双方向に同時進行する対話を再現した同時双方向音声データセットとして、リアルタイム対話AIや次世代ASRの研究開発に適しています。本セットは、提示されたトピックリストから収録者が複数の得意分野を選択し、自然な流れで会話を展開して収録した日本語自然会話音声データセットです。日本各地のネイティブ話者による多様な対話を含み、高音質収録によりASRの音響・言語モデル学習、声紋識別、対話システム評価など幅広い研究用途に活用できます。データは各種プライバシー保護規制に準拠して管理されています。当社の全二重音声データセットシリーズは、日本語をはじめ、英語、韓国語など多言語に対応し、書き起こしテキスト、発話タイムスタンプ、話者ID、性別などの詳細アノテーションを標準搭載しています。また、話者ごとの独立音声を含む話者分離音声データセットとしても利用可能で、収録条件や話者属性、ラベル仕様のカスタマイズ収集・作成にも柔軟に対応します。
日本語音声データ 話者分離音声データ 全二重音声データセット 同時双方向音声データセット 日本語自然会話音声データ

日本語固有表現読み上げ音声データセット(数字・地名)

スマートフォンで収録された日本語の読み上げ音声を約100時間収録したデータセットです。指定されたテキストを朗読した音声で構成され、人名、電話番号、住所、数値・英数字列、メールアドレス、製品型番、シリアル番号、金額など多様な固有表現(Named Entity)を豊富に含んでいます。すべての音声には書き起こしテキストが付与されており、音声認識(ASR)、固有表現認識(NER)、音声理解、音声検索、対話AIなどの研究・開発に適しています。実環境に近いスマートフォン収録により、現実的な音響条件を反映した学習データとして利用可能です。データはプライバシー保護および関連法規を遵守して収集・管理されており、GDPR、CCPA、PIPLに準拠しています。
日本語固有表現 日本語音声データ エンティティ音声読み上げ NER 音声データ

10時間ペルースペイン語音声合成データセット

本製品は、音声合成(TTS)、音声認識(ASR)、および機械学習モデルの開発用に設計された、高品質なペルースペイン語音声合成データセットです。合計10時間の音声を含み、ペルーのネイティブ話者によって録音されて、深層学習や生成 AI の研究開発ニーズに精准にマッチします。商用利用可能な学習データとして、仮想アシスタントやナビゲーションシステムなど幅広い用途に対応しています。 技術仕様としては、サンプリングレート48kHz、24-bit、WAV 形式の高音質オーディオを提供し、音素バランス(Phonetically Balanced) が均等にカバーされているため頑健なモデル訓練を保証します。専門の言語学者により精度高くアノテーションされており、時間軸付きトランスクリプト(JSON, TextGrid, CSV 形式)が付属。句読点と文の境界も明確化されており、音声 AI のファインチューニングや本番環境でのデプロイに必要な基礎品質を備えています。 権利関係とコンプライアンス面では、商用利用および研究利用における著作権はクリア済みで、話者が使用契約書に署名済みです。GDPR および CCPA 準拠であり、個人識別情報も適切に管理されています。即時ダウンロード可能で、スタートアップ様から大企業様まで柔軟に提供可能です。音声データ収集のカスタム要件や見積もりのご希望も、お気軽にお問い合わせください。
スペイン語音声合成データセット スペイン語音声データセット ペルースペイン語音声合成データセット

21言語・50万枚 多言語OCR データセット(自然画像・文書画像・スクリーン)

本データセットは、21言語に対応した合計約50万枚のOCR用画像データを収録しています。各言語ごとに約2万〜2.5万枚の画像を含み、自然シーン画像、文書撮影画像、電子画面画像(スクリーン表示)など多様なデータタイプで構成されています。撮影角度、背景、レイアウト、文字種の違いなど、実環境に近い多様性を備えています。アノテーションは行(列)単位での四辺形または多角形による領域ラベリングと内容転写(トランスクリプション)を実施しており、テキスト検出・文字認識・多言語OCRモデルの学習および評価に適しています。
ocrデータセット 日本語ocrデータ OCR画像データ OCR学習データ

1,000枚OCR向け日本語請求書データセット

本データセットは、日本語の請求書画像1,000枚を収録した高品質なOCR学習用データです。基礎編集データ500枚と専門編集データ500枚から構成され、請求書の内容、編集方式、フォーマットにおいて十分な多様性を確保し、実際の業務で使用される帳票に近い構成となっています。画像内に含まれる会社名、住所、氏名、電話番号、FAX番号などの個人・企業情報はすべて仮想データに置換された匿名加工済み情報であり、プライバシーに配慮しています。本データは、日本語請求書の検出、OCRによる文字認識、帳票構造解析、キー情報抽出、エンドツーエンド型Document AIシステムの開発など、幅広いAI研究開発用途に活用可能です。
日本語OCRデータ AI-OCR学習データ 請求書OCR学習用データ 日本語帳票データ

800万件QA日本語対話データセット

日本 Q&Aプラットフォームのテキスト解析・処理データ。質問、回答、カテゴリ、作成日時、ユーザーなどを含む。データは継続的に更新される。4月25日時点で質問数840万件、単語数23億語。回答2,700万件・76億語;感謝(質問者から回答者への謝意)1,550万件・17億語;補足説明210万件・3億6,000万語。本データセットはLLMトレーニングやRLHF学習などのタスクに活用可能。
日本語LLMデータ 日本語テキストデータ 日本語QAデータセット

グジャラート語の脚本に基づいた会話音声データ

グジャラート語の脚本に基づいた会話音声データは、与えられた脚本に基づいて会話をシミュレーションし、録音したもので、複数の分野をカバーし、内容が豊富である。このデータセットには、テキスト内容などの多様な属性がラベリングされており、高い正確性を備えており、音声認識に関する研究や応用に豊富なリソースを提供している。複数のAI企業による検証結果、このデータはモデルが現実世界の多様性に直面した際に優れたパフォーマンスを発揮するのに役立つ。当社はデータ保護法規やプライバシーに関する規定を厳格に遵守し、データの収集、保存、利用の過程でユーザーのプライバシーと合法的な権益を守り、すべてのデータはGDPR、CCPA、PIPLに準拠している。
グジャラート語 インド 会話音声

423時間フィリピン英語話者分離・自然会話音声データセット

本データは、フルデュプレックス(全二重)対話を前提に収録した高品質なフィリピン英語音声データセットです。半二重方式では再現が難しい同時発話や重なり発話、自然な相槌や割込みを含み、双方向に同時進行する対話を再現した同時双方向音声データセットとして、リアルタイム対話AIや次世代ASRの研究開発に適しています。本セットは、提示されたトピックリストから収録者が複数の得意分野を選択し、自然な流れで会話を展開して収録したフィリピン英語自然会話音声データセットです。約800名のフィリピン現地ネイティブスピーカーによる多様な対話を含み、高音質収録によりASRの音響・言語モデル学習、声紋識別、対話システム評価など幅広い研究用途に活用できます。データは各種プライバシー保護規制に準拠して管理されています。当社の全二重音声データセットシリーズは、日本語をはじめ、英語、韓国語など多言語に対応し、書き起こしテキスト、発話タイムスタンプ、話者ID、性別などの詳細アノテーションを標準搭載しています。また、話者ごとの独立音声を含む話者分離音声データセットとしても利用可能で、収録条件や話者属性、ラベル仕様のカスタマイズ収集・作成にも柔軟に対応します。
英語自然会話音声データセット フィリピン英語音声データ フィリピン英語話者分離音声データ

172時間話者分離アメリカ英語自然会話音声データセット

本データは、フルデュプレックス(全二重)対話を前提にスマートフォンで収録した高品質な英語(米国)の音声データセットです。半二重方式では再現が難しい同時発話や重なり発話、自然な相槌や割込みを含み、双方向に同時進行する対話を再現した同時双方向音声データセットとして、リアルタイム対話AIや次世代ASRの研究開発に適しています。本セットは、提示されたトピックリストから収録者が複数の得意分野を選択し、自然な流れで会話を展開して収録した英語(米国)の自然会話音声データセットです。米国内の多様な地域・文化背景を持つネイティブ話者による対話を含み、スマートフォン収録による実使用環境に近い音声として、ASRの音響・言語モデル学習、声紋識別、対話システム評価など幅広い研究用途に活用できます。データは各種プライバシー保護規制に準拠して管理されています。当社の全双工音声シリーズは、多言語に対応した全二重音声データセットとして提供され、書き起こしテキスト、発話タイムスタンプ、話者ID、性別などの詳細アノテーションを標準搭載しています。また、話者ごとの独立音声を含む話者分離音声データセットとしても利用可能で、収録条件や話者属性、ラベル仕様のカスタマイズにも柔軟に対応します。
英語音声データセット アメリカ英語音声会話データ 話者分離音声データセット 全二重音声データセット

200時間韓国語話者分離・自然会話音声データセット

本データは、フルデュプレックス(全二重)対話を前提に収録した高品質な韓国語音声データセットです。半二重方式では再現が難しい同時発話や重なり発話、自然な相槌や割込みを含み、双方向に同時進行する対話を再現した同時双方向音声データセットとして、リアルタイム対話AIや次世代ASRの研究開発に適しています。本セットは、提示されたトピックリストから収録者が複数の得意分野を選択し、自然な流れで会話を展開して収録した韓国語自然会話音声データセットです。約200名の韓国ネイティブスピーカーによる多様な対話を含み、高音質収録によりASRの音響・言語モデル学習、声紋識別、対話システム評価など幅広い研究用途に活用できます。データは各種プライバシー保護規制に準拠して管理されています。当社の全二重音声データセットシリーズは、日本語をはじめ、英語、韓国語など多言語に対応し、書き起こしテキスト、発話タイムスタンプ、話者ID、性別などの詳細アノテーションを標準搭載しています。また、話者ごとの独立音声を含む話者分離音声データセットとしても利用可能で、収録条件や話者属性、ラベル仕様のカスタマイズ収集・作成にも柔軟に対応します。
韓国語音声データセット 韓国語自然会話音声データ 韓国語話者分離音声データ 韓国語音声認識データ

205時間話者分離日本語自然会話音声データセット

本データは、フルデュプレックス(全二重)対話を前提に収録した高品質な日本語音声データセットです。有効時間205時間。半二重方式では再現が難しい同時発話や重なり発話、自然な相槌や割込みを含み、双方向に同時進行する対話を再現した同時双方向音声データセットとして、リアルタイム対話AIや次世代ASRの研究開発に適しています。そして、本セットは提示されたトピックリストから収録者が複数の得意分野を選択し、自然な流れで会話を展開して収録した日本語自然会話音声データセットです。日本各地のネイティブ話者による多様な対話を含み、高音質収録によりASRの音響・言語モデル学習、声紋識別、対話システム評価など幅広い研究用途に活用できます。データは各種プライバシー保護規制に準拠して管理されています。 当社の全二重音声データセットシリーズは、日本語をはじめ、英語、韓国語など多言語に対応し、書き起こしテキスト、発話タイムスタンプ、話者ID、性別などの詳細アノテーションを標準搭載しています。また、話者ごとの独立音声を含む話者分離音声データセットとしても利用可能で、収録条件や話者属性、ラベル仕様のカスタマイズ収集・作成にも柔軟に対応します。
日本語音声データ 話者分離音声データ 全二重音声データセット 同時双方向音声データセット 日本語自然会話音声データ
. . .
loading

loading

03e9cae9-c208-49e0-a1d6-23eee7dc8ea6