「Datatang株式会社」は現在「Nexdata」のブランドとして事業を展開しています。本サイトより最新のAIデータサービスとソリューションをご案内いたします。

jp

Please fill in your name

Mobile phone format error

Please enter the telephone

Please enter your company name

Please enter your company email

Please enter the data requirement

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

The data requirement cannot be less than 5 words and cannot be pure numbers

m.nexdata.datatang.com

2025年世界 AI大手厳選した教師データセット一覧

発信者:Nexdata 日時: 11/20/2025

生成AIの高度化に伴い、「教師データ」の品質がモデル性能を決定づける時代へと移行しております。Nexdataは、2025年も世界各国のAI大手企業へ幅広いデータセットをご提供し、多くのプロジェクトでご採用いただきました。

本記事では、その中でも特に需要の高かったLLM・OCR・音声・顔/デジタルヒューマン領域の主要データセットを分野別にご紹介いたします。

すべてのデータは法的コンプライアンスを遵守し、安全かつ精緻に構築されております。AI開発の品質とスピード向上に、ぜひお役立てください。

大規模言語モデル(LLM)向けデータセット

① 1,044万道英文試験問題データ(英米教育体系、LaTeX整形済)
本データセットは、英米の教育体系に基づく 1,044万道の大規模な英文試験問題で構成されております。すべての問題文・選択肢・解答は LaTeX形式で正規化済みのため、構造化処理や数式解析が容易です。数学・物理・化学・統計など幅広い科目を網羅しており、高度推論モデルの事前学習やRAGの強化に非常に有効 です。多様な難易度が含まれているため、推論安定性を高めたい企業様から高い評価をいただいております。

② 3,200万道理工科試験問題データ(小中高大対応)
本データセットは、小学生から大学レベルまでの理工科目を対象とした 3,200万道の問題データを収録しております。すべて構造化済みで、問題文、選択肢、解説要素の整合性が厳密に管理されています。理論理解から応用計算まで幅広い分布があり、推論モデルの高難度タスク耐性を向上させる用途に最適です。教育AI企業のほか、推論エンジンを扱う企業様にも多くご採用いただいております。

③ 20万2千組PPT画像説明・QA多モーダルデータ
本データセットは、PPT資料の図表・チャート・アーキテクチャ図などを対象とした 20万2千組の多モーダルデータです。各データは「画像・説明文・QA」で構成され、ビジュアル資料の理解・要約・構造抽出モデルの学習に最適 です。業務文書に近い構造を備えており、企業向け知識管理AIやコンサル系AIの強化用途で活用いただいております。複雑な図表を含むため、モデルの視覚的推論能力の底上げに寄与します。

④ 20万組多モーダルGUIエージェントデータ(スマホ/PC/タブレット)
本データセットは、端末操作ログを多モーダルで収録した 20万組のGUIエージェント訓練データ です。タップ・ドラッグ・入力・スクロールなど、連続操作の軌跡を詳細に記録しております。エージェント型モデルやRPA自動化AIの訓練に活用されており、実端末に近い操作理解能力の実装を可能 にします。アプリ、ウェブ、設定画面など多様なUIが含まれていることで、汎用性の高いエージェント開発を支援いたします。

⑤ 5万組 画像編集タスクデータ(編集前→指示文→編集後)
人物・商品・風景など、幅広いカテゴリを対象とする5万組の画像編集データを収録しております。編集前画像に対し、明確な編集指示文と編集後画像がセットになっており、生成AIの編集能力向上に最適です。削除・置換・修復・構図変更など多様な編集タスクをカバーしており、画像生成モデルの細かな操作精度向上に寄与します。フォトレタッチ系AIを開発する企業様に特に人気の高いデータセットです。

⑥ 10万件多言語画像解析データ(14言語)
本データセットは、日本語・韓国語・ドイツ語・ベトナム語など 14言語を収録した多言語画像理解データです。自然シーン・文書・看板など多様な画像を対象とし、OCRや翻訳・マルチモーダル理解モデルにご活用いただけます。多言語混在環境の認識精度向上に効果的で、グローバル市場向けのAIプロダクトの品質向上に直結します。

OCR向けデータセット

① 12言語自然シーンOCRデータ(10万枚超)
本データセットは、街頭看板・店舗表示・パッケージなど自然環境下で撮影された10万枚以上の多言語OCR画像 を収録しております。影・傾き・反射など実環境の要素を多く含むため、実運用のOCR精度向上に非常に効果的です。AIモデルが苦手とする特殊文字や複雑背景にも対応しており、認識モデルの耐性向上に大きく寄与 いたします。

② 千万級文書OCR・構造化解析データ(PDF→Markdown+LaTeX)
本データセットは、PDF文書を MarkdownおよびLaTeX形式へ正確に変換した千万級の文書解析データです。段組、表、脚注など複雑レイアウトの構造化が可能であり、文書AIの開発に非常に適しております。帳票解析・自動レポート生成など、業務DX領域で特に高い需要をいただいているデータセットです。

③ 5,000枚日本語手書きOCRデータ
本データセットは、さまざまな年齢層・筆跡を対象に収録した 5,000枚の日本語手書きデータです。申込書・メモ・ノートなど多様な媒体を含み、実務文書に近い高い再現性を備えております。手書き文字の揺らぎや個人差を学習できるため、手書きOCRの実務精度向上に大きく貢献いたします。

④ 50万枚 21言語 OCRデータ
自然画像、印刷文書、スクリーンショットを含む 50万枚・21言語の大規模OCRデータ です。世界市場に向けた多言語AI開発に適しており、翻訳・検索・マルチモーダル理解など幅広いタスクに応用可能です。文字種のバリエーションも豊富で、多言語認識のベースモデル強化に最適 です。

⑤ 1,000枚日本語帳票データ
日本の企業文化に沿った帳票構造を反映した1,000枚の帳票データセットです。レイアウトの整合性やフィールドの意味付けが明確で、帳票AIの精度検証にも活用できます。請求書・注文書など日本特有の形式を網羅しており、日本市場向けOCRモデルの精度向上に寄与します。

⑥ 10万枚 13カ国帳票データ(日本語8,000枚超)
13カ国の帳票形式を収録した10万枚規模の国際帳票データです。日本語データも8,000枚以上含まれており、国内外の帳票自動処理モデルに幅広くご活用いただけます。各国で異なる項目構成を学習できるため、グローバル対応の帳票解析AIの開発に非常に効果的 です。

音声認識・音声合成向けデータセット

① 50万時間日本語無監督音声コーパス(ポッドキャスト中心)
本データセットは、ポッドキャストを中心とした 50万時間規模の自然音声コーパス です。話者・テーマが多岐にわたり、自然なイントネーションや雑音環境を含んでおります。ASR事前学習に最適であり、大規模音声モデルの基盤強化に広く活用 されています。

② 100時間日本語固有表現音声(数字/名前/住所/製品名)
本データセットは、数字・氏名・住所・製品名など、誤認識が起こりやすい固有表現を収録した 100時間の音声データ です。ビジネス場面で頻出するキーワードを中心に構成されており、実用ASRの精度向上に非常に有効です。コールセンター、音声入力アプリ、音声検索など 実務用途の改善に特化しております。

③ 500時間LR分離日本語自然対話音声
本データセットは、左右チャンネルが分離された自然対話音声コーパスです。話者分離・音源分離モデルの訓練に適しており、複雑な対話シーンの理解向上に役立ちます。雑談・業務会話・相談など幅広いテーマが含まれ、対話型AIの性能向上に貢献 します。

④ 633時間日本語自然対話音声(30テーマ、1,000人以上)
1,000人以上の話者が参加し、30テーマに渡る多様な自然対話音声を633時間収録しております。年代・性別・職種が幅広く、モデルの話者適応力向上に効果的です。実生活に近い会話が多く、自然な対話モデルの構築にご利用いただいております。

⑤ 10.4時間日本語音声合成コーパス(女性)
TTS向けに最適化された 高品質な女性話者の音声合成データです。発話の一貫性・収録環境の安定性が高く、音声合成のファインチューニングに適しております。明瞭で自然な発話のため、高音質TTSの構築に直結 いたします。

⑥ 2人日本語音声合成コーパス

成人女性・男性の合成音声データを収録しており、声質の多様化に対応できます。

96時間 子供音声コーパス
子供音声コーパスは96時間と大規模で、教育AIや読み上げアプリなどにご利用いただけます。年齢層に応じた発声の違いを学習できるため、幅広い利用シーンに対応したTTS開発が可能です。

顔認識・デジタルヒューマン向けデータ

① 88,880人 多人種・多ショット顔画像データ

本データセットは、88,880人を対象にした 大規模顔画像データです。照明・背景・表情・角度など多様な条件が含まれており、実運用の認識精度を高めることができます。多数の人種・年齢層を含むため、幅広い環境で安定した顔認証モデルの開発が可能です。

② 25,000人多スタイル高解像度動画データ(1080p以上)

25,000人の自然動作・多スタイル動画を収録した高解像度データセットです。1080p以上・10秒以上の動画を中心に構成され、デジタルヒューマン開発に最適です。マルチアングルの動作情報を取得できるため、アニメーション生成モデルや人物生成AIの訓練に効果的です。

③ 26カ国 130,963枚 ナンバープレート画像/5,613枚 日本語ナンバープレート

26カ国のナンバープレートを収録し、文字種・色・構造の幅広いバリエーションに対応しております。日本語ナンバープレートは5,613枚を収録し、国内の交通AI向けモデルの学習に適しております。背景・角度・昼夜条件の多様性が高く、実運用レベルの認識モデルに対応できます。

④ 13カ国 1,309時間 車両レコーダー動画

13カ国の道路環境を収録した 1,309時間の車載カメラ動画です。天候・照度・交通状況の多様性が大きく、自動運転向けAIの基礎データとして高く評価されています。車両検出・歩行者認識・道路シーン理解など、幅広いADASタスクで活用可能 です。

法的コンプライアンスと品質保証について

当社では、すべてのデータについて個人情報保護、各国法規制の遵守、権利処理の透明性、多段階の品質チェックを徹底しており、高い信頼性を確保しております。また、サンプルの即時提供や既製データの即日納品に対応しているほか、お客様の要件に合わせたカスタマイズ収集や追加アノテーションにも柔軟に対応いたします。


データセットの詳細・サンプル入手はこちら:https://jp.nexdata.ai/


AI開発のスピードと成果の最大化に、ぜひNexdataをご活用ください。

Nexdata会社情報・AI開発に役立つ事例・業界レポートをダウンロードできます。

今すぐチェック
148744a4-f2ef-4e76-a82b-1fbbd035e077