2025年世界 AI大手厳選した教師データセット一覧

発信者：Nexdata 日時： 11/20/2025

生成AIの高度化に伴い、「教師データ」の品質がモデル性能を決定づける時代へと移行しております。Nexdataは、2025年も世界各国のAI大手企業へ幅広いデータセットをご提供し、多くのプロジェクトでご採用いただきました。

本記事では、その中でも特に需要の高かったLLM・OCR・音声・顔/デジタルヒューマン領域の主要データセットを分野別にご紹介いたします。

すべてのデータは法的コンプライアンスを遵守し、安全かつ精緻に構築されております。AI開発の品質とスピード向上に、ぜひお役立てください。

大規模言語モデル（LLM）向けデータセット

① 1,044万道英文試験問題データ（英米教育体系、LaTeX整形済）
本データセットは、英米の教育体系に基づく 1,044万道の大規模な英文試験問題で構成されております。すべての問題文・選択肢・解答は LaTeX形式で正規化済みのため、構造化処理や数式解析が容易です。数学・物理・化学・統計など幅広い科目を網羅しており、高度推論モデルの事前学習やRAGの強化に非常に有効です。多様な難易度が含まれているため、推論安定性を高めたい企業様から高い評価をいただいております。

② 3,200万道理工科試験問題データ（小中高大対応）
本データセットは、小学生から大学レベルまでの理工科目を対象とした 3,200万道の問題データを収録しております。すべて構造化済みで、問題文、選択肢、解説要素の整合性が厳密に管理されています。理論理解から応用計算まで幅広い分布があり、推論モデルの高難度タスク耐性を向上させる用途に最適です。教育AI企業のほか、推論エンジンを扱う企業様にも多くご採用いただいております。

③ 20万2千組PPT画像説明・QA多モーダルデータ
本データセットは、PPT資料の図表・チャート・アーキテクチャ図などを対象とした 20万2千組の多モーダルデータです。各データは「画像・説明文・QA」で構成され、ビジュアル資料の理解・要約・構造抽出モデルの学習に最適です。業務文書に近い構造を備えており、企業向け知識管理AIやコンサル系AIの強化用途で活用いただいております。複雑な図表を含むため、モデルの視覚的推論能力の底上げに寄与します。

④ 20万組多モーダルGUIエージェントデータ（スマホ／PC／タブレット）
本データセットは、端末操作ログを多モーダルで収録した 20万組のGUIエージェント訓練データです。タップ・ドラッグ・入力・スクロールなど、連続操作の軌跡を詳細に記録しております。エージェント型モデルやRPA自動化AIの訓練に活用されており、実端末に近い操作理解能力の実装を可能にします。アプリ、ウェブ、設定画面など多様なUIが含まれていることで、汎用性の高いエージェント開発を支援いたします。

⑤ 5万組画像編集タスクデータ（編集前→指示文→編集後）
人物・商品・風景など、幅広いカテゴリを対象とする5万組の画像編集データを収録しております。編集前画像に対し、明確な編集指示文と編集後画像がセットになっており、生成AIの編集能力向上に最適です。削除・置換・修復・構図変更など多様な編集タスクをカバーしており、画像生成モデルの細かな操作精度向上に寄与します。フォトレタッチ系AIを開発する企業様に特に人気の高いデータセットです。

⑥ 10万件多言語画像解析データ（14言語）
本データセットは、日本語・韓国語・ドイツ語・ベトナム語など 14言語を収録した多言語画像理解データです。自然シーン・文書・看板など多様な画像を対象とし、OCRや翻訳・マルチモーダル理解モデルにご活用いただけます。多言語混在環境の認識精度向上に効果的で、グローバル市場向けのAIプロダクトの品質向上に直結します。

OCR向けデータセット

① 12言語自然シーンOCRデータ（10万枚超）
本データセットは、街頭看板・店舗表示・パッケージなど自然環境下で撮影された10万枚以上の多言語OCR画像を収録しております。影・傾き・反射など実環境の要素を多く含むため、実運用のOCR精度向上に非常に効果的です。AIモデルが苦手とする特殊文字や複雑背景にも対応しており、認識モデルの耐性向上に大きく寄与いたします。

② 千万級文書OCR・構造化解析データ（PDF→Markdown＋LaTeX）
本データセットは、PDF文書を MarkdownおよびLaTeX形式へ正確に変換した千万級の文書解析データです。段組、表、脚注など複雑レイアウトの構造化が可能であり、文書AIの開発に非常に適しております。帳票解析・自動レポート生成など、業務DX領域で特に高い需要をいただいているデータセットです。

③ 5,000枚日本語手書きOCRデータ
本データセットは、さまざまな年齢層・筆跡を対象に収録した 5,000枚の日本語手書きデータです。申込書・メモ・ノートなど多様な媒体を含み、実務文書に近い高い再現性を備えております。手書き文字の揺らぎや個人差を学習できるため、手書きOCRの実務精度向上に大きく貢献いたします。

④ 50万枚 21言語 OCRデータ
自然画像、印刷文書、スクリーンショットを含む 50万枚・21言語の大規模OCRデータです。世界市場に向けた多言語AI開発に適しており、翻訳・検索・マルチモーダル理解など幅広いタスクに応用可能です。文字種のバリエーションも豊富で、多言語認識のベースモデル強化に最適です。

⑤ 1,000枚日本語帳票データ
日本の企業文化に沿った帳票構造を反映した1,000枚の帳票データセットです。レイアウトの整合性やフィールドの意味付けが明確で、帳票AIの精度検証にも活用できます。請求書・注文書など日本特有の形式を網羅しており、日本市場向けOCRモデルの精度向上に寄与します。

⑥ 10万枚 13カ国帳票データ（日本語8,000枚超）
13カ国の帳票形式を収録した10万枚規模の国際帳票データです。日本語データも8,000枚以上含まれており、国内外の帳票自動処理モデルに幅広くご活用いただけます。各国で異なる項目構成を学習できるため、グローバル対応の帳票解析AIの開発に非常に効果的です。

音声認識・音声合成向けデータセット

① 50万時間日本語無監督音声コーパス（ポッドキャスト中心）
本データセットは、ポッドキャストを中心とした 50万時間規模の自然音声コーパスです。話者・テーマが多岐にわたり、自然なイントネーションや雑音環境を含んでおります。ASR事前学習に最適であり、大規模音声モデルの基盤強化に広く活用されています。

② 100時間日本語固有表現音声（数字／名前／住所／製品名）
本データセットは、数字・氏名・住所・製品名など、誤認識が起こりやすい固有表現を収録した 100時間の音声データです。ビジネス場面で頻出するキーワードを中心に構成されており、実用ASRの精度向上に非常に有効です。コールセンター、音声入力アプリ、音声検索など実務用途の改善に特化しております。

③ 500時間LR分離日本語自然対話音声
本データセットは、左右チャンネルが分離された自然対話音声コーパスです。話者分離・音源分離モデルの訓練に適しており、複雑な対話シーンの理解向上に役立ちます。雑談・業務会話・相談など幅広いテーマが含まれ、対話型AIの性能向上に貢献します。

④ 633時間日本語自然対話音声（30テーマ、1,000人以上）
1,000人以上の話者が参加し、30テーマに渡る多様な自然対話音声を633時間収録しております。年代・性別・職種が幅広く、モデルの話者適応力向上に効果的です。実生活に近い会話が多く、自然な対話モデルの構築にご利用いただいております。

⑤ 10.4時間日本語音声合成コーパス（女性）
TTS向けに最適化された高品質な女性話者の音声合成データです。発話の一貫性・収録環境の安定性が高く、音声合成のファインチューニングに適しております。明瞭で自然な発話のため、高音質TTSの構築に直結いたします。

⑥ 2人日本語音声合成コーパス

成人女性・男性の合成音声データを収録しており、声質の多様化に対応できます。

96時間子供音声コーパス
子供音声コーパスは96時間と大規模で、教育AIや読み上げアプリなどにご利用いただけます。年齢層に応じた発声の違いを学習できるため、幅広い利用シーンに対応したTTS開発が可能です。

顔認識・デジタルヒューマン向けデータ

① 88,880人多人種・多ショット顔画像データ

本データセットは、88,880人を対象にした大規模顔画像データです。照明・背景・表情・角度など多様な条件が含まれており、実運用の認識精度を高めることができます。多数の人種・年齢層を含むため、幅広い環境で安定した顔認証モデルの開発が可能です。

② 25,000人多スタイル高解像度動画データ（1080p以上）

25,000人の自然動作・多スタイル動画を収録した高解像度データセットです。1080p以上・10秒以上の動画を中心に構成され、デジタルヒューマン開発に最適です。マルチアングルの動作情報を取得できるため、アニメーション生成モデルや人物生成AIの訓練に効果的です。

③ 26カ国 130,963枚ナンバープレート画像／5,613枚日本語ナンバープレート

26カ国のナンバープレートを収録し、文字種・色・構造の幅広いバリエーションに対応しております。日本語ナンバープレートは5,613枚を収録し、国内の交通AI向けモデルの学習に適しております。背景・角度・昼夜条件の多様性が高く、実運用レベルの認識モデルに対応できます。

④ 13カ国 1,309時間車両レコーダー動画

13カ国の道路環境を収録した 1,309時間の車載カメラ動画です。天候・照度・交通状況の多様性が大きく、自動運転向けAIの基礎データとして高く評価されています。車両検出・歩行者認識・道路シーン理解など、幅広いADASタスクで活用可能です。