LLM・TTS・フィジカルAI・自動運転など——2025年AI研究５つトレンド・データ要件の転換について解説

発信者：Nexdata 日時： 01/08/2026

はじめに

2025年、人工知能（AI）の進化は、「モデル規模の拡大」から「現実世界の複雑な課題を理解し、解決する能力」へと、大きなパラダイムシフトを迎えています。この転換期において、高品質なデータは、AIの能力を規定する新たな基盤となりつつあります。

AIデータインフラの先駆者であるNexdataは、この変革のあらゆる重要な局面に深く関与し、その発展を支え続けてきました。本稿では、2025年に注目すべきAIの5大技術トレンドと、それを支えるデータ要件の変化について詳しく解説します。

トレンド1：多言語対応TTSとフルデュプレックス対話—「自然さ」と「即時性」を両立する音声AIへ

音声合成（TTS）技術は、すでに「明瞭で正確な発声」という基礎段階を超え、次の高度化フェーズへと進んでいます。合成音声に感情・個性・文化的文脈を組み込み、バーチャルアシスタントやデジタルヒューマン、音声コンテンツに説得力と親しみやすさを付与すること。さらに、単なる一方向の応答にとどまらず、割り込み発話や発話の重なり、文脈の一貫性をリアルタイムで処理する「フルデュプレックス（全二重）対話」への進化です。

この技術における中核的な課題は、AIが単に「文字を読む」存在にとどまらず、会話の文脈や感情を理解し、人間のようにリアルタイムで聞き、考え、応答できる能力を備えることにあります。すなわち、感情と論理が連続する自然な対話の実現です。

データ要件の変化

音色・リズム・感情・話し方のスタイルを精密に制御するための、表現力豊かな音声コーパスが求められています。これには、多言語・多方言・多世代を網羅した音声データに加え、笑い、ため息といった副言語的特徴を含むサンプルも含まれます。一方、フルデュプレックス対話を実現するため、自然な割り込みや話題転換を含む多チャネル対話音声データと、それに対応する正確な文字起こしおよび対話状態のアノテーションが不可欠です。

次世代音声対話モデルを効率的に学習させるため、Nexdataは、標準化されたデータセットから高度にカスタマイズされた収集・アノテーションサービスまで、包括的なソリューションを提供しています。

ハイナチュラルTTS向けに、100万時間規模の多言語自然対話音声データセットと300万件のフロントエンドテキストライブラリ
感情合成の最適化を目的とした2,000時間の多感情中国語合成音声データセット
リアルタイム対話モデルに不可欠な1万時間規模のフルデュプレックス多言語自然対話データセット

これらの高品質データアセットは、クライアントのモデル開発を迅速に立ち上げ、性能最適化を実現するための強固な基盤を提供します。

さらに、Nexdataは200以上の言語・方言をカバーするグローバル音声リソースネットワークと、プロフェッショナルな声優プールを有しています。京都弁、広島弁といった特定方言から、個性的なキャラクター音声、さらには多様なシナリオに対応したフルデュプレックス対話データまで、専門的な収集・アノテーションプロセスを通じて、クライアント固有のモデル要件に適合したデータを素早く提供可能です。

トレンド2：マルチモーダル大規模モデル——「読む・見る」から「理解し、推論する」AIへ

2025年、DeepSeek-OCRのオープンソース化は、マルチモーダル大規模モデルの進化方向を象徴する出来事となりました。その本質は、単なるOCR精度の向上にとどまらず、画像・テキスト・表・チャート・GUIインターフェースなど、多様な情報モダリティを統合的に理解し、関連付け、深層的な推論を行うAIの実現にあります。目指されているのは、人間の専門家のように、複合メディアで構成された研究レポートを解釈し、ソフトウェアUIの操作ロジックを理解し、試験問題から解法プロセスを推論できるAIです。

データ要件の変化

単一モダリティ向けの従来の教師データでは、もはや十分とは言えません。真に「認知能力」を備えたマルチモーダルモデルを学習させるためには、異なるモダリティ間に存在する複雑な関係性や深層的な意味構造を捉えたデータが必要です。

そのため、意味的アラインメント（例：チャートと要約文の対応）、深層構造化（例：試験問題と解法ステップの対応）、意味的知識グラフ化（例：UIアイコンと操作指示の関係）といった方向へ進化しており、さらにタスク全体を貫く推論チェーンまで記述されたデータが求められています。

Nexdataは、マルチモーダル認知の全工程を支える高品質データを提供し、モデルが「高精度な認識」から「深い理解」へと進化することを支援しています。

数千万件規模のOCRデータ
百万件単位のGUIインターフェースデータ
多領域にわたる専門文書テキスト解析データ
300万組の画像・テキスト理解データ（動作、シーン、建築など）
20万組のOCRベースQ&Aおよび画像・映像編集データ

トレンド3：大規模モデルの深化——汎用性と専門性を同時に高める

現在、大規模言語モデルの開発では、汎用推論力や複雑な常識的理解が一層高められるとともに、金融や法律、バイオ医薬品といった垂直領域への深層展開を通じて、専門性と信頼性が確保されつつあります。

データ要件の変化

高品質なトレーニングデータの需要は、知識度が高く、許容誤差が極めて低い専門的な領域に集中しています。その核心は、モデルの専門的な推論や精緻な判断能力を直接的に支える「鍵となるデータ資産」の獲得にあります。

主に以下の三種類のデータが求められています：

複雑な論理チェーンを明示化する「プロセス型データ」
ドメイン専門家によって精緻に検証された「高精度知識データ」
専門的な判断を補完する「アライメント・嗜好データ」

Nexdataは、汎用知能とドメイン深化という二重のニーズに応え、高品質なデータを通じてモデル能力の進化を実現します。

事前学習向け：5,000万件のニューステキスト、3億件のSTEM（科学・技術・工学・数学）問題など、大規模で高品質な教師なしデータ
指示微調整（SFT）向け：70万組の命令微調整データ、150万件のセーフティコンテンツデータ

さらに、Nexdataは金融、医療、法律、教育、電力、レアアース産業など、10以上の分野をカバーする500人以上の専門家チームを擁し、全員が関連資格と大規模モデルプロジェクトの経験を持っています。これまでに100件以上の大規模モデルデータプロジェクトを成功に導いており、高精度かつシナリオに最適化された専門データを効率的に提供しています。これにより、モデルは「汎用知能」から「ドメインエキスパート」へと確実に進化します。

トレンド4：エンボディドAI（Embodied AI フィジカルAI）——AIがデジタル世界から物理世界へ

エンボディドAIが注目される背景には、従来のAIが抱えていた根本的限界を克服する必要性があります。従来の大規模モデルは純粋なデジタル環境で学習されるため、物理世界との相互作用の経験が不足しており、現実の因果関係を学ぶことができません。人間の赤ちゃんが「つかむ」や「押す」といった身体的な相互作用を通じて物理的な知覚を育むように、AIも物理的エージェント（ロボットなど）を通じて現実世界を学習する必要があります。

たとえば、ロボットアームが乱雑な引き出しの中から物を取ろうとする際、視覚情報だけでは「その隙間に手を入れられるか」を判断することはできません。なぜなら、空間の“入りやすさ”は、素材の変形や摩擦係数、接触力といった連続的な物理的変数に依存しており、これらはリアルタイムでの相互作用を通じてしか感知できないからです。AIに物理的な実体を与えることは、認知の限界を突破するために必須の選択肢となります。

データ要件の変化

エンボディドAIの本質は、AIがデータを通じて物理世界の因果法則を学習することにあります。そのためには、時系列的に厳密に同期された高次元インタラクションデータが必要です。具体的には：

複数視点からのビデオ
高精度な力覚・触覚センサーデータ
動作指令シーケンス
タスクの最終結果

これらのデータを統合し、「知覚 → 決定 → 行動 → 結果」といった因果チェーンを構築する必要があります。現在、このような高品質データの収集は、実機による物理的収集や、高忠実度シミュレーション環境、人間の作業映像の記録などを通じて行われています。しかし、実世界でのインタラクションデータの取得はコストが非常に高く、専用の収集環境とチームを設置し、厳しい安全基準の下で実施しなければならず、依然として高品質データは非常に希少です。

Nexdataは、エンボディドAI研究を効率的に支援するため、標準データセットから深層カスタム収集まで、包括的なサービスを提供しています。

数億組の3D環境データ
一人称視点でのタスク動画
ロボットによる把持データセット

これらは環境理解、意思決定、動作実行の全プロセスをカバーし、モデルに高品質な学習データを提供します。

さらに、Nexdataは米国、日本、韓国、ドイツなどに20か所以上の専門収集施設を展開し、最大4,000平方メートルを超える規模を誇ります。施設内には、ヒューマノイドロボット、ロボットアーム、四脚歩行ロボットなど、70台以上の多様なロボットを配置し、家庭、工場、商業施設など様々な環境で、物体把持、ナビゲーション、障害物回避、人間との協働作業などの複雑なタスクを実行できます。収集プロセスは、動作の滑らかさや操作成功率など、厳格な品質基準に従い、マルチモーダルセンサーデータを同時に取得・同期します。

また、Nexdataの専用アノテーションプラットフォームと専門チームは、物体検出、セグメンテーション、ビデオ時系列分割、タスク記述、Chain-of-Thought（CoT）推論ラベルなど、あらゆるタイプのアノテーションを実施可能で、データを即座にアルゴリズム開発に投入できる状態に仕上げます。

トレンド5：自動運転の技術パラダイム転換——モジュール化からエンドツーエンドへ

自動運転システムは「認識－計画－制御」のモジュール化アーキテクチャから、データ駆動型の「エンドツーエンド」（End-to-End）統合モデルへの劇的な技術転換を遂げています。この変化の本質は、運転というタスクを一つの全体として捉え、センサー入力（画像・LiDAR点群など）を統合して処理することです。これにより、従来のモジュール間で発生していた情報損失や誤差の累積、システムの複雑化といった課題を根本的に回避します。

データ要件の変化

テスラFSD v12に代表される従来のエンドツーエンドアプローチでは、大量の実走行動画と同期した車両制御信号が中核となっていました。これは、いわゆる「ベテランドライバーの運転行動の模倣」に依存し、特に稀な事象（コーナーケース）を含む膨大な（軽微または未アノテーションの）データを収集することに重点が置かれていました。本質的には、データ駆動型の行動模倣（Behavior Cloning）に基づいています。

しかし、次世代のVLM/VLA（Vision-Language-Action）マルチモーダル大規模モデルのアプローチは、これを塗り替えようとしています。目標は単なる車両制御にとどまらず、運転判断の推論や説明、さらに人間とのインタラクション能力をモデルに付与することです。そのため、トレーニングデータには視覚データ（画像や動画）が必要不可欠となり、例えば「なぜこのタイミングで減速したのか？」といった運転判断の言語的説明を動画の各シーンに関連付ける、という極めて複雑で高コストなアノテーションが求められます。

Nexdataのソリューションは、こうしたエンドツーエンド運転モデルが求める複雑な論理アノテーションの大量需要に、専門性の高いアノテーションとスケーラブルな納品体制で応えています。効率的なツールと成熟したプロセス管理を活用し、安定した大規模アノテーション生産能力を持ち、長時間にわたる走行動画のストリームを効率的に処理します。特に走行ルート判断や運転意図推定といったキータスクに関しては、月間40万件の納品が可能です。これにより、クライアントのエンドツーエンドモデルが「行動模倣」から「因果的理解」へと進化することを継続的に支援します。

おわりに

2025年、AIのさらなる深化において、その性能のボトルネックと差別化の源泉は、ますます高品質で専門的、そしてシナリオ特化型のデータの獲得・構築能力に依存するようになります。Nexdataは、この変革の最前線に立ち、トレンドの先読みやカスタマイズ収集設計、厳格な品質管理を通じて、各技術波に必要とされる堅牢で精密かつスケーラブルなデータインフラを提供し続けています。

Nexdata会社情報・AI開発に役立つ事例・業界レポートをダウンロードできます。

今すぐチェック