Nexdataは、Speech LLM(音声大規模言語モデル)のさらなる発展と現実世界の複雑な対話シナリオの解決を目指し、第2回多言語会話音声言語モデルワークショップコンテスト(MLC-SLM Challenge 2026)を開催いたします。本コンテストでは、世界中の研究者向けに、より多様なアクセントと広範な言語を網羅した大規模な多言語会話音声データセットを公開します。
■ 背景と課題:データがSpeech LLMのボトルネックに
音声AI分野において大規模言語モデル(LLM)の活用が進む中、Speech LLMは単なる自動音声認識(ASR)にとどまらず、現実世界における複雑な会話の「深い理解」へと進化しています。しかし、研究のさらなる進展を妨げる大きなボトルネックは、モデルのアーキテクチャ自体ではなく、「高品質で多様性に富み、かつリアルな学習・評価用データセット」の不足にあります。
前回の第1回MLC-SLMワークショップの成果から、単一発話の文字起こしにおいては高い精度が確認されたものの、「誰がいつ話しているのか」「話者の切り替わり」「音声からどのように意味が伝達されるのか」といった、多言語・複数ターンの対話シナリオにおける話者ダイアライゼーションや文脈理解が依然として中核的な課題であることが浮き彫りになりました。
■ より現実に即した2,100時間規模のデータセット
今年のチャレンジで提供されるトレーニングセットは、英語、フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語、日本語、韓国語、ロシア語、タイ語、ベトナム語に加え、新たにタガログ語、ウルドゥー語、トルコ語を含む14言語をカバーしています。
データセットの総計は約2,100時間に及びます。内訳として英語が約500時間、フランス語・ポルトガル語・スペイン語が各約200時間、その他の言語が各約100時間となっています。
すべての音声は、実験室で構築されたものではなく、ランダムに割り当てられたトピックに関する自然な2者間対話から構成されています。自然な流暢さ、意味的な一貫性、リアルなコミュニケーション特性に重点を置いており、将来の音声対話システムが直面する現実的な入力条件をより正確に反映しています。
■ 多言語のみならず「マルチアクセント」へ対応
グローバルなSpeech LLM研究において、単なる多言語対応だけでは不十分です。実際のアプリケーションにおいてモデルが直面する大きな課題の多くは、同一言語内における地域ごとの発音の差異や話し方の多様性に起因します。
本データセットの英語音声は、アメリカ、イギリス、オーストラリア、インド、フィリピンの5つのアクセントを網羅しています。さらに、カナダフランス語、メキシコスペイン語、ブラジルポルトガル語も含まれており、異言語間の学習だけでなく、モデルの地域的変種に対する汎用性を評価する上でも非常に価値の高いリソースとなっています。
■ タスク設定
本データセットは単一のベンチマークにとどまらず、以下の2つの重要なタスクの方向性を明確にサポートしています。
タスク1: 多言語会話音声のダイアライゼーションと認識 (Multilingual Conversational Speech Diarization and Recognition)
タスク2: 多言語会話音声の理解 (Multilingual Conversational Speech Understanding)
※ コンテストの詳細や応募方法については、特設ページをご覧ください。
URL:
https://www.nexdata.ai/competition/mlc-slm
■ 「文字起こし」から「対話の真の理解」へ
これまでの研究フェーズが「音声認識精度の向上」に注力していたとすれば、現在の最大のテーマは「モデルが複数話者・複数ターンの多言語対話を真に理解できるか」という点に移っています。
第2回MLC-SLM Challengeは、今後のSpeech LLMが単なる文字起こしのエラー率低下を追求するのではなく、話者のモデリング、音響的特徴の抽出、意味論的推論、および文脈理解において、より完全で統合的な能力を備えるべきであるという明確なメッセージを発信しています。Nexdataは、本データセットが新たなベースラインの構築と手法開発の基盤となり、世界中の研究チームと共に多言語Speech LLMをより実用的な段階へと推進していくことを期待しています。