第1回の成功を基盤に、2026年は対象言語を拡大し、より難しいタスクを導入することで、多言語会話音声言語モデル研究をさらに前進させます。
前回のチャレンジでは、英語(en)、フランス語(fr)、ドイツ語(de)、イタリア語(it)、ポルトガル語(pt)、スペイン語(es)、日本語(jp)、韓国語(ko)、ロシア語(ru)、タイ語(th)、ベトナム語(vi)の11言語を含む約1,500時間の会話音声データであり、英語データセットには、イギリス英語、アメリカ英語、オーストラリア英語、インド英語、フィリピン英語など、さまざまな地域をカバー、総計500時間が含まれています。
今回では、タガログ語 (tl)、ウルドゥー語 (ur)、トルコ語 (tr) の3言語に加え、カナダフランス語、メキシコスペイン語、ブラジルポルトガル語が追加されます。

第2回MLC-SLMコンテストでは、前回のチャレンジで十分に扱われなかった音声ダイアリゼーションおよび認識タスクを引き続き実施します。
さらに、主に音響情報と意味情報を扱う多言語会話理解における、大規模音声言語モデルの可能性をさらに探求していきます。

大規模言語モデル(LLM)の飛躍的進歩は音声LLMの開発を加速させ、音声認識と言語理解の統合モデリングを可能にしました。しかし、この分野のさらなる発展は、自然な人間コミュニケーションの複雑性を反映した、実世界の多言語会話音声データの入手可能性に大きく依存しています。
本ワークショップの第1回では、音声認識(ASR)および話者ダイアリゼーションにおける音声LLMの有効性が実証されました。チャレンジの結果は、音声LLMが音声認識において高い性能を達成したことを示しており、文字起こしを中心としたモデリングはほぼ成熟段階にあることを示唆しています。対照的に、話者ダイアリゼーションは未だ重要な課題として残っており、特に複雑な多言語会話シナリオにおける性能は限定的です。これらの知見は、今後の進展には単なる文字起こし精度の向上を超え、会話構造やコンテンツの深層理解へのモデリングシフトが必要であることを示しています。
こうした知見を踏まえ、本ワークショップ第2回では、話者ダイアリゼーション、音響理解、意味理解における音声LLMの進展に注力します。これを支援するため、対象言語と会話シナリオを拡張した、より広範で多様な多言語会話音声データセットを公開します。「話者特定」「音響的実現」「意味情報伝達」を統合的にモデル化する研究を促進することで、本ワークショップは、音声言語の包括的な理解を推進し、多言語音声LLM研究の次の段階への進展を牽引することを目指します。
本チャレンジは2つのタスクで構成されており、いずれも参加者が音声LLMの開発を探求することが求められます:
タスク1:多言語会話音声のダイアリゼーションと認識
評価中は、事前情報やオラクル情報は一切提供されません(例:事前にセグメント化された発話や話者ラベルはなし)。
目的:話者ダイアリゼーション(誰がいつ話しているかを特定すること)と認識(音声をテキストに変換すること)の両方を行うシステムを開発することとします。
パイプライン型システムとエンドツーエンド型システムの両方が推奨され、システム設計と実装の柔軟性が確保されます。
性能評価は、ダイアリゼーション誤り率(DER)および連結された最小順列WERまたはCER(tcpWERまたはtcpCERと呼ばれる)に基づいて行われます。DERは、オラクルアノテーションとダイアライゼーション結果の間で最適な話者IDの順列を決定するために使用されます。その後、録音内の同一話者に属する認識結果と参照データを連結し、tcpWER または tcpCER を算出します。すべての提出作品は、tcpWER または tcpCER に基づいて順位付けされます。
タスク2:多言語会話音声理解
評価中は、事前情報やオラクル情報は一切提供されません(例:事前にセグメント化された発話や話者ラベルは提供されません)。
目的:多言語会話の音響的および意味的な理解を行うシステムを開発することとします。
パイプライン型システムとエンドツーエンド型システムの両方が推奨され、システム設計と実装に柔軟性が確保されます。
選択式質問の形式で、会話全体を理解するシステムの能力を評価します。
トレーニングセット(Train)には、英語(en)、フランス語(fr)、ドイツ語(de)、イタリア語(it)、ポルトガル語(pt)、スペイン語(es)、日本語(jp)、韓国語(ko)、ロシア語(ru)、タイ語(th)、ベトナム語(vi)、タガログ語(tl)、ウルドゥー語(ur)、トルコ語(tr)の計14言語が含まれています。
各録音は、ランダムに割り当てられたトピックについて、2名の話者が対話を行う形式で構成されています。
対話は自然で流暢であり、話者は各トピックについて意味のある会話を展開しています。
録音は、静かな室内環境において、iPhoneなどの機器を使用して実施されています。
各録音には、音声認識および話者ダイアリゼーションシステムの開発に活用できるよう、タイムスタンプ付きの正解アノテーションと話者ラベルが付与されています。
タスクIおよびタスクIIでは、同一のトレーニングセットを共有しています。
英語データセットには、米国、英国、オーストラリア、インド、フィリピンの英語など、地域バリエーションを含む約500時間の録音が含まれています。その他の言語はそれぞれ約100時間のデータを提供しており、合計で約2,100時間の多言語対話音声データで構成されています。
| 言語 | データ量(h) | 言語分類 | サンプリングレート | 詳細説明 |
|---|---|---|---|---|
| 英語 | 500 | 米国、英国、フィリピン、オーストラリア、インドの5つの地域アクセントを網羅。話者の性別・年齢は多様に分布し、自然な対話スタイルで収録。単語アノテーション精度98%。 | ||
| 100 | 米国英語 | 16kHz | ||
| 100 | 英国英語 | 16kHz | ||
| 100 | フィリピン英語 | 16kHz | ||
| 100 | オーストラリア英語 | 16kHz | ||
| 100 | インド英語 | 16kHz | ||
| フランス語 | 200 | 16kHz | スマートフォンにて録音。話者は習熟したトピックを複数選択し、各トピックについて流暢かつ自然な対話を収録。話者の性別・年齢は多様に分布。単語アノテーション精度98%。 | |
| 100 | ヨーロッパフランス語 | 16kHz | ||
| 100 | カナダフランス語 | 16kHz | ||
| ドイツ語 | 100 | 16kHz | スマートフォンにて録音。話者は習熟したトピックを複数選択し、各トピックについて流暢かつ自然な対話を収録。話者の性別・年齢は多様に分布。単語アノテーション精度98%。 | |
| イタリア語 | 100 | 16kHz | スマートフォンにて録音。話者は習熟したトピックを複数選択し、各トピックについて流暢かつ自然な対話を収録。話者の性別・年齢は多様に分布。単語アノテーション精度98%。 | |
| 日本語 | 100 | 16kHz | スマートフォンにて録音。話者は習熟したトピックを複数選択し、各トピックについて流暢かつ自然な対話を収録。話者の性別・年齢は多様に分布。文アノテーション精度95%。 | |
| 韓国語 | 100 | 16kHz | スマートフォンにて録音。話者は習熟したトピックを複数選択し、各トピックについて流暢かつ自然な対話を収録。話者の性別・年齢は多様に分布。文アノテーション精度95%。 | |
| ポルトガル語 | 200 | 16kHz | スマートフォンにて録音。話者は習熟したトピックを複数選択し、各トピックについて流暢かつ自然な対話を収録。話者の性別・年齢は多様に分布。単語アノテーション精度98%。 | |
| 100 | ヨーロッパポルトガル語 | 16kHz | ||
| 100 | ブラジルポルトガル語 | 16kHz | ||
| ロシア語 | 100 | 16kHz | スマートフォンにて録音。話者は習熟したトピックを複数選択し、各トピックについて流暢かつ自然な対話を収録。話者の性別・年齢は多様に分布。単語アノテーション精度98%。 | |
| スペイン語 | 200 | 16kHz | スマートフォンにて録音。話者は習熟したトピックを複数選択し、各トピックについて流暢かつ自然な対話を収録。話者の性別・年齢は多様に分布。単語アノテーション精度98%。 | |
| 100 | ヨーロッパスペイン語 | 16kHz | ||
| 100 | メキシコスペイン語 | 16kHz | ||
| タイ語 | 100 | 16kHz | スマートフォンにて録音。話者は習熟したトピックを複数選択し、各トピックについて流暢かつ自然な対話を収録。話者の性別・年齢は多様に分布。単語アノテーション精度97%。 | |
| ベトナム語 | 100 | 16kHz | スマートフォンにて録音。話者は習熟したトピックを複数選択し、各トピックについて流暢かつ自然な対話を収録。話者の性別・年齢は多様に分布。単語アノテーション精度98%。 | |
| タガログ語 | 100 | 16kHz | スマートフォンにて録音。話者は習熟したトピックを複数選択し、各トピックについて流暢かつ自然な対話を収録。話者の性別・年齢は多様に分布。単語アノテーション精度97%。 | |
| ウルドゥー語 | 100 | 16kHz | スマートフォンにて録音。話者は習熟したトピックを複数選択し、各トピックについて流暢かつ自然な対話を収録。話者の性別・年齢は多様に分布。単語アノテーション精度98%。 | |
| トルコ語 | 100 | 16kHz | スマートフォンにて録音。話者は習熟したトピックを複数選択し、各トピックについて流暢かつ自然な対話を収録。話者の性別・年齢は多様に分布。単語アノテーション精度98%。 |
本コンテストへの参加資格を得るためには、全ての参加者は以下のルールを遵守する必要があります。
チャレンジシステムの説明に加え、参加者は革新的な知見、実践的なケーススタディ、および先見性のあるアイデアを紹介する研究論文の提出を推奨されます。関心のあるトピックには、以下が含まれますが、これらに限定されません:
登録済みの参加者には、トレーニングセットおよびテストセットへのアクセス権が付与されます。MLC-SLM チャレンジへの参加登録を行うことで、参加者は下記「データ使用許諾契約書」に同意し、機密保持およびデータ保護に関する規約を遵守することに合意したものとみなされます。本データセットは本ワークショップチャレンジの目的でのみ使用可能であり、再配布または他の目的での利用は厳しく禁止されています。参加者は、データが不正アクセスから保護されるよう管理する責任を負います
以下の登録フォームより、チームの登録をお願いいたします。
本チャレンジの登録受付は2026年3月30日より開始されます。登録完了時点で、参加者は関連する利用規約および契約内容に同意したものとみなされます。
学界および産業界を問わず、あらゆるチームのご参加を歓迎いたします。また、個人研究者の方々の参加も積極的に推奨しております。
登録に関する詳細なお問い合わせは、下記メールアドレスまでご連絡ください:[email protected]
メールアドレス:[email protected]
Slack チャンネル:
https://join.slack.com/t/mlc-slm-challenge/shared_invite/zt-314nfsmhz-QjOJjhjK3OHYUtJyBRtPxA
大規模言語モデル(LLM)は、言語理解・生成のタスクにおいて強力な基盤モデルとして機能しています。近年では、LLMを自動音声認識(ASR)、オーディオキャプション、音声対話モデルなどの最先端分野の音声言語処理タスクに適用する研究が多くなっています。
現実世界の会話音声データは、自然な一時停止・中断、話者の重複、多様な会話スタイルなど、人間のコミュニケーションの複雑さを捉えているため、LLMベースの音声対話モデルの開発に不可欠です。しかし、多言語環境の音声認識研究において、データ不足が大きな課題となっています。
現実世界の会話型音声は、多言語でダイナミック、かつ文脈に富んだ環境における高精度なAIシステムの構築や、音声対話が主要なコミュニケーションモードとして機能する次世代AI対話システムの開発に欠かせないです。
したがって、本ワークショップ・コンテストは、高精度な多言語会話音声言語モデルの構築に挑み、現実世界における多言語会話音声データセットを作成することで、音声認識の発展に寄与致します。
このイベントは2つのタスクで構成されており、どちらも参加者に音声言語モデルの開発を探求することを求める:
タスク1:多言語会話型音声認識モデルの開発
目的: 多言語 LLM ベースのASRモデルの開発。
参加者には、会話ごとにオラクルセグメンテーションが提供されます。
このタスクでは、多言語環境での文字起こしの精度の最適化に焦点を当てています。
タスク2:多言語会話音声のダイアライゼーションと認識
目的:話者のダイアライゼーション(誰がいつ話しているかを特定する)及び認識(音声の文字起こし)の両方のシステム開発。
評価中に事前情報は提供されません(たとえば、事前にセグメント化された発話や話者ラベルなど)。
システムの設計・実装に柔軟性をもたらすため、パイプラインベースのシステムとエンドツーエンドのシステムの両方が推奨されます。
タスクIでは、異なる言語間の単語誤り率(WER)または文字誤り率(CER)を用いてシステム性能を評価します。
タスクIIでは、ダイアライゼーションエラーレート(DER)、およびtcpWERまたはtcpCERと呼ばれる最小並べ替えWERまたはCERに基づいて性能が評価されます。DERは、オラクル注釈とダイアライゼーション結果の間の最良の話者ID順列を決定するために採用されます。次に、録音内の同じ話者に属する認識結果と参照を連結して、tcpWERまたはtcpCERを計算します。すべての投稿は、tcpWERまたはtcpCERに従ってランク付けされます。
2025年3月10日 登録開始
2025年3月15日 トレーニングデータ発表
2025年4月1日 開発セットとベースラインシステムのリリース
2025年5月15日 評価セットリリースとリーダーボード公開
2025年5月30日 リーダーボードの締め・論文提出ポータルのオープン(CMTシステム)
2025年6月15日 論文提出期限
2025年7月1日 採択通知
2025年8月22日 ワークショップ開催日
チャレンジデータセットは、英語(en)、フランス語(fr)、ドイツ語(de)、イタリア語(it)、ポルトガル語(pt)、スペイン語(es)、日本語(jp)、韓国語(ko)、ロシア語(ru)、タイ語(th)、ベトナム語(vi)の約11言語で構成されています。
各録音は、ランダムに割り当てられたトピックに関する2話者の会話音声で構成されています。
会話は自然で流暢であり、各トピックについて意味のある対話をしています。
静かな室内環境で、iPhoneなどのデバイスを使用して録音したものです。
各録音は、音声認識および話者ダイアライゼーションシステム開発のためのオラクルセグメンテーションおよび話者ラベルを提供します。
タスクIとタスクIIは同じトレーニングセットを共有します。
英語のデータセットは、イギリス英語、アメリカ英語、オーストラリア英語、インド英語、フィリピン英語など、さまざまな地域の約500時間の録音から構成されています。その他の言語はそれぞれ約100時間で、合計約1500時間の多言語会話音声データとなっています。
このデータセットは、多言語会話音声言語モデル(MLC-SLM)の訓練と評価のための豊富なリソースを提供するように設計されており、言語の多様性、話者の多様性、文脈理解の課題に対応しています。
| 言語 | データ規模(時間) | 言語分類 | サンプリング・レート | 説明 |
|---|---|---|---|---|
| 英語 | 500 | アメリカ、イギリス、フィリピン、オーストラリア、インドの5つのアクセントの英語を収録。多様な性別と年齢、自然な会話スタイル。単語誤り率は2%以下。 | ||
| 100 | アメリカ英語 | 16K | ||
| 100 | イギリス英語 | 16K | ||
| 100 | フィリピン英語 | 16K | ||
| 100 | オーストラリア英語 | 16K | ||
| 100 | インド英語 | 16K | ||
| フランス語 | 100 | 16k | 録音は携帯電話で行い、レコーダーは身近な話題をいくつか選び、それぞれについてスムーズで自然な会話を録音する。話し手の性別や年齢は様々。単語の誤り率は2%以下。 | |
| ドイツ語 | 100 | 16k | 録音は携帯電話で行い、レコーダーは身近な話題をいくつか選び、それぞれについてスムーズで自然な会話を録音する。話し手の性別や年齢は様々。単語の誤り率は2%以下。 | |
| イタリア語 | 100 | 16k | 録音は携帯電話で行い、レコーダーは身近な話題をいくつか選び、それぞれについてスムーズで自然な会話を録音する。話し手の性別や年齢は様々。単語の誤り率は2%以下。 | |
| 日本語 | 100 | 16k | 録音は携帯電話で行い、レコーダーは身近な話題をいくつか選び、それぞれについてスムーズで自然な会話を録音する。話し手の性別や年齢は様々。文の誤り率は5%以下。 | |
| 韓国語 | 100 | 16k | 録音は携帯電話で行い、レコーダーは身近な話題をいくつか選び、それぞれについてスムーズで自然な会話を録音する。話し手の性別や年齢は様々。文の誤り率は5%以下。 | |
| ポルトガル語(ヨーロッパ) | 100 | 16k | 録音は携帯電話で行い、レコーダーは身近な話題をいくつか選び、それぞれについてスムーズで自然な会話を録音する。話し手の性別や年齢は様々。単語の誤り率は2%以下。 | |
| ロシア語 | 100 | 16k | 録音は携帯電話で行い、レコーダーは身近な話題をいくつか選び、それぞれについてスムーズで自然な会話を録音する。話し手の性別や年齢は様々。単語の誤り率は2%以下。 | |
| スペイン語(スペイン) | 100 | 16k | 録音は携帯電話で行い、レコーダーは身近な話題をいくつか選び、それぞれについてスムーズで自然な会話を録音する。話し手の性別や年齢は様々。単語の誤り率は2%以下。 | |
| タイ語 | 100 | 16k | 録音は携帯電話で行い、レコーダーは身近な話題をいくつか選び、それぞれについてスムーズで自然な会話を録音する。話し手の性別や年齢は様々。単語の誤り率は3%以下。 | |
| ベトナム語 | 100 | 16k | 録音は携帯電話で行い、レコーダーは身近な話題をいくつか選び、それぞれについてスムーズで自然な会話を録音する。話し手の性別や年齢は様々。単語の誤り率は2%以下。 |
開発セット(Dev)はトレーニングセットと同じ設定ですが、各言語で約4時間の録音が含まれています。タスクIとタスクIIは、同じ開発セットを共有します。
タスクごとに異なる評価セットを採用し、Eval_1 と Eval_2 とします。具体的には、Eval_1にはオラクルタイムスタンプと話者ラベルが含まれ、WER/CERを用いて評価されます。Eval_2では、タイムスタンプや話者ラベルが提供されないため、認識前に長い録音をセグメント化するための話者ダイアライゼーション(SD)システムが必要となります。
参加者は、データ使用同意書に署名し、登録フォームに送信することで、データセットにアクセスすることができます。送信後、データのダウンロードリンクがEメールに送信されます。
すべての参加者は、チャレンジの対象となるために以下のルールを遵守しなければなりません。
チャレンジシステムの説明に加え、参加者は革新的な発見、実践的なケーススタディ、将来を見据えたアイデアを紹介する研究論文を提出することが奨励されます。関心のあるトピックは以下の通りですが、これらに限定されるものではありません:
登録された参加者は、トレーニングおよびテストのデータセットにアクセスすることができます。参加者は、データ使用同意書(下記参照)に署名し、守秘義務に同意し、データ保護同意書を遵守しなければなりません。データセットは、ワークショップの課題の目的にのみ使用され、再配布やその他の使用は固く禁じられています。不正アクセスからデータ を保護することは各参加者側の義務となります。
参加には登録が必要です。 署名済みのデータ使用同意書をアップロードし、登録フォームに記入してください。チャレンジは2025年3月10日に開始します。
その他、登録に関するお問い合わせは下記までお願いいたします: [email protected]
メール: [email protected]
Slack: https://join.slack.com/t/mlc-slm-challenge/shared_invite/zt-314nfsmhz-QjOJjhjK3OHYUtJyBRtPxA
WeChat: 
1. チャレンジ論文:
a. 参加者は、短い技術説明論文を1つ提出しなければならないです(チームが両方のタスクに参加した場合も同様)。
b. 長さ: 内容2~4ページ+参考文献1ページ。
c. 内容の要件:
i. 提出書類の正確性と規則遵守にアクセスするための明確なシステム説明。
ii. 使用したオープンソースのデータセットとモデル、データ補強戦略、モデルアーキテクチャ、トレーニング構成などの再現性の詳細。
iii. アブレーション分析により、方法の有効性が実証されていること。
d. すべてのチャレンジ参加者は、ワークショップで講演またはポスターを発表することが期待されます。
2.チャレンジ以外の論文:
a. 長さ: 内容4ページ+参考文献1ページ。
b. トピック: チャレンジウェブサイトに掲載されているトピックを含むが、これに限定されません。
3. オーサーキット:
すべての投稿には、提供された Interspeech 2022 LaTeX オーサーキット (https://www.interspeech2022.org/files/IS2022_paper_kit.zip) を使用してください。 なお、我々は2022年インタースピーチ・オーサー・キットを使用し、シングル・ブラインド・レビューを行います。
4. 投稿ポータル
a. CMT conference system経由で論文を投稿してください。
b. 本大会の査読プロセス管理には、Microsoft CMTサービスを使用しました。このサービスはマイクロソフト社から無償で提供され、Azureクラウドサービスやソフトウェア開発・サポートにかかる費用を含め、すべての費用をマイクロソフト社が負担します。
賞金総額:20,000ドル
本大会上位入賞チームへの賞金(各タスク):
ロッテルダム・アホイ・コンベンションセンター(オランダ・ロッテルダム)
登録費用:50ユーロ
Lei Xie、教授、西北理工大学(中国)
Shinji Watanabe、准教授、カーネギーメロン大学(米国)
Eng Siong Chng、教授、南洋理工大学(シンガポール)
Junlan Feng、IEEEフェロー兼チーフサイエンティスト、中国移動(中国)
Shuai Wang、研究科学者、深圳ビッグデータ研究所
Khalid Choukri、局長、局長欧州言語資源協会事務局(フランス)
Qiangze Feng、共同創業者兼データサイエンティスト、Nexdata(米国)
Daliang Wang、データサイエンティスト、Nexdata(米国)
Hexin Liu、博士研究員、南洋理工大学(シンガポール)
Pengcheng Guo、博士課程学生、西北工業大学(中国)
Bingshen Mu、博士課程学生、西北工業大学(中国)
Zhaokai Sun、修士課程学生、西北工業大学(中国)




