「Datatang株式会社」は現在「Nexdata」のブランドとして事業を展開しています。本サイトより最新のAIデータサービスとソリューションをご案内いたします。

jp

Please fill in your name

Mobile phone format error

Please enter the telephone

Please enter your company name

Please enter your company email

Please enter the data requirement

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

The data requirement cannot be less than 5 words and cannot be pure numbers

第1回の成功を基盤に、2026年は対象言語を拡大し、より難しいタスクを導入することで、多言語会話音声言語モデル研究をさらに前進させます。

第2回MLC-SLMワークショップコンテストの主な特徴

対応言語とアクセントの拡充

前回のチャレンジでは、英語(en)、フランス語(fr)、ドイツ語(de)、イタリア語(it)、ポルトガル語(pt)、スペイン語(es)、日本語(jp)、韓国語(ko)、ロシア語(ru)、タイ語(th)、ベトナム語(vi)の11言語を含む約1,500時間の会話音声データであり、英語データセットには、イギリス英語、アメリカ英語、オーストラリア英語、インド英語、フィリピン英語など、さまざまな地域をカバー、総計500時間が含まれています。

今回では、タガログ語 (tl)、ウルドゥー語 (ur)、トルコ語 (tr) の3言語に加え、カナダフランス語、メキシコスペイン語、ブラジルポルトガル語が追加されます。

対応言語とアクセントの拡充

さらなるチャレンジ

第2回MLC-SLMコンテストでは、前回のチャレンジで十分に扱われなかった音声ダイアリゼーションおよび認識タスクを引き続き実施します。

さらに、主に音響情報と意味情報を扱う多言語会話理解における、大規模音声言語モデルの可能性をさらに探求していきます。

さらなるチャレンジ

背景

大規模言語モデル(LLM)の飛躍的進歩は音声LLMの開発を加速させ、音声認識と言語理解の統合モデリングを可能にしました。しかし、この分野のさらなる発展は、自然な人間コミュニケーションの複雑性を反映した、実世界の多言語会話音声データの入手可能性に大きく依存しています。

本ワークショップの第1回では、音声認識(ASR)および話者ダイアリゼーションにおける音声LLMの有効性が実証されました。チャレンジの結果は、音声LLMが音声認識において高い性能を達成したことを示しており、文字起こしを中心としたモデリングはほぼ成熟段階にあることを示唆しています。対照的に、話者ダイアリゼーションは未だ重要な課題として残っており、特に複雑な多言語会話シナリオにおける性能は限定的です。これらの知見は、今後の進展には単なる文字起こし精度の向上を超え、会話構造やコンテンツの深層理解へのモデリングシフトが必要であることを示しています。

こうした知見を踏まえ、本ワークショップ第2回では、話者ダイアリゼーション、音響理解、意味理解における音声LLMの進展に注力します。これを支援するため、対象言語と会話シナリオを拡張した、より広範で多様な多言語会話音声データセットを公開します。「話者特定」「音響的実現」「意味情報伝達」を統合的にモデル化する研究を促進することで、本ワークショップは、音声言語の包括的な理解を推進し、多言語音声LLM研究の次の段階への進展を牽引することを目指します。

タスク設定と評価

本チャレンジは2つのタスクで構成されており、いずれも参加者が音声LLMの開発を探求することが求められます:

タスク1:多言語会話音声のダイアリゼーションと認識

評価中は、事前情報やオラクル情報は一切提供されません(例:事前にセグメント化された発話や話者ラベルはなし)。

目的:話者ダイアリゼーション(誰がいつ話しているかを特定すること)と認識(音声をテキストに変換すること)の両方を行うシステムを開発することとします。

パイプライン型システムとエンドツーエンド型システムの両方が推奨され、システム設計と実装の柔軟性が確保されます。

性能評価は、ダイアリゼーション誤り率(DER)および連結された最小順列WERまたはCER(tcpWERまたはtcpCERと呼ばれる)に基づいて行われます。DERは、オラクルアノテーションとダイアライゼーション結果の間で最適な話者IDの順列を決定するために使用されます。その後、録音内の同一話者に属する認識結果と参照データを連結し、tcpWER または tcpCER を算出します。すべての提出作品は、tcpWER または tcpCER に基づいて順位付けされます。

タスク2:多言語会話音声理解

評価中は、事前情報やオラクル情報は一切提供されません(例:事前にセグメント化された発話や話者ラベルは提供されません)。

目的:多言語会話の音響的および意味的な理解を行うシステムを開発することとします。

パイプライン型システムとエンドツーエンド型システムの両方が推奨され、システム設計と実装に柔軟性が確保されます。

選択式質問の形式で、会話全体を理解するシステムの能力を評価します。

重要日程(AOE時間)

2026年3月30日:登録開始
2026年4月10日:学習用データ公開
2026年4月24日:開発セットとベースラインシステムのリリース
2026年6月15日:評価セットリリースとリーダーボード公開
2026年6月25日:リーダーボードの締め・論文提出ポータルのオープン(CMTシステム)
2026年7月10日:論文提出締切
2026年7月20日:採否通知
2026年10月2日:ワークショップ開催日

データセットの説明

トレーニングセット

トレーニングセット(Train)には、英語(en)、フランス語(fr)、ドイツ語(de)、イタリア語(it)、ポルトガル語(pt)、スペイン語(es)、日本語(jp)、韓国語(ko)、ロシア語(ru)、タイ語(th)、ベトナム語(vi)、タガログ語(tl)、ウルドゥー語(ur)、トルコ語(tr)の計14言語が含まれています。

    各録音は、ランダムに割り当てられたトピックについて、2名の話者が対話を行う形式で構成されています。

    対話は自然で流暢であり、話者は各トピックについて意味のある会話を展開しています。

    録音は、静かな室内環境において、iPhoneなどの機器を使用して実施されています。

    各録音には、音声認識および話者ダイアリゼーションシステムの開発に活用できるよう、タイムスタンプ付きの正解アノテーションと話者ラベルが付与されています。

    タスクIおよびタスクIIでは、同一のトレーニングセットを共有しています。

    英語データセットには、米国、英国、オーストラリア、インド、フィリピンの英語など、地域バリエーションを含む約500時間の録音が含まれています。その他の言語はそれぞれ約100時間のデータを提供しており、合計で約2,100時間の多言語対話音声データで構成されています。

言語 データ量(h) 言語分類 サンプリングレート 詳細説明
英語 500 米国、英国、フィリピン、オーストラリア、インドの5つの地域アクセントを網羅。話者の性別・年齢は多様に分布し、自然な対話スタイルで収録。単語アノテーション精度98%。
100 米国英語 16kHz
100 英国英語 16kHz
100 フィリピン英語 16kHz
100 オーストラリア英語 16kHz
100 インド英語 16kHz
フランス語 200 16kHz スマートフォンにて録音。話者は習熟したトピックを複数選択し、各トピックについて流暢かつ自然な対話を収録。話者の性別・年齢は多様に分布。単語アノテーション精度98%。
100 ヨーロッパフランス語 16kHz
100 カナダフランス語 16kHz
ドイツ語 100 16kHz スマートフォンにて録音。話者は習熟したトピックを複数選択し、各トピックについて流暢かつ自然な対話を収録。話者の性別・年齢は多様に分布。単語アノテーション精度98%。
イタリア語 100 16kHz スマートフォンにて録音。話者は習熟したトピックを複数選択し、各トピックについて流暢かつ自然な対話を収録。話者の性別・年齢は多様に分布。単語アノテーション精度98%。
日本語 100 16kHz スマートフォンにて録音。話者は習熟したトピックを複数選択し、各トピックについて流暢かつ自然な対話を収録。話者の性別・年齢は多様に分布。文アノテーション精度95%。
韓国語 100 16kHz スマートフォンにて録音。話者は習熟したトピックを複数選択し、各トピックについて流暢かつ自然な対話を収録。話者の性別・年齢は多様に分布。文アノテーション精度95%。
ポルトガル語 200 16kHz スマートフォンにて録音。話者は習熟したトピックを複数選択し、各トピックについて流暢かつ自然な対話を収録。話者の性別・年齢は多様に分布。単語アノテーション精度98%。
100 ヨーロッパポルトガル語 16kHz
100 ブラジルポルトガル語 16kHz
ロシア語 100 16kHz スマートフォンにて録音。話者は習熟したトピックを複数選択し、各トピックについて流暢かつ自然な対話を収録。話者の性別・年齢は多様に分布。単語アノテーション精度98%。
スペイン語 200 16kHz スマートフォンにて録音。話者は習熟したトピックを複数選択し、各トピックについて流暢かつ自然な対話を収録。話者の性別・年齢は多様に分布。単語アノテーション精度98%。
100 ヨーロッパスペイン語 16kHz
100 メキシコスペイン語 16kHz
タイ語 100 16kHz スマートフォンにて録音。話者は習熟したトピックを複数選択し、各トピックについて流暢かつ自然な対話を収録。話者の性別・年齢は多様に分布。単語アノテーション精度97%。
ベトナム語 100 16kHz スマートフォンにて録音。話者は習熟したトピックを複数選択し、各トピックについて流暢かつ自然な対話を収録。話者の性別・年齢は多様に分布。単語アノテーション精度98%。
タガログ語 100 16kHz スマートフォンにて録音。話者は習熟したトピックを複数選択し、各トピックについて流暢かつ自然な対話を収録。話者の性別・年齢は多様に分布。単語アノテーション精度97%。
ウルドゥー語 100 16kHz スマートフォンにて録音。話者は習熟したトピックを複数選択し、各トピックについて流暢かつ自然な対話を収録。話者の性別・年齢は多様に分布。単語アノテーション精度98%。
トルコ語 100 16kHz スマートフォンにて録音。話者は習熟したトピックを複数選択し、各トピックについて流暢かつ自然な対話を収録。話者の性別・年齢は多様に分布。単語アノテーション精度98%。

ルール

本コンテストへの参加資格を得るためには、全ての参加者は以下のルールを遵守する必要があります。

大規模言語モデルの使用:タスク1およびタスク2において、全てのシステムは大規模言語モデル(LLM)、音声大規模言語モデル、またはマルチモーダル大規模言語モデルを基盤として構築されなければなりません。
外部リソースの使用:タスク1およびタスク2において、外部データセットおよび事前学習済みモデル(音声基盤モデルや大規模言語モデルを含む)の使用が許可されています。使用される全ての外部リソースは、あらゆる研究チームに対して無料で公開されているものでなければならず、また最終システムレポートにおいてその使用を明示的に記載する必要があります。
データ拡張:公開されているトレーニングセットに対するデータ拡張は許可されており、ノイズや残響の付加、速度摂動、ピッチ変更などが含まれますが、これらに限定されません。
評価データセットの使用禁止:評価用データセットは、規定に準拠しないいかなる方法においても使用することが厳しく禁止されています。これには、評価データセットを用いたモデルのファインチューニングや学習などが含まれますが、これらに限定されません。
複数システムの融合:タスク1およびタスク2において、システム融合(アンサンブル)の使用は認められていません。提出される結果は、結果の融合によって得られたものではなく、単一のモデルまたはシステムから出力されたものでなければなりません。
提出要件:全ての参加者は自身のシステムを提出する必要があります。提出物には、最終結果、モデル、および最終結果を直接推論可能なDockerコンテナなどが含まれます。詳細な提出手順は、ベースライン実装の公開後に提供されます。なお、参加登録済みでありながら一切のファイルを提出しなかったチームおよびその所属機関の名前は公開される場合がありますので、ご注意ください。
主催者による解釈権:本ルールに関する最終的な解釈権は主催者に留保されます。特殊な状況が生じた場合、主催者は必要に応じて解釈に関する調整を行うものとします。

その他のトピック

チャレンジシステムの説明に加え、参加者は革新的な知見、実践的なケーススタディ、および先見性のあるアイデアを紹介する研究論文の提出を推奨されます。関心のあるトピックには、以下が含まれますが、これらに限定されません:

新規アーキテクチャおよびアルゴリズム:大規模音声言語モデル(Speech Large Language Models)の学習に向けた新しいアーキテクチャおよびアルゴリズムの開発。
音声データ処理パイプライン:大規模音声言語モデルの訓練に向けた多様なインターネットデータの収集を促進する、生音声データを処理するための革新的なパイプライン。
自然で感情豊かな音声生成:対話システム向けに、より自然で感情表現豊かな会話音声を生成するためのアルゴリズム。
マルチターン会話履歴の活用:ダイアリゼーションおよび理解結果の向上を図るため、マルチターン会話履歴を活用するアプローチ。
評価手法とベンチマーク:大規模音声言語モデルの評価に特化した革新的な評価手法やベンチマーク。
新しいデータセット:大規模音声言語モデルの学習用に、実データおよび合成データの両方を用いた新しいデータセットの構築。

データへのアクセスおよび利用

登録済みの参加者には、トレーニングセットおよびテストセットへのアクセス権が付与されます。MLC-SLM チャレンジへの参加登録を行うことで、参加者は下記「データ使用許諾契約書」に同意し、機密保持およびデータ保護に関する規約を遵守することに合意したものとみなされます。本データセットは本ワークショップチャレンジの目的でのみ使用可能であり、再配布または他の目的での利用は厳しく禁止されています。参加者は、データが不正アクセスから保護されるよう管理する責任を負います

データ使用許諾契約書
Data Use Agreement

参加登録

以下の登録フォームより、チームの登録をお願いいたします。

Google フォーム

本チャレンジの登録受付は2026年3月30日より開始されます。登録完了時点で、参加者は関連する利用規約および契約内容に同意したものとみなされます。

学界および産業界を問わず、あらゆるチームのご参加を歓迎いたします。また、個人研究者の方々の参加も積極的に推奨しております。

登録に関する詳細なお問い合わせは、下記メールアドレスまでご連絡ください:[email protected]

委員会

Lei Xie, 西北工業大学
Shuai Wang, 南京大学
Liumeng Xue, 南京大学
Eng Siong Chng, ナンヤン理工大学
Hung-yi Lee, 国立台湾大学
Xie Chen, 上海交通大学
Khalid Choukri, ヨーロッパ言語資源協会(ELRA)
Qiangze Feng, Nexdata
Daliang Wang, Nexdata
Longshuai Xiao, ファーウェイ
Hexin Liu, ナンヤン工科大学
Bingshen Mu, 西北工業大学
Zhennan Lin, 西北工業大学

目標設定

大規模言語モデル(LLM)は、言語理解・生成のタスクにおいて強力な基盤モデルとして機能しています。近年では、LLMを自動音声認識(ASR)、オーディオキャプション、音声対話モデルなどの最先端分野の音声言語処理タスクに適用する研究が多くなっています。

現実世界の会話音声データは、自然な一時停止・中断、話者の重複、多様な会話スタイルなど、人間のコミュニケーションの複雑さを捉えているため、LLMベースの音声対話モデルの開発に不可欠です。しかし、多言語環境の音声認識研究において、データ不足が大きな課題となっています。

現実世界の会話型音声は、多言語でダイナミック、かつ文脈に富んだ環境における高精度なAIシステムの構築や、音声対話が主要なコミュニケーションモードとして機能する次世代AI対話システムの開発に欠かせないです。

したがって、本ワークショップ・コンテストは、高精度な多言語会話音声言語モデルの構築に挑み、現実世界における多言語会話音声データセットを作成することで、音声認識の発展に寄与致します。

タスク設定・評価

このイベントは2つのタスクで構成されており、どちらも参加者に音声言語モデルの開発を探求することを求める:

タスク1:多言語会話型音声認識モデルの開発

目的: 多言語 LLM ベースのASRモデルの開発。

参加者には、会話ごとにオラクルセグメンテーションが提供されます。

このタスクでは、多言語環境での文字起こしの精度の最適化に焦点を当てています。

タスク2:多言語会話音声のダイアライゼーションと認識

目的:話者のダイアライゼーション(誰がいつ話しているかを特定する)及び認識(音声の文字起こし)の両方のシステム開発。

評価中に事前情報は提供されません(たとえば、事前にセグメント化された発話や話者ラベルなど)。

システムの設計・実装に柔軟性をもたらすため、パイプラインベースのシステムとエンドツーエンドのシステムの両方が推奨されます。

タスクIでは、異なる言語間の単語誤り率(WER)または文字誤り率(CER)を用いてシステム性能を評価します。

タスクIIでは、ダイアライゼーションエラーレート(DER)、およびtcpWERまたはtcpCERと呼ばれる最小並べ替えWERまたはCERに基づいて性能が評価されます。DERは、オラクル注釈とダイアライゼーション結果の間の最良の話者ID順列を決定するために採用されます。次に、録音内の同じ話者に属する認識結果と参照を連結して、tcpWERまたはtcpCERを計算します。すべての投稿は、tcpWERまたはtcpCERに従ってランク付けされます。

重要な日付(AOE時間)

    2025年3月10日 登録開始

    2025年3月15日 トレーニングデータ発表

    2025年4月1日 開発セットとベースラインシステムのリリース

    2025年5月15日 評価セットリリースとリーダーボード公開

    2025年5月30日 リーダーボードの締め・論文提出ポータルのオープン(CMTシステム)

    2025年6月15日 論文提出期限

    2025年7月1日 採択通知

    2025年8月22日 ワークショップ開催日

データセットの説明

トレーニングセット

チャレンジデータセットは、英語(en)、フランス語(fr)、ドイツ語(de)、イタリア語(it)、ポルトガル語(pt)、スペイン語(es)、日本語(jp)、韓国語(ko)、ロシア語(ru)、タイ語(th)、ベトナム語(vi)の約11言語で構成されています。

    各録音は、ランダムに割り当てられたトピックに関する2話者の会話音声で構成されています。

    会話は自然で流暢であり、各トピックについて意味のある対話をしています。

    静かな室内環境で、iPhoneなどのデバイスを使用して録音したものです。

    各録音は、音声認識および話者ダイアライゼーションシステム開発のためのオラクルセグメンテーションおよび話者ラベルを提供します。

    タスクIとタスクIIは同じトレーニングセットを共有します。

    英語のデータセットは、イギリス英語、アメリカ英語、オーストラリア英語、インド英語、フィリピン英語など、さまざまな地域の約500時間の録音から構成されています。その他の言語はそれぞれ約100時間で、合計約1500時間の多言語会話音声データとなっています。

このデータセットは、多言語会話音声言語モデル(MLC-SLM)の訓練と評価のための豊富なリソースを提供するように設計されており、言語の多様性、話者の多様性、文脈理解の課題に対応しています。

言語 データ規模(時間) 言語分類 サンプリング・レート 説明
英語 500 アメリカ、イギリス、フィリピン、オーストラリア、インドの5つのアクセントの英語を収録。多様な性別と年齢、自然な会話スタイル。単語誤り率は2%以下。
100 アメリカ英語 16K
100 イギリス英語 16K
100 フィリピン英語 16K
100 オーストラリア英語 16K
100 インド英語 16K
フランス語 100 16k 録音は携帯電話で行い、レコーダーは身近な話題をいくつか選び、それぞれについてスムーズで自然な会話を録音する。話し手の性別や年齢は様々。単語の誤り率は2%以下。
ドイツ語 100 16k 録音は携帯電話で行い、レコーダーは身近な話題をいくつか選び、それぞれについてスムーズで自然な会話を録音する。話し手の性別や年齢は様々。単語の誤り率は2%以下。
イタリア語 100 16k 録音は携帯電話で行い、レコーダーは身近な話題をいくつか選び、それぞれについてスムーズで自然な会話を録音する。話し手の性別や年齢は様々。単語の誤り率は2%以下。
日本語 100 16k 録音は携帯電話で行い、レコーダーは身近な話題をいくつか選び、それぞれについてスムーズで自然な会話を録音する。話し手の性別や年齢は様々。文の誤り率は5%以下。
韓国語 100 16k 録音は携帯電話で行い、レコーダーは身近な話題をいくつか選び、それぞれについてスムーズで自然な会話を録音する。話し手の性別や年齢は様々。文の誤り率は5%以下。
ポルトガル語(ヨーロッパ) 100 16k 録音は携帯電話で行い、レコーダーは身近な話題をいくつか選び、それぞれについてスムーズで自然な会話を録音する。話し手の性別や年齢は様々。単語の誤り率は2%以下。
ロシア語 100 16k 録音は携帯電話で行い、レコーダーは身近な話題をいくつか選び、それぞれについてスムーズで自然な会話を録音する。話し手の性別や年齢は様々。単語の誤り率は2%以下。
スペイン語(スペイン) 100 16k 録音は携帯電話で行い、レコーダーは身近な話題をいくつか選び、それぞれについてスムーズで自然な会話を録音する。話し手の性別や年齢は様々。単語の誤り率は2%以下。
タイ語 100 16k 録音は携帯電話で行い、レコーダーは身近な話題をいくつか選び、それぞれについてスムーズで自然な会話を録音する。話し手の性別や年齢は様々。単語の誤り率は3%以下。
ベトナム語 100 16k 録音は携帯電話で行い、レコーダーは身近な話題をいくつか選び、それぞれについてスムーズで自然な会話を録音する。話し手の性別や年齢は様々。単語の誤り率は2%以下。

開発セット

開発セット(Dev)はトレーニングセットと同じ設定ですが、各言語で約4時間の録音が含まれています。タスクIとタスクIIは、同じ開発セットを共有します。

評価セット

タスクごとに異なる評価セットを採用し、Eval_1 と Eval_2 とします。具体的には、Eval_1にはオラクルタイムスタンプと話者ラベルが含まれ、WER/CERを用いて評価されます。Eval_2では、タイムスタンプや話者ラベルが提供されないため、認識前に長い録音をセグメント化するための話者ダイアライゼーション(SD)システムが必要となります。
参加者は、データ使用同意書に署名し、登録フォームに送信することで、データセットにアクセスすることができます。送信後、データのダウンロードリンクがEメールに送信されます。



ルール

すべての参加者は、チャレンジの対象となるために以下のルールを遵守しなければなりません。

外部リソースの使用: トラックIとトラックIIの両方において、外部データセットと事前学習済みモデル(音声基礎モデルとLLMを含む)の使用が許可されます。利用される外部リソースは、すべての研究グループが自由にアクセスできるものでなければならず、最終的なシステムレポートに明記されなければなりません。
データ補強: リリースされたトレーニングセットでは、データの拡張が許可されており、ノイズや残響の追加、速度の摂動、音色の修正などが含まれるが、これらに限られるものではないです。
評価セットの使用禁止: どのような形であれ、コンプライアンスに反する形で評価セットを使用することは固く禁じられています。これには、モデルの微調整やトレーニングに評価セットを使用することが含まれるが、これに限られるものではないです。
マルチシステムフュージョン: タスクIとタスクIIのいずれにおいても、参加者はシステムフュージョンを使用することはできません。提出される結果は、結果融合ではなく、単一のモデルから導き出されたものでなければなりません。
提出要件: すべての参加者は、自身のシステムを提出する必要があります。提出物には、最終結果、モデル、最終結果を得るための推論を直接実行できるDockerなどが含まれます。詳細な提出方法は、ベースライン実装の公開後にお知らせします。なお、参加は確認したがファイルを提出しなかったチームとその所属機関名は公開します。
主催者の解釈: 主催者は、本ルールの最終的な解釈を行う権利を有します。特別な事情がある場合は、主催者が必要に応じて解釈を調整します。

その他のトピック

チャレンジシステムの説明に加え、参加者は革新的な発見、実践的なケーススタディ、将来を見据えたアイデアを紹介する研究論文を提出することが奨励されます。関心のあるトピックは以下の通りですが、これらに限定されるものではありません:

新しいアーキテクチャとアルゴリズム: SLMを訓練するための新しいアーキテクチャとアルゴリズムの開発。
オーディオデータ処理パイプライン: SLMを訓練するための多様なインターネットデータの収集を容易にする、生の音声データを処理するための革新的なパイプライン。
自然で感情豊かな音声生成: 対話システム向けに、より自然で感情表現豊かな会話音声を生成するためのアルゴリズム。
マルチターン会話履歴の活用: 認識やダイアライズの結果を向上させるためにマルチターン会話履歴を利用するアプローチ。
評価技法とベンチマーク: SLMの評価に特化した革新的な評価技術やベンチマーク。
新しいデータセット: 音声言語モデルのトレーニングのための、実データと合成データの両方を含む新しいデータセットの作成。

データへのアクセスと使用

登録された参加者は、トレーニングおよびテストのデータセットにアクセスすることができます。参加者は、データ使用同意書(下記参照)に署名し、守秘義務に同意し、データ保護同意書を遵守しなければなりません。データセットは、ワークショップの課題の目的にのみ使用され、再配布やその他の使用は固く禁じられています。不正アクセスからデータ を保護することは各参加者側の義務となります。

データライセンス契約
Data use agreement- nexdata

参加登録

参加には登録が必要です。 署名済みのデータ使用同意書をアップロードし、登録フォームに記入してください。チャレンジは2025年3月10日に開始します。

その他、登録に関するお問い合わせは下記までお願いいたします: [email protected]

ベースライン・システム

Github/MLC-SLM-Baseline

リーダーボード提出

タスクI提出

タスクⅡ提出

論文投稿ガイドライン

1. チャレンジ論文:

a. 参加者は、短い技術説明論文を1つ提出しなければならないです(チームが両方のタスクに参加した場合も同様)。

b. 長さ: 内容2~4ページ+参考文献1ページ。

c. 内容の要件:
  i. 提出書類の正確性と規則遵守にアクセスするための明確なシステム説明。
  ii. 使用したオープンソースのデータセットとモデル、データ補強戦略、モデルアーキテクチャ、トレーニング構成などの再現性の詳細。
  iii. アブレーション分析により、方法の有効性が実証されていること。

d. すべてのチャレンジ参加者は、ワークショップで講演またはポスターを発表することが期待されます。

2.チャレンジ以外の論文:

a. 長さ: 内容4ページ+参考文献1ページ。

b. トピック: チャレンジウェブサイトに掲載されているトピックを含むが、これに限定されません。

3. オーサーキット:

すべての投稿には、提供された Interspeech 2022 LaTeX オーサーキット (https://www.interspeech2022.org/files/IS2022_paper_kit.zip) を使用してください。 なお、我々は2022年インタースピーチ・オーサー・キットを使用し、シングル・ブラインド・レビューを行います。

4. 投稿ポータル

a. CMT conference system経由で論文を投稿してください。

b. 本大会の査読プロセス管理には、Microsoft CMTサービスを使用しました。このサービスはマイクロソフト社から無償で提供され、Azureクラウドサービスやソフトウェア開発・サポートにかかる費用を含め、すべての費用をマイクロソフト社が負担します。

賞金

賞金総額:20,000ドル

本大会上位入賞チームへの賞金(各タスク):

1位:5,000ドル
2位:3,000ドル
3位:2,000ドル

会場

ロッテルダム・アホイ・コンベンションセンター(オランダ・ロッテルダム)

ワークショップ参加登録料

登録費用:50ユーロ

委員会

    Lei Xie、教授、西北理工大学(中国)

    Shinji Watanabe、准教授、カーネギーメロン大学(米国)

    Eng Siong Chng、教授、南洋理工大学(シンガポール)

    Junlan Feng、IEEEフェロー兼チーフサイエンティスト、中国移動(中国)

    Shuai Wang、研究科学者、深圳ビッグデータ研究所

    Khalid Choukri、局長、局長欧州言語資源協会事務局(フランス)

    Qiangze Feng、共同創業者兼データサイエンティスト、Nexdata(米国)

    Daliang Wang、データサイエンティスト、Nexdata(米国)

    Hexin Liu、博士研究員、南洋理工大学(シンガポール)

    Pengcheng Guo、博士課程学生、西北工業大学(中国)

    Bingshen Mu、博士課程学生、西北工業大学(中国)

    Zhaokai Sun、修士課程学生、西北工業大学(中国)

スポンサー

メディアパートナー

ad822aea-3075-4fcb-85d1-a9988200eb2d