jp

Please fill in your name

Mobile phone format error

Please enter the telephone

Please enter your company name

Please enter your company email

Please enter the data requirement

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

The data requirement cannot be less than 5 words and cannot be pure numbers

m.nexdata.datatang.com

最大10,000ドル賞金、多言語会話音声言語モデルワークショップコンテスト応募開始!  

発信者:Nexdata 日時: 2025-03-12

大規模言語モデル(LLM)ベースの音声認識や対話モデルの開発が注目されていますが、現実世界の多言語会話音声データの複雑さが課題となっていますDatatang株式会社は、MetaGoogleSamsungNaverなど世界大手会社と共に、多言語会話音声言語モデルをテーマにしたワークショップコンテスト(略称:MLC-SLM Workshopを開催しますINTERSPEECH2025ワークショップとして、多言語会話音声モデルの研究者向けに参加者を募集中です。優勝チームに最大10,000ドルの賞金を授与します。 

 

背景

 

大規模言語モデル(LLM)は、言語理解生成のタスクにおいて強力な基盤モデルとして機能しています。近年では、LLM自動音声認識(ASR)、オーディオキャプション、音声対話モデルなどの最先端分野の音声言語処理タスクに適用する研究が多くなっています。

 

現実世界の会話音声データは、自然な一時停止中断、話者の重複、多様な会話スタイルなど、人間のコミュニケーションの複雑さを捉えているためLLMベースの音声対話モデルの開発に不可欠です。しかし、多言語環境の音声認識研究において、データ不足大きな課題となっています

 

現実世界の会話型音声は、多言語でダイナミック、かつ文脈に富んだ環境における高精度なAIシステム構築や、音声対話が主要なコミュニケーションモードとして機能する次世代AI対話システムの開発に欠かせないです

 

したがって、ワークショップ・コンテストは、高精度な多言語会話音声言語モデルの構築に挑み現実世界における多言語会話音声データセットを作成することで音声認識の発展に寄与致します

 

タスク設定

 

タスク1:多言語会話型音声認識モデルの開発

参加者には、会話ごとにオラクルセグメンテーションが提供されます。

目的: 多言語 LLM ベースのASRモデルの開発このタスクでは、多言語環境での文字起こしの精度の最適化に焦点を当てています。

 

タスク2:多言語会話音声のダイアライゼーションと認識

評価中に事前情報は提供されません(たとえば、事前にセグメント化された発話や話者ラベルなど)

目的:話者のダイアライゼーション(誰がいつ話しているかを特定する)及び認識(音声の文字起こし)の両方のシステム開発

システムの設計・実装に柔軟性をもたらすため、パイプラインベースのシステムとエンドツーエンドのシステムの両方が推奨されます。

 

重要な日程


2025220:申し込み開始

2025310:トレーニングデータ公開

2025317:開発セットとベースラインシステムのリリース

2025515:評価セットのリリースとランキング公開

2025601:ランキング終了、提出ポータル公開(CMTシステム)

2025620:提出の締切

2025710:採否通知

2025822:ワークショップ開催INTERSPEECH2025開催地ロッテルダム

 

データセットの説明

 

チャレンジデータセットは、英語(en)、フランス語(fr)、ドイツ語(de)、イタリア語(it)、ポルトガル語(pt)、スペイン語(es)、日本語(jp)、韓国語(ko)、ロシア語(ru)、タイ語(th)、ベトナム語(vi)の約11言語で構成されています

 

各セットは、ランダムに割り当てられたトピックに関する2人のスピーカーの会話スピーチで構成されています。会話は自然流暢に録音され、スピーカーは各トピックについて有意義な対話をします。iPhoneなどのデバイスを使用して静かな屋内環境で録音します。

 

英語データセットは、イギリス英語、アメリカ英語、オーストラリア英語、インド英語、フィリピン英語など、さまざまな地域からの約 500 時間の録音で構成されています。他の言語はそれぞれ約 100 時間、合計で約 1500 時間の多言語会話音声データが得られます。

 

データセットの詳細や使用についてはこちらhttps://www.nexdata.ai/competition/mlc-slm

 

応募方法

 

202541日までに署名したデータ使用契約書をアップロードし、登録フォームに必要事項をご記入ください。

 

申し込み詳細はこちら:https://www.nexdata.ai/competition/mlc-slm


 

賞金総額 : 20,000ドル

 

タスク1

1位チーム 5,000ドル

2チーム 3,000ドル

3チーム   2,000ドル

 

タスク2

1位チーム 5,000ドル

2チーム 3,000ドル

3チーム   2,000ドル

 

委員会

Shinji Watanabe カーネギーメロン大学准教授

Eng Siong Chng 南洋理工大学准教授

Khalid Choukriハリド・チョウクリ)、欧州言語資源協会事務局長

Junlan Feng、IEEE 特別研究員 & チャイナモバイル チーフサイエンティスト

Qiangze Feng、共同創業者兼データサイエンティスト、Datatang株式会

Daliang Wang、データサイエンティスト、Datatang株式会社

Lei Xie、中国西北工業大学音声認識教授

Pengcheng Guo、中国西北工業大学博士

Bingshen Mu、中国西北工業大学博士

 

コンテストに関するお問い合わせ先:[email protected]

 

Datatang株式会社について

社 名 データ・タング株式会社(Datatang株式会社)

所在地 東京都千代田区神田淡路町2-105ワテラスアネックス6

設 立 20202

資本金 5000万円

事業概要:AI学習データ提供事業(自社データ・カスタマイズデータ)

     AI学習データの収集・アノテーション ・プラットフォーム提供事業

URL   : https://www.datatang.co.jp/

491ebc50-3d4a-489a-9d54-cc713b38d877