jp

Please fill in your name

Mobile phone format error

Please enter the telephone

Please enter your company name

Please enter your company email

Please enter the data requirement

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

The data requirement cannot be less than 5 words and cannot be pure numbers

m.nexdata.datatang.com

音声認識研究の最先端向け、音声モデル・LLM向けデータソリューション

発信者:Nexdata 日時: 2024-11-07

音声言語処理における世界最大の国際学会INTERSPEECH2024に弊社がスポンサーとして出展致しました。学会で所見した音声認識研究の最先端に合わせて、弊社の音声データサービスを紹介致します。

 

弊社では、100万時間に及ぶ既製の音声データによって、お客様の音声モデルを強化します。全てのデータセットは弊社が著作権を持ち、安心で高品質なデータサービスはMeta様、AWS様、NICT様、NTT様などグローバル的に好評を頂いております。

 

弊社の音声モデルとLLM向けデータサービスを紹介致します:

 

教師なし学習向け大規模音声データ

日本語、英語、韓国語、フランス語、アラビア語、ドイツ語、スペイン語、ポルトガル語など、各言語10万時間以上ほゆうしております。

 

多言語TTSデータ

日本語、中国語、英語などをはじめ、60+の言語をカバーし、50万時間時間を超えております。イントネーション、リズム、ポーズ、声質、感情などのパラ言語、韻律など、ラベル付け済みです。

 

複数話者の会話・感情音声データ

発話者は30つの日常話題から自由に選べ、そのまま自然会話を収録しております。録音されたテキストは、怒り、喜び、悲しみなど10の感情をカバーしています。すべて高音質のマイクで収録され、感情的な音声の分析と検出に適しており、複数のAI企業によって検証済みです。

 

音声合成・音声変換向け多言語コーパス

日本語とその方言、英語、中国語及ぶその方言を含み、30の言語をカバーしています。平均音色、マルチシーンを含め、総計で1万時間を及びます。

 

業界向け自然会話音声データ

金融、医療、コールセンター、ゲーム業界をカバーそれぞれ総計20時間を有しています。60つの言語の中には、日本語、英語、スペイン語、ポルトガル語、フランス語、ドイツ語が人気シリーズとなります。

 

ファインチューニングテキストデータ

数百の大規模言語モデルプロジェクトの経験により、ファンチューニング向けの多言語テキストデータを積み上げてきました。言語としては、日本語、英語、中国語、フランス語、スペイン語、ポルトガル語、ドイツ語、韓国語、イタリア語などがあります。

 

弊社Datatangは、個別対応のデータ収集とアノテーションサービスも提供しています。データサービスにおいて13年の経験を持つ弊社は、60以上の国と地域にまたがるリソースを有しています。当社のHuman-in-the-Loopアノテーションプラットフォームは、音声セグメンテーション、ノイズアノテーション、音声の文字起こし、話者の役割ラベリングなど、多様な音声アノテーションをサポートしています。

 

詳細はHPにてお問い合わせください。

a04e6193-a764-4516-a309-444641cce275