「Datatang株式会社」は現在「Nexdata」のブランドとして事業を展開しています。本サイトより最新のAIデータサービスとソリューションをご案内いたします。

jp

Please fill in your name

Mobile phone format error

Please enter the telephone

Please enter your company name

Please enter your company email

Please enter the data requirement

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

The data requirement cannot be less than 5 words and cannot be pure numbers

ホーム > 全てのデータセット > 音声認識データセット > 136時間分の韓国語音声データ_対話（電話）

136時間分の韓国語音声データ_対話（電話）

会話

電話

韓国語

韓国語音声データ_対話（電話）は、約30の一般的なテーマに基づいてシミュレーション録音されています。このデータセットには、テキスト内容、文のタイムスタンプ、話者ID、性別など多様な属性がアノテーションされています。216名の異なる地域や文化的背景を持つネイティブな韓国人によって録音され、高い正確性を備えており、音声認識関連の研究や応用に豊富なリソースを提供します。複数のAI企業による検証結果：モデルが現実世界の多様性に直面した際に優れた性能を発揮するのに役立ちます。また、複数のAI企業による検証を経ており、モデルが現実世界の多様性に直面した際に優れたパフォーマンスを発揮するのに役立ちます。当社は、データ保護規制とプライバシー規定を厳格に遵守し、データの収集、保存、使用の過程においてユーザーのプライバシーと法的権利を保護するよう努めています。すべてのデータは、GDPR、CCPA、PIPLに準拠しています。

このデータセットは、商用利用や研究目的などに役立つ有償のデータセットです。著作権ありの既製データセットは、AIプロジェクトの飛躍的なスタートに役立ちます。

データ仕様

フォーマット

8kHz、8bit、u-law/a-law pcm、モノラル

内容分類

話者は、特定のトピックリストから馴染みなものをいくつか選び、それぞれについてスムーズで自然な対話を録音します。

録音条件

比較的静かな部屋、エコーなし

録音設備

通話録音システム

話者情報

男性94名、女性122名、計216名。

国

韓国

言語地域コード

ko-KR

言語

韓国語

アノテーション特徴

文字おこし、文のタイムスタンプ、話者の識別、性別、ノイズアノテーション

正解率

単語正解率は98％

サンプル

サンプル

Audio
A 시리즈가 있고 또 무슨 Z 시리즈가 있고 이러지 않아?
Audio
해외 직구.
Audio
저는 예전부터 항상
Audio
갤럭시만 썼던 것 같애요.
Audio
그냥 아직 한국에는 안 팔아서 어디서 어디 엄마가 사주신 거거든요 그냥.

おすすめデータセット

おすすめデータセット

48kHz・500時間高音質・話者分離日本語自然会話音声データセット

本データは、フルデュプレックス（全二重）対話を前提に収録した高品質な日本語音声データセットです。半二重方式では再現が難しい同時発話や重なり発話、自然な相槌や割込みを含み、双方向に同時進行する対話を再現した同時双方向音声データセットとして、リアルタイム対話AIや次世代ASRの研究開発に適しています。本セットは、提示されたトピックリストから収録者が複数の得意分野を選択し、自然な流れで会話を展開して収録した日本語自然会話音声データセットです。日本各地のネイティブ話者による多様な対話を含み、高音質収録によりASRの音響・言語モデル学習、声紋識別、対話システム評価など幅広い研究用途に活用できます。データは各種プライバシー保護規制に準拠して管理されています。当社の全二重音声データセットシリーズは、日本語をはじめ、英語、韓国語など多言語に対応し、書き起こしテキスト、発話タイムスタンプ、話者ID、性別などの詳細アノテーションを標準搭載しています。また、話者ごとの独立音声を含む話者分離音声データセットとしても利用可能で、収録条件や話者属性、ラベル仕様のカスタマイズ収集・作成にも柔軟に対応します。

日本語音声データ話者分離音声データ全二重音声データセット同時双方向音声データセット日本語自然会話音声データ

グジャラート語の脚本に基づいた会話音声データ

グジャラート語の脚本に基づいた会話音声データは、与えられた脚本に基づいて会話をシミュレーションし、録音したもので、複数の分野をカバーし、内容が豊富である。このデータセットには、テキスト内容などの多様な属性がラベリングされており、高い正確性を備えており、音声認識に関する研究や応用に豊富なリソースを提供している。複数のAI企業による検証結果、このデータはモデルが現実世界の多様性に直面した際に優れたパフォーマンスを発揮するのに役立つ。当社はデータ保護法規やプライバシーに関する規定を厳格に遵守し、データの収集、保存、利用の過程でユーザーのプライバシーと合法的な権益を守り、すべてのデータはGDPR、CCPA、PIPLに準拠している。

グジャラート語インド会話音声

360時間のヨーロッパポルトガル語口語化音声データ

ヨーロッパポルトガル語口語化音声データ、内容は対話、インタビューなどの領域をカバーし、実世界のインタラクションシーンを反映しています。このデータセットはテキスト内容、話者識別、性別など多様な属性をアノテーションし、異なる地域や文化的背景を持つポルトガル現地人によって録音され、高精度で使いやすく、音声認識関連の研究やアプリケーションに豊富なリソースを提供します。モデルが実世界の多様性に対応するのに役立つことが複数のAI企業による検証で確認されています。データ保護法規とプライバシー規定を厳格に遵守し、データ収集、保存、使用の過程でユーザーのプライバシーと法的権利を保護します。すべてのデータはGDPR、CCPA、PIPLに準拠しています。

ポルトガル語ヨーロッパ

190時間のフランス語ゲーム領域音声データ_口語化

フランス語ゲーム領域口語化音声データ、国内で人気かつ長く続くトップゲームの会話音声を選び、プレイヤーの戦略相談、ソーシャルインタラクション、eスポーツニュースなどを含み、実世界のインタラクションシーンを反映しています。このデータセットはテキスト内容、攻撃的発言、話者識別、性別など多様な属性をアノテーションし、異なる地域や文化的背景を持つ複数の人員によって録音され、高精度で使いやすく、音声認識関連の研究やアプリケーションに豊富なリソースを提供します。複数のAI企業による検証により、モデルが実世界の多様性に対応するのに役立つことが確認されています。データ保護法規とプライバシー規定を厳格に遵守し、データ収集、保存、使用の過程でユーザーのプライバシーと法的権利を保護します。すべてのデータはGDPR、CCPA、PIPLに準拠しています。

フランス語自然な対話ゲーム

217時間のスペイン語金融領域エンティティアノテーション口語化音声データ

スペイン語金融領域エンティティアノテーション口語化音声データ、各種金融専門用語をカバーし、主にマクロ金融内容とミクロ金融内容に分かれ、実世界のインタラクションシーンを反映しています。このデータセットはテキスト内容、話者識別、性別、一般的なエンティティ用語など多様な属性をアノテーションし、さまざまな人工知能アプリケーションに豊富なリソースを提供します。複数のAI企業による検証により、モデルが実世界の多様性に対応するのに役立つことが確認されています。データ保護法規とプライバシー規定を厳格に遵守し、データ収集、保存、使用の過程でユーザーのプライバシーと法的権利を保護します。すべてのデータはGDPR、CCPA、PIPLに準拠しています。

スペイン語エンティティ自然な対話金融

200時間のブラジルポルトガル語金融領域エンティティアノテーション口語化音声データ

ブラジルポルトガル語金融領域エンティティアノテーション口語化音声データ、各種金融専門用語をカバーし、主にマクロ金融内容とミクロ金融内容に分かれ、実世界のインタラクションシーンを反映しています。このデータセットはテキスト内容、話者識別、性別、一般的なエンティティ用語など多様な属性をアノテーションし、さまざまな人工知能アプリケーションに豊富なリソースを提供します。複数のAI企業による検証により、モデルが実世界の多様性に対応するのに役立つことが確認されています。データ保護法規とプライバシー規定を厳格に遵守し、データ収集、保存、使用の過程でユーザーのプライバシーと法的権利を保護します。すべてのデータはGDPR、CCPA、PIPLに準拠しています。

ブラジルポルトガル語エンティティ自然な対話金融

203時間ドイツ語金融業界音声データセット

203時間におよぶドイツ語の金融ドメイン音声データは、マクロ経済やミクロ金融に関わる実際の会話シーンを再現したもので、金融専門用語を高密度に含んだ自然な口語表現が特徴です。テキスト内容に加え、話者ID、性別、および金融関連エンティティ（企業名、通貨、商品名など）を正確にアノテーションしており、音声認識をはじめとするさまざまなAIアプリケーションに活用可能な高品質リソースです。複数のAI企業がこのデータを実際にモデル訓練に活用し、金融現場の多様なやり取りに良好な対応力を示しています。音声はすべて話者が用途を理解した上で提供しており、機械学習の研究・開発、および製品への組み込みを含む商用利用が認められています。

ドイツ語金融業界ドイツ語音声コーパスドイツ語音声認識

105時間のイタリア語ゲーム領域音声データ_口語化

イタリア語ゲーム領域音声データ_口語化、国内で人気かつ長く続くトップゲームの会話音声を選び、プレイヤーの戦略相談、ソーシャルインタラクション、eスポーツニュースなどを含み、実世界のインタラクションシーンを反映しています。このデータセットはテキスト内容、話者識別、性別、攻撃的発言アノテーション、アクセントなど多様な属性をアノテーションし、異なる地域や文化的背景を持つ複数の人員によって録音され、高精度で使いやすく、音声認識関連の研究やアプリケーションに豊富なリソースを提供します。複数のAI企業による検証により、モデルが実世界の多様性に対応するのに役立つことが確認されています。データ保護法規とプライバシー規定を厳格に遵守し、データ収集、保存、使用の過程でユーザーのプライバシーと法的権利を保護します。すべてのデータはGDPR、CCPA、PIPLに準拠しています。

イタリア自然な対話ゲームイタリア語

ご要望をご相談ください

プロジェクトの成熟度

初期検討段階（具体的な仕様は未定）

目標は明確だが、専門的な支援が必要

開発中または最適化フェーズ

データ／アノテーションの専門チーム（明確な仕様あり）

フルネーム *

電話番号*

会社名 *

ビジネスメール *

データ要件 *

プライバシー保護に同意する

よくあるご質問

日本語の音声認識データにはどのようなバリエーションがありますか？

子どもの日常会話、モノローグ、講義、バラエティなど幅広いジャンルを含むリアルな対話音声が収録されており、話者 ID、性別、年齢、アクセントなどもアノテーションされています。

データの多様性は実際のユースケースに役立ちますか？

はい、リアルな対話と幅広い話者属性を収録しており、日本のさまざまな環境での音声認識モデルに対応可能です。

納品までのスピードはどの程度ですか？

既製データセットは最短1日で納品可能で、カスタム収集・アノテーションも迅速対応可能です。

ニュースレターを購読する

AI学習用データ製品: 全てのデータセット; LLMデータセット; 画像・動画データセット; 音声認識データセット; 音声合成データセット; OCRデータセット; 発音辞書データセット; 自然言語理解データセット

データサービス: 3D点群データ; ストリートビューデータ; OCRデータ; 行動識別データ; ID識別データ; 音声認識データ; 音声合成データ; マルチモーダルデータ

活用事例: エンボディドAI; 生成AI; 自動運転; 製造業; チャットボット; AR/VR; スマートホーム; リテール; ヘルスケア

企業情報: 運営会社; 資料ダウンロード; お役立ち情報; パートナー; データセキュリティ; イベント
リンク: OPENMPD; DataPlus; Datarade

プラットフォーム: プラットフォーム
コンテスト: コンテスト
リソース: オープンデータセット

より高品質なデータでより高精度なAIを構築

0362568911

[email protected]

nexdata_ai facebook

nexdata_ai twitter

nexdata_ai linkedin

nexdata_ai youtube

Copyright © 2023 NEXDATA TECHNOLOGY INC

サイドマップ利用規約

当社は、お客様のブラウジング体験を向上させ、パーソナライズされた広告やコンテンツを提供し、当社のトラフィックを分析するためにクッキーを使用します。「すべてを受け入れる」をクリックすると、クッキーの使用に同意したことになります。

d43a3952-0397-434f-85d5-ee14586710a1

761340a3-6205-41ea-a02d-f2969a9d3580