「Datatang株式会社」は現在「Nexdata」のブランドとして事業を展開しています。本サイトより最新のAIデータサービスとソリューションをご案内いたします。

jp

Please fill in your name

Mobile phone format error

Please enter the telephone

Please enter your company name

Please enter your company email

Please enter the data requirement

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

The data requirement cannot be less than 5 words and cannot be pure numbers

203時間ドイツ語金融業界音声データセット

ドイツ語
金融業界
ドイツ語音声コーパス
ドイツ語音声認識

203時間におよぶドイツ語の金融ドメイン音声データは、マクロ経済やミクロ金融に関わる実際の会話シーンを再現したもので、金融専門用語を高密度に含んだ自然な口語表現が特徴です。テキスト内容に加え、話者ID、性別、および金融関連エンティティ(企業名、通貨、商品名など)を正確にアノテーションしており、音声認識をはじめとするさまざまなAIアプリケーションに活用可能な高品質リソースです。複数のAI企業がこのデータを実際にモデル訓練に活用し、金融現場の多様なやり取りに良好な対応力を示しています。音声はすべて話者が用途を理解した上で提供しており、機械学習の研究・開発、および製品への組み込みを含む商用利用が認められています。

有料データセット
このデータセットは、商用利用や研究目的などに役立つ有償のデータセットです。著作権ありの既製データセットは、AIプロジェクトの飛躍的なスタートに役立ちます。
仕様データ仕様
フォーマット
16kHz、16bit、wav、モノラル
内容
各種金融専門用語をカバーし、主にマクロ金融内容(経済全体、市場動向、金融政策、為替変動など)とミクロ金融内容(個別企業、株式、債券、投資ポートフォリオなど)に分かれる
録音環境
静かな屋内環境
ドイツ
言語地域コード
de-DE
言語
ドイツ語
アノテーション特徴
文字起こし、有効文の開始・終了時間、話者識別、性別、ノイズ、機密情報、エンティティ(人物、場所、日時、金融商品、ソフトウェアシステム、組織)、大文字小文字アノテーション
正解率
単語正解率98%
サンプル サンプル
  • Audio

    ähm, den Vermögenserhalt gewährleisten mittlerweile wieder und, äh, ist dort halt eben auch als Anleger, Anlegerin, ähm, [N]

  • Audio

    Aber natürlich auch, welchen Köder habe ich dabei. Was ich damit sagen will, ist halt, auf welche Fische gehe ich dann halt. [N]

  • Audio

    Manchmal hat man halt vielleicht, wenn man fünf Angel reinwirft, einen kleinen Renditevorteil, aber wenn man sich, ähm, mit dem Gesamtmarkt, [N]

  • Audio

    äh, hat man da auch nochmal ein bisschen länger was davon und äh, hat jetzt nicht alles so Ultra-Tagesbezug wie, wie T [OVERLAP/] eine [/OVERLAP] Tageszeitung oder sowas, ja. [N]

  • Audio

    gut unterwegs, wenn man jetzt beispielsweise nicht die Strategie des norwegischen Staatsfonds, ähm, kopieren möchte. [N]

おすすめデータセットおすすめデータセット
48kHz・500時間高音質・話者分離日本語自然会話音声データセット

本データは、フルデュプレックス(全二重)対話を前提に収録した高品質な日本語音声データセットです。半二重方式では再現が難しい同時発話や重なり発話、自然な相槌や割込みを含み、双方向に同時進行する対話を再現した同時双方向音声データセットとして、リアルタイム対話AIや次世代ASRの研究開発に適しています。本セットは、提示されたトピックリストから収録者が複数の得意分野を選択し、自然な流れで会話を展開して収録した日本語自然会話音声データセットです。日本各地のネイティブ話者による多様な対話を含み、高音質収録によりASRの音響・言語モデル学習、声紋識別、対話システム評価など幅広い研究用途に活用できます。データは各種プライバシー保護規制に準拠して管理されています。当社の全二重音声データセットシリーズは、日本語をはじめ、英語、韓国語など多言語に対応し、書き起こしテキスト、発話タイムスタンプ、話者ID、性別などの詳細アノテーションを標準搭載しています。また、話者ごとの独立音声を含む話者分離音声データセットとしても利用可能で、収録条件や話者属性、ラベル仕様のカスタマイズ収集・作成にも柔軟に対応します。

日本語音声データ 話者分離音声データ 全二重音声データセット 同時双方向音声データセット 日本語自然会話音声データ
ご要望をご相談ください

プロジェクトの成熟度

初期検討段階(具体的な仕様は未定)
目標は明確だが、専門的な支援が必要
開発中または最適化フェーズ
データ/アノテーションの専門チーム(明確な仕様あり)

プライバシー保護 に同意する

よくあるご質問

日本語の音声認識データにはどのようなバリエーションがありますか?

子どもの日常会話、モノローグ、講義、バラエティなど幅広いジャンルを含むリアルな対話音声が収録されており、話者 ID、性別、年齢、アクセントなどもアノテーションされています。

データの多様性は実際のユースケースに役立ちますか?

はい、リアルな対話と幅広い話者属性を収録しており、日本のさまざまな環境での音声認識モデルに対応可能です。

納品までのスピードはどの程度ですか?

既製データセットは最短1日で納品可能で、カスタム収集・アノテーションも迅速対応可能です。

84a9539a-2c19-4ecb-9807-40920c656e56

aa8edc11-2573-4fd9-b1ba-f7b31d98b0e0