「Datatang株式会社」は現在「Nexdata」のブランドとして事業を展開しています。本サイトより最新のAIデータサービスとソリューションをご案内いたします。

jp

Please fill in your name

Mobile phone format error

Please enter the telephone

Please enter your company name

Please enter your company email

Please enter the data requirement

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

The data requirement cannot be less than 5 words and cannot be pure numbers

高品質な既製データ

高品質な既製データセットにより、AIモデルのパフォーマンスがすぐに向上します。

言語

全て

データタイプ

全て

48kHz・500時間高音質・話者分離日本語自然会話音声データセット

本データは、フルデュプレックス(全二重)対話を前提に収録した高品質な日本語音声データセットです。半二重方式では再現が難しい同時発話や重なり発話、自然な相槌や割込みを含み、双方向に同時進行する対話を再現した同時双方向音声データセットとして、リアルタイム対話AIや次世代ASRの研究開発に適しています。本セットは、提示されたトピックリストから収録者が複数の得意分野を選択し、自然な流れで会話を展開して収録した日本語自然会話音声データセットです。日本各地のネイティブ話者による多様な対話を含み、高音質収録によりASRの音響・言語モデル学習、声紋識別、対話システム評価など幅広い研究用途に活用できます。データは各種プライバシー保護規制に準拠して管理されています。当社の全二重音声データセットシリーズは、日本語をはじめ、英語、韓国語など多言語に対応し、書き起こしテキスト、発話タイムスタンプ、話者ID、性別などの詳細アノテーションを標準搭載しています。また、話者ごとの独立音声を含む話者分離音声データセットとしても利用可能で、収録条件や話者属性、ラベル仕様のカスタマイズ収集・作成にも柔軟に対応します。
日本語音声データ 話者分離音声データ 全二重音声データセット 同時双方向音声データセット 日本語自然会話音声データ

100時間日本語固有表現読み上げ音声データセット(数字・地名)

スマートフォンで収録された日本語の読み上げ音声を約100時間収録したデータセットです。指定されたテキストを朗読した音声で構成され、人名、電話番号、住所、数値・英数字列、メールアドレス、製品型番、シリアル番号、金額など多様な固有表現(Named Entity)を豊富に含んでいます。すべての音声には書き起こしテキストが付与されており、音声認識(ASR)、固有表現認識(NER)、音声理解、音声検索、対話AIなどの研究・開発に適しています。実環境に近いスマートフォン収録により、現実的な音響条件を反映した学習データとして利用可能です。データはプライバシー保護および関連法規を遵守して収集・管理されており、GDPR、CCPA、PIPLに準拠しています。
日本語固有表現 日本語音声データ エンティティ音声読み上げ NER 音声データ

10時間ペルースペイン語音声合成データセット

本製品は、音声合成(TTS)、音声認識(ASR)、および機械学習モデルの開発用に設計された、高品質なペルースペイン語音声合成データセットです。合計10時間の音声を含み、ペルーのネイティブ話者によって録音されて、深層学習や生成 AI の研究開発ニーズに精准にマッチします。商用利用可能な学習データとして、仮想アシスタントやナビゲーションシステムなど幅広い用途に対応しています。 技術仕様としては、サンプリングレート48kHz、24-bit、WAV 形式の高音質オーディオを提供し、音素バランス(Phonetically Balanced) が均等にカバーされているため頑健なモデル訓練を保証します。専門の言語学者により精度高くアノテーションされており、時間軸付きトランスクリプト(JSON, TextGrid, CSV 形式)が付属。句読点と文の境界も明確化されており、音声 AI のファインチューニングや本番環境でのデプロイに必要な基礎品質を備えています。 権利関係とコンプライアンス面では、商用利用および研究利用における著作権はクリア済みで、話者が使用契約書に署名済みです。GDPR および CCPA 準拠であり、個人識別情報も適切に管理されています。即時ダウンロード可能で、スタートアップ様から大企業様まで柔軟に提供可能です。音声データ収集のカスタム要件や見積もりのご希望も、お気軽にお問い合わせください。
スペイン語音声合成データセット スペイン語音声データセット ペルースペイン語音声合成データセット

21言語・50万枚 多言語OCR データセット(自然画像・文書画像・スクリーン)

本データセットは、21言語に対応した合計約50万枚のOCR用画像データを収録しています。各言語ごとに約2万〜2.5万枚の画像を含み、自然シーン画像、文書撮影画像、電子画面画像(スクリーン表示)など多様なデータタイプで構成されています。撮影角度、背景、レイアウト、文字種の違いなど、実環境に近い多様性を備えています。アノテーションは行(列)単位での四辺形または多角形による領域ラベリングと内容転写(トランスクリプション)を実施しており、テキスト検出・文字認識・多言語OCRモデルの学習および評価に適しています。
ocrデータセット 日本語ocrデータ OCR画像データ OCR学習データ

1,000枚OCR向け日本語請求書データセット

本データセットは、日本語の請求書画像1,000枚を収録した高品質なOCR学習用データです。基礎編集データ500枚と専門編集データ500枚から構成され、請求書の内容、編集方式、フォーマットにおいて十分な多様性を確保し、実際の業務で使用される帳票に近い構成となっています。画像内に含まれる会社名、住所、氏名、電話番号、FAX番号などの個人・企業情報はすべて仮想データに置換された匿名加工済み情報であり、プライバシーに配慮しています。本データは、日本語請求書の検出、OCRによる文字認識、帳票構造解析、キー情報抽出、エンドツーエンド型Document AIシステムの開発など、幅広いAI研究開発用途に活用可能です。
日本語OCRデータ AI-OCR学習データ 請求書OCR学習用データ 日本語帳票データ

800万件QA日本語対話データセット

日本 Q&Aプラットフォームのテキスト解析・処理データ。質問、回答、カテゴリ、作成日時、ユーザーなどを含む。データは継続的に更新される。4月25日時点で質問数840万件、単語数23億語。回答2,700万件・76億語;感謝(質問者から回答者への謝意)1,550万件・17億語;補足説明210万件・3億6,000万語。本データセットはLLMトレーニングやRLHF学習などのタスクに活用可能。
日本語LLMデータ 日本語テキストデータ 日本語QAデータセット

グジャラート語の脚本に基づいた会話音声データ

グジャラート語の脚本に基づいた会話音声データは、与えられた脚本に基づいて会話をシミュレーションし、録音したもので、複数の分野をカバーし、内容が豊富である。このデータセットには、テキスト内容などの多様な属性がラベリングされており、高い正確性を備えており、音声認識に関する研究や応用に豊富なリソースを提供している。複数のAI企業による検証結果、このデータはモデルが現実世界の多様性に直面した際に優れたパフォーマンスを発揮するのに役立つ。当社はデータ保護法規やプライバシーに関する規定を厳格に遵守し、データの収集、保存、利用の過程でユーザーのプライバシーと合法的な権益を守り、すべてのデータはGDPR、CCPA、PIPLに準拠している。
グジャラート語 インド 会話音声

423時間フィリピン英語話者分離・自然会話音声データセット

本データは、フルデュプレックス(全二重)対話を前提に収録した高品質なフィリピン英語音声データセットです。半二重方式では再現が難しい同時発話や重なり発話、自然な相槌や割込みを含み、双方向に同時進行する対話を再現した同時双方向音声データセットとして、リアルタイム対話AIや次世代ASRの研究開発に適しています。本セットは、提示されたトピックリストから収録者が複数の得意分野を選択し、自然な流れで会話を展開して収録したフィリピン英語自然会話音声データセットです。約800名のフィリピン現地ネイティブスピーカーによる多様な対話を含み、高音質収録によりASRの音響・言語モデル学習、声紋識別、対話システム評価など幅広い研究用途に活用できます。データは各種プライバシー保護規制に準拠して管理されています。当社の全二重音声データセットシリーズは、日本語をはじめ、英語、韓国語など多言語に対応し、書き起こしテキスト、発話タイムスタンプ、話者ID、性別などの詳細アノテーションを標準搭載しています。また、話者ごとの独立音声を含む話者分離音声データセットとしても利用可能で、収録条件や話者属性、ラベル仕様のカスタマイズ収集・作成にも柔軟に対応します。
英語自然会話音声データセット フィリピン英語音声データ フィリピン英語話者分離音声データ

172時間話者分離アメリカ英語自然会話音声データセット

本データは、フルデュプレックス(全二重)対話を前提にスマートフォンで収録した高品質な英語(米国)の音声データセットです。半二重方式では再現が難しい同時発話や重なり発話、自然な相槌や割込みを含み、双方向に同時進行する対話を再現した同時双方向音声データセットとして、リアルタイム対話AIや次世代ASRの研究開発に適しています。本セットは、提示されたトピックリストから収録者が複数の得意分野を選択し、自然な流れで会話を展開して収録した英語(米国)の自然会話音声データセットです。米国内の多様な地域・文化背景を持つネイティブ話者による対話を含み、スマートフォン収録による実使用環境に近い音声として、ASRの音響・言語モデル学習、声紋識別、対話システム評価など幅広い研究用途に活用できます。データは各種プライバシー保護規制に準拠して管理されています。当社の全双工音声シリーズは、多言語に対応した全二重音声データセットとして提供され、書き起こしテキスト、発話タイムスタンプ、話者ID、性別などの詳細アノテーションを標準搭載しています。また、話者ごとの独立音声を含む話者分離音声データセットとしても利用可能で、収録条件や話者属性、ラベル仕様のカスタマイズにも柔軟に対応します。
英語音声データセット アメリカ英語音声会話データ 話者分離音声データセット 全二重音声データセット

200時間韓国語話者分離・自然会話音声データセット

本データは、フルデュプレックス(全二重)対話を前提に収録した高品質な韓国語音声データセットです。半二重方式では再現が難しい同時発話や重なり発話、自然な相槌や割込みを含み、双方向に同時進行する対話を再現した同時双方向音声データセットとして、リアルタイム対話AIや次世代ASRの研究開発に適しています。本セットは、提示されたトピックリストから収録者が複数の得意分野を選択し、自然な流れで会話を展開して収録した韓国語自然会話音声データセットです。約200名の韓国ネイティブスピーカーによる多様な対話を含み、高音質収録によりASRの音響・言語モデル学習、声紋識別、対話システム評価など幅広い研究用途に活用できます。データは各種プライバシー保護規制に準拠して管理されています。当社の全二重音声データセットシリーズは、日本語をはじめ、英語、韓国語など多言語に対応し、書き起こしテキスト、発話タイムスタンプ、話者ID、性別などの詳細アノテーションを標準搭載しています。また、話者ごとの独立音声を含む話者分離音声データセットとしても利用可能で、収録条件や話者属性、ラベル仕様のカスタマイズ収集・作成にも柔軟に対応します。
韓国語音声データセット 韓国語自然会話音声データ 韓国語話者分離音声データ 韓国語音声認識データ

205時間話者分離日本語自然会話音声データセット

本データは、フルデュプレックス(全二重)対話を前提に収録した高品質な日本語音声データセットです。有効時間205時間。半二重方式では再現が難しい同時発話や重なり発話、自然な相槌や割込みを含み、双方向に同時進行する対話を再現した同時双方向音声データセットとして、リアルタイム対話AIや次世代ASRの研究開発に適しています。そして、本セットは提示されたトピックリストから収録者が複数の得意分野を選択し、自然な流れで会話を展開して収録した日本語自然会話音声データセットです。日本各地のネイティブ話者による多様な対話を含み、高音質収録によりASRの音響・言語モデル学習、声紋識別、対話システム評価など幅広い研究用途に活用できます。データは各種プライバシー保護規制に準拠して管理されています。 当社の全二重音声データセットシリーズは、日本語をはじめ、英語、韓国語など多言語に対応し、書き起こしテキスト、発話タイムスタンプ、話者ID、性別などの詳細アノテーションを標準搭載しています。また、話者ごとの独立音声を含む話者分離音声データセットとしても利用可能で、収録条件や話者属性、ラベル仕様のカスタマイズ収集・作成にも柔軟に対応します。
日本語音声データ 話者分離音声データ 全二重音声データセット 同時双方向音声データセット 日本語自然会話音声データ

150万問の韓国語試験問題構造化解析処理データ

韓国語試験問題の構造化解析処理データ、試験問題総数は約150万問。各問題は問題タイプ、問題文、解答、解析などのフィールドを含む。科目は【小学校】国語、数学、英語、社会、科学;【中学校】国語、英語、数学、科学、社会;【高校】国語、英語、数学、物理、化学、生物、歴史、地理を含む。問題タイプは選択問題、空欄補充問題、正誤問題、記述問題など。このデータは大規模モデルの学科知識強化タスクに利用可能。
K12問題 テキスト LLM 韓国語
. . .
loading

loading

b80b5e8c-b467-44c8-a999-c659df671411