「Datatang株式会社」は現在「Nexdata」のブランドとして事業を展開しています。本サイトより最新のAIデータサービスとソリューションをご案内いたします。

jp

Please fill in your name

Mobile phone format error

Please enter the telephone

Please enter your company name

Please enter your company email

Please enter the data requirement

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

The data requirement cannot be less than 5 words and cannot be pure numbers

m.nexdata.datatang.com

LLMデータセット

既製の高品質データセットでAIモデルのパフォーマンスを即座に向上させます。

タイプ

全て
20
画像キャプション
10
SFTデータセット
1
事前学習向けテキスト
9

700,000件汎用シーン画像説明データセット

70万件の画像と説明文から構成される。画像タイプは風景、動物、植物、人物、自動車、スポーツ、工業、建築等多岐にわたるカテゴリと美的サブセットを含まれる。各画像には少なくとも2つの説明文を付いてある(一部画像は1つのみ)。説明言語は英語と中国語である。
テキスト説明 マルチモーダル 汎用シーンデータセット 英語キャプション 中国語キャプション

800万件OKWAVE QA 日本語対話データセット

日本 OKWAVE Q&Aプラットフォームのテキスト解析・処理データ。質問、回答、カテゴリ、作成日時、ユーザーなどを含む。データは継続的に更新される。4月25日時点で質問数840万件、単語数23億語。回答2,700万件・76億語;感謝(質問者から回答者への謝意)1,550万件・17億語;補足説明210万件・3億6,000万語。本データセットはLLMトレーニングやChatGPTなどのタスクに活用可能。
日本語QA 日本語テキスト 生成AI向け

10万対の中国語大規模モデル汎用領域複雑指示追従SFTテキストデータセット

10万対の中国語複雑なprompt指示、文字数は50~400字、各promptには3つ以上の制約条件を含み、大規模モデルの指示追従性を向上させるためのトレーニングに使用。カテゴリカバレッジは生成類(ニュース記事作成、インタビューアウトライン、コピーライティング、原稿校正、中英作文、文法学習、研究レポート、学習計画、詩創作、美食紹介、広告ソフト文、セールストーク、公文書補助作成、公文書審査、政策文書QAなど)、リライト類(文書き換え、テキスト校正、文結合、文案簡略化)、要約類(内容要約)、抽出類(イベント要素抽出、意見抽出、キーワード抽出、立場抽出、エンティティ抽出)。全てのpromptは手動で作成され、多様性をカバー。
LLM 指示追従 SFT

150万問の韓国語試験問題構造化解析処理データ

韓国語試験問題の構造化解析処理データ、試験問題総数は約150万問。各問題は問題タイプ、問題文、解答、解析などのフィールドを含む。科目は【小学校】国語、数学、英語、社会、科学;【中学校】国語、英語、数学、科学、社会;【高校】国語、英語、数学、物理、化学、生物、歴史、地理を含む。問題タイプは選択問題、空欄補充問題、正誤問題、記述問題など。このデータは大規模モデルの学科知識強化タスクに利用可能。
K12問題 テキスト LLM 韓国語

3億組の高品質画像説明データ

3億枚の画像、各画像に対応する1つの説明。全て写真家が公開した正版画像作品。大部分は英語説明、ごく一部は中国語説明。
マルチモーダル 画像 説明

700万組の高品質ビデオ説明データ

700万本のグローバル正版高品質ビデオ。全てグローバル写真家が公開した正版ビデオ作品。うち600万本は英語説明、100万本は中国語説明。人物、風景、動物など多種のカテゴリをカバー。解像度は全て1080p以上。
マルチモーダル ビデオ 説明 キャプション LLMデータセット

25万件の英語動物医療データ

英語動物医療データ、多種の動物の医療検査結果、治療詳細、処方、アレルギーテスト、ワクチン接種履歴などを含み、さまざまな人工知能アプリケーションに豊富なリソースを提供します。複数のAI企業による検証により、モデルが実世界の多様性に対応するのに役立つことが確認されています。データ保護法規とプライバシー規定を厳格に遵守し、データ収集、保存、使用の過程でユーザーのプライバシーと法的権利を保護します。すべてのデータはGDPR、CCPA、PIPLに準拠しています。
医療レポート 動物 ペット

1.4億件の中国語裁判文書テキストデータ

本データは1998年から2023年12月までの期間にわたる1億4千万件の法律裁判文書が含まれており、各裁判文書は細かい粒度で構造化解析が行われています(データフォーマットはjsonで、フィールドには案件名、裁判所名、文書タイプ、案件タイプ、案由、当事者、裁判日、文書内容を構成する各部分などが含まれます。裁判文書の全文内容はs22からs28に解析されています)。また、詳細なデータ辞書説明ファイルも提供されています。
判決文書 テキスト LLM(大規模言語モデル)

なぞなぞ・クイズ(急转弯を含む)データ

なぞなぞ・クイズ(急转弯を含む)データは、合計で10万件余りのなぞなぞデータと3000件余りのクイズ(急转弯)データを含んでおり、大規模モデルのトレーニングや携帯電話アシスタントなど、複数のアプリケーションシーンで利用可能です。
なぞなぞ クイズ(急转弯)

loading

今すぐデータをカスタマイズ

既製データセットの強み

  • 著作権あり

    著作権あり

    自社版権で すぐ納品可能
  • 安全

    安全

    承認済み 安全で使用可能
  • 専門性高い

    専門性高い

    AIデータの専門家により 設計・作成
  • 多様性に富む

    多様性に富む

    様々な 実際のシーンから収集
  • コスパ高い

    コスパ高い

    カスタマイズより コスパが優れている
  • 効率的

    効率的

    即座に 納品可能
2a9c6b0c-f88c-411c-8667-51352e9a38f9