大規模言語モデルデータセット - Nexdata

「Datatang株式会社」は現在「Nexdata」のブランドとして事業を展開しています。本サイトより最新のAIデータサービスとソリューションをご案内いたします。

jp

Please fill in your name

Mobile phone format error

Please enter the telephone

Please enter your company name

Please enter your company email

Please enter the data requirement

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

The data requirement cannot be less than 5 words and cannot be pure numbers

ホーム > 全てのデータセット > LLMデータセット

タイプ

全て

8

画像キャプション

4

事前学習向けテキスト

4

100万組の汎用シーン画像説明データ（詳細説明）

100万組の画像と説明、画像タイプは風景、動物、花木、人物、車、スポーツ、工業、建築など多種のカテゴリと美学サブセットを含み、画像全体のシーン、シーン内の詳細、および画像が表現する感情を説明します。説明言語は英語と中国語の2言語です。

テキスト説明マルチモーダル汎用シーンデータセット英語キャプション中国語キャプション

800万件QA日本語対話データセット

日本 Q&Aプラットフォームのテキスト解析・処理データ。質問、回答、カテゴリ、作成日時、ユーザーなどを含む。データは継続的に更新される。4月25日時点で質問数840万件、単語数23億語。回答2,700万件・76億語；感謝（質問者から回答者への謝意）1,550万件・17億語；補足説明210万件・3億6,000万語。本データセットはLLMトレーニングやRLHF学習などのタスクに活用可能。

日本語LLMデータ日本語テキストデータ日本語QAデータセット

なぞなぞ・クイズ（急转弯を含む）データ

なぞなぞ・クイズ（急转弯を含む）データは、合計で10万件余りのなぞなぞデータと3000件余りのクイズ（急转弯）データを含んでおり、大規模モデルのトレーニングや携帯電話アシスタントなど、複数のアプリケーションシーンで利用可能です。

なぞなぞクイズ（急转弯）

700万組の高品質ビデオ説明データ

700万本のグローバル正版高品質ビデオ。全てグローバル写真家が公開した正版ビデオ作品。うち600万本は英語説明、100万本は中国語説明。人物、風景、動物など多種のカテゴリをカバー。解像度は全て1080p以上。

マルチモーダルビデオ説明キャプション LLMデータセット

1.3億問の小学から大学中国語試験問題テキストデータ

1.3億問の小学から大学中国語試験問題テキストデータ、K12試験データ総量2,087万問（うち解説付き1,600万問）、大学及び職業試験データ総量1.17億問（うち解説付き700万問）；K12試験データはデータ品質レベル、試験ポイント、内容タイプ、問題形式、学段、問題難易度、学年、科目、試験ソース、解答、解説などのフィールドを含む；大学及び職業試験データは解答、解説、カテゴリなどのフィールドを含む；K12試験データの学段は小学、初中、高中で、科目は国語、数学、英語、歴史、地理、政治、生物、物理、化学、科学を含む；大学及び職業試験データの領域は公安、公務員試験、医学、外国語、学歴、工学、教育、法律、経済、職業、コンピュータ、資格、金融など；問題形式は多肢選択問題、単一選択問題、正誤問題、空欄補充問題など；このデータは大規模モデルの学科知識強化タスクに使用可能。

専門問題テキスト LLM

150万問の韓国語試験問題構造化解析処理データ

韓国語試験問題の構造化解析処理データ、試験問題総数は約150万問。各問題は問題タイプ、問題文、解答、解析などのフィールドを含む。科目は【小学校】国語、数学、英語、社会、科学；【中学校】国語、英語、数学、科学、社会；【高校】国語、英語、数学、物理、化学、生物、歴史、地理を含む。問題タイプは選択問題、空欄補充問題、正誤問題、記述問題など。このデータは大規模モデルの学科知識強化タスクに利用可能。

K12問題テキスト LLM 韓国語

3億組の高品質画像説明データ

3億枚の画像、各画像に対応する1つの説明。全て写真家が公開した正版画像作品。大部分は英語説明、ごく一部は中国語説明。

マルチモーダル画像説明

20,011枚の自然風景OCR記述データ

アジア言語、ヨーロッパ言語を含む合計14言語、20,011枚の自然風景OCR記述データは、店舗看板、バス停、ポスター、道路標識など、さまざまな環境で複数の撮影角度で収集しました。記述言語は英語で、主にテキストの配置やテキストの内容、色などの情報を記述します。

AIGC 英語記述 OCR記述多言語OCRデータ多言語OCRデータ OCRデータ OCRデータセット

loading

今すぐデータをカスタマイズ

既製データセットの強み

著作権あり
自社版権ですぐ納品可能
安全
承認済み安全で使用可能
専門性高い
AIデータの専門家により設計・作成
多様性に富む
様々な実際のシーンから収集
コスパ高い
カスタマイズよりコスパが優れている
効率的
即座に納品可能

ニュースレターを購読する

AI学習用データ製品: 全てのデータセット; LLMデータセット; 画像・動画データセット; 音声認識データセット; 音声合成データセット; OCRデータセット; 発音辞書データセット; 自然言語理解データセット

データサービス: 3D点群データ; ストリートビューデータ; OCRデータ; 行動識別データ; ID識別データ; 音声認識データ; 音声合成データ; マルチモーダルデータ

活用事例: エンボディドAI; 生成AI; 自動運転; 製造業; チャットボット; AR/VR; スマートホーム; リテール; ヘルスケア

企業情報: 運営会社; 資料ダウンロード; お役立ち情報; パートナー; データセキュリティ; イベント
リンク: OPENMPD; DataPlus; Datarade

プラットフォーム: プラットフォーム
コンテスト: コンテスト
リソース: オープンデータセット

より高品質なデータでより高精度なAIを構築

0362568911

[email protected]

nexdata_ai facebook

nexdata_ai twitter

nexdata_ai linkedin

nexdata_ai youtube

Copyright © 2023 NEXDATA TECHNOLOGY INC

サイドマップ利用規約

当社は、お客様のブラウジング体験を向上させ、パーソナライズされた広告やコンテンツを提供し、当社のトラフィックを分析するためにクッキーを使用します。「すべてを受け入れる」をクリックすると、クッキーの使用に同意したことになります。

2f92b9a2-5268-41a3-8317-13c636623033