20,011枚の自然風景OCR記述データ

AIGC

英語記述

OCR記述

多言語OCRデータ

OCRデータ

OCRデータセット

アジア言語、ヨーロッパ言語を含む合計14言語、20,011枚の自然風景OCR記述データは、店舗看板、バス停、ポスター、道路標識など、さまざまな環境で複数の撮影角度で収集しました。記述言語は英語で、主にテキストの配置やテキストの内容、色などの情報を記述します。

このデータセットは、商用利用や研究目的などに役立つ有償のデータセットです。著作権ありの既製データセットは、AIプロジェクトの飛躍的なスタートに役立ちます。

データ仕様

データ規模

20,011枚の画像、20,011件の記述

言語分布

アジア言語: 韓国語、インドネシア語、マレー語、ベトナム語、タイ語、中国語、日本語ヨーロッパ言語: フランス語、ドイツ語、イタリア語、ポルトガル語、ロシア語、スペイン語、英語

収集環境

店舗看板、バス停、ポスター、道路標識、リマインダーなどのシーンを含みます

収集の多様性

14の言語、複数の自然シーン、複数の撮影アングルが含まれています

データフォーマット

画像のフォーマットは.jpg、テキストのフォーマットは.txtです。

収集設備

スマホ、カメラ

記述言語

英語

テキストの長さ

原則として、30～60語、通常は3～5文で構成されます。

主な記述内容

テキスト配置、テキスト内容、色、シーン

正確率

97%以上の画像が正しくアノテーションされています。

大規模言語モデル学習用としてどのような分類・構造化データがありますか？

Nexdata の LLM データセットには、指示追従型（SFT）、試験問題、論文、画像キャプション・動画キャプションなど、多種多様なテキスト・ジャンルが含まれています。日本語以外も対応できる多言語・複数ドメインで、業界ごとの応用にも対応可能です。

日本での利用に際して、著作権やライセンスの問題はありませんか？

すべてのデータは自社版権で提供され、即時納品可能かつ安全・承認済みです。品質保証も万全で、安心してご利用いただけます。

大規模データはすぐに使えますか？カスタマイズは可能ですか？

はい、既製データセットはすぐに納品可能です。また、ニーズに応じたカスタマイズサービスも提供しており、コスパ良く効率的に導入できます。

AIGC

英語記述

OCR記述

多言語OCRデータ

多言語OCRデータ

OCRデータ

OCRデータセット