21言語・50万枚多言語OCR データセット（自然画像・文書画像・スクリーン）

ocrデータセット

日本語ocrデータ

OCR画像データ

OCR学習データ

本データセットは、21言語に対応した合計約50万枚のOCR用画像データを収録しています。各言語ごとに約2万〜2.5万枚の画像を含み、自然シーン画像、文書撮影画像、電子画面画像（スクリーン表示）など多様なデータタイプで構成されています。撮影角度、背景、レイアウト、文字種の違いなど、実環境に近い多様性を備えています。アノテーションは行（列）単位での四辺形または多角形による領域ラベリングと内容転写（トランスクリプション）を実施しており、テキスト検出・文字認識・多言語OCRモデルの学習および評価に適しています。

このデータセットは、商用利用や研究目的などに役立つ有償のデータセットです。著作権ありの既製データセットは、AIプロジェクトの飛躍的なスタートに役立ちます。

データ仕様

データ規模

約50万枚（各言語あたり約2万〜2.5万枚）

対応言語

日本語、韓国語、ドイツ語、フランス語、ポルトガル語、イタリア語、スペイン語、インドネシア語、ロシア語、ベトナム語、ポーランド語、チェコ語、トルコ語、フィリピン語、オランダ語、ヒンディー語、マレー語、カザフ語、スロバキア語、ルーマニア語、ウズベク語という21言語

収集環境

文書撮影画像：書籍、新聞、各種カード、伝票・レシートなど自然シーン画像：ポスター、注意表示、道路標識、食品パッケージ、広告看板、停留所表示、店舗看板など電子画面画像：スマートフォンのスクリーンショット、PC画面、電子文書

データ多様性

複数の画像タイプ、撮影角度の違い、多言語環境を含む高い多様性を確保

収集機材

スマートフォン、PC

フォーマット

画像形式：JPGなどの一般的な画像フォーマットアノテーション形式：JSON

アノテーション内容

行（列）単位の四辺形または多角形による領域アノテーション行（列）単位の文字転写（トランスクリプション）

精度

行単位の検出精度：97％以上（正しい行分割が行われ、四辺の位置誤差が5ピクセル以内の場合を正解とする）行単位・文字単位の転写精度：97％以上

よくあるご質問

日本語OCRデータは、どのような形式・内容で提供されていますか？

手書き文字、帳票、商品ラベル、看板、公共文書など、実際の業務・生活シーンを想定した多様なデータを提供しています。すべてのデータセットには、行レベル・文字レベルのバウンディングボックスとテキスト転写が含まれ、用途に応じて柔軟にご利用いただけます。各データには詳細な仕様書とサンプルも同梱しており、事前にデータの特徴や適用可能性をご確認いただけます。

英語・日本語など多言語混在の帳票データも収集できますか？

はい、可能です。日本、アメリカ、中国、韓国など主要国を含むグローバルパートナー網を活用し、お客様の指定する業種・地域・フォーマットの実在帳票を現地で収集します。収集と並行して、ネイティブスピーカーによる高精度なアノテーションを即時実施できる体制を整えており、多言語混在文書や業界特化フォーマットにも柔軟に対応します。

多言語や業界特化データにも対応していますか？

はい。日本語（標準語・方言含む）に加え、英語、中国語、韓国語など12言語以上の自然シーンOCRデータを提供しています。製造、物流、小売、金融、公共サービスなど業界別のデータ構成も可能で、お客様のユースケースに最適なデータセットを迅速にご提案・提供いたします。

21言語・50万枚 多言語OCR データセット（自然画像・文書画像・スクリーン）

ocrデータセット 日本語ocrデータ OCR画像データ OCR学習データ

プロジェクトの成熟度

よくあるご質問

21言語・50万枚多言語OCR データセット（自然画像・文書画像・スクリーン）

ocrデータセット

日本語ocrデータ

OCR画像データ

OCR学習データ