「Datatang株式会社」は現在「Nexdata」のブランドとして事業を展開しています。本サイトより最新のAIデータサービスとソリューションをご案内いたします。

jp

Please fill in your name

Mobile phone format error

Please enter the telephone

Please enter your company name

Please enter your company email

Please enter the data requirement

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

The data requirement cannot be less than 5 words and cannot be pure numbers

21言語・50万枚 多言語OCR データセット(自然画像・文書画像・スクリーン)

ocrデータセット
日本語ocrデータ
OCR画像データ
OCR学習データ

本データセットは、21言語に対応した合計約50万枚のOCR用画像データを収録しています。各言語ごとに約2万〜2.5万枚の画像を含み、自然シーン画像、文書撮影画像、電子画面画像(スクリーン表示)など多様なデータタイプで構成されています。撮影角度、背景、レイアウト、文字種の違いなど、実環境に近い多様性を備えています。アノテーションは行(列)単位での四辺形または多角形による領域ラベリングと内容転写(トランスクリプション)を実施しており、テキスト検出・文字認識・多言語OCRモデルの学習および評価に適しています。

有料データセット
このデータセットは、商用利用や研究目的などに役立つ有償のデータセットです。著作権ありの既製データセットは、AIプロジェクトの飛躍的なスタートに役立ちます。
仕様データ仕様
データ規模
約50万枚(各言語あたり約2万〜2.5万枚)
対応言語
日本語、韓国語、ドイツ語、フランス語、ポルトガル語、イタリア語、スペイン語、インドネシア語、ロシア語、ベトナム語、ポーランド語、チェコ語、トルコ語、フィリピン語、オランダ語、ヒンディー語、マレー語、カザフ語、スロバキア語、ルーマニア語、ウズベク語という21言語
収集環境
文書撮影画像:書籍、新聞、各種カード、伝票・レシートなど 自然シーン画像:ポスター、注意表示、道路標識、食品パッケージ、広告看板、停留所表示、店舗看板など 電子画面画像:スマートフォンのスクリーンショット、PC画面、電子文書
データ多様性
複数の画像タイプ、撮影角度の違い、多言語環境を含む高い多様性を確保
収集機材
スマートフォン、PC
フォーマット
画像形式:JPGなどの一般的な画像フォーマット アノテーション形式:JSON
アノテーション内容
行(列)単位の四辺形または多角形による領域アノテーション 行(列)単位の文字転写(トランスクリプション)
精度
行単位の検出精度:97%以上 (正しい行分割が行われ、四辺の位置誤差が5ピクセル以内の場合を正解とする) 行単位・文字単位の転写精度:97%以上
サンプル サンプル
おすすめデータセットおすすめデータセット
ご要望をご相談ください

プロジェクトの成熟度

初期検討段階(具体的な仕様は未定)
目標は明確だが、専門的な支援が必要
開発中または最適化フェーズ
データ/アノテーションの専門チーム(明確な仕様あり)

プライバシー保護 に同意する

よくあるご質問

日本語OCRデータは、どのような形式・内容で提供されていますか?

手書き文字、帳票、商品ラベル、看板、公共文書など、実際の業務・生活シーンを想定した多様なデータを提供しています。すべてのデータセットには、行レベル・文字レベルのバウンディングボックスとテキスト転写が含まれ、用途に応じて柔軟にご利用いただけます。各データには詳細な仕様書とサンプルも同梱しており、事前にデータの特徴や適用可能性をご確認いただけます。

英語・日本語など多言語混在の帳票データも収集できますか?

はい、可能です。日本、アメリカ、中国、韓国など主要国を含むグローバルパートナー網を活用し、お客様の指定する業種・地域・フォーマットの実在帳票を現地で収集します。収集と並行して、ネイティブスピーカーによる高精度なアノテーションを即時実施できる体制を整えており、多言語混在文書や業界特化フォーマットにも柔軟に対応します。

多言語や業界特化データにも対応していますか?

はい。日本語(標準語・方言含む)に加え、英語、中国語、韓国語など12言語以上の自然シーンOCRデータを提供しています。製造、物流、小売、金融、公共サービスなど業界別のデータ構成も可能で、お客様のユースケースに最適なデータセットを迅速にご提案・提供いたします。

8b004685-6828-4545-b85e-9dbba029aeae

262f5b6c-06eb-4032-a0ed-ff1105f10eb4