105,941枚の12言語自然シーンOCRデータセット

日本語

韓国語

インドネシア語

マレー語

ベトナム語

タイ語

フランス語

ドイツ語

イタリア語

ポルトガル語

ロシア語

スペイン語

OCR

自然な会話シーン

多様な撮影アングル

テキストの行レベルの四角形バウンディングボックスアノテーションとテキスト転写

105,941枚の12言語自然シーンOCRデータは、12種類の言語（アジア言語6種類、ヨーロッパ言語6種類）をカバーし、多様な自然シーンや撮影角度で収集されています。アノテーションについては、行単位のテキストの四角形バウンディングボックスと、行単位のテキスト文字起こしが行われています。このデータセットは、多言語OCRタスクに活用できます。

このデータセットは、商用利用や研究目的などに役立つ有償のデータセットです。著作権ありの既製データセットは、AIプロジェクトの飛躍的なスタートに役立ちます。

データ仕様

データ規模

105,941枚のデータには、アジア言語系として、日本語9,997枚、韓国語10,231枚、インドネシア語7,591枚、マレー語5,650枚、ベトナム語8,822枚、タイ語9,645枚が含まれています。ヨーロッパ言語系としては、フランス語10,015枚、ドイツ語7,213枚、イタリア語8,824枚、ポルトガル語7,754枚、ロシア語10,376枚、スペイン語9,823枚が含まれています。

収集環境

店舗の看板、バス停標識、ポスター、乗車券、道路標識、漫画、マンホールの絵、案内表示、警告表示、包装説明、メニュー、建物のサインなどが含まれます。

収集の多様性

12種類の言語、多様な自然シーン、複数の撮影角度（仰角、俯角、水平）が含まれます。

収集デバイス

スマートフォン、カメラ

画像パラメータ

画像フォーマットは.jpg、アノテーションフォーマットは.jsonです

アノテーション内容

行単位の四角形アノテーション、行単位の内容で文字起こし

正解率

四角形バウンディングボックスの頂点の偏差が5ピクセル以内であれば正しい検出とみなし、検出ボックスの精度は97%以上とします。テキスト文字起こしの精度も97%以上とします

よくあるご質問

日本語OCRデータは、どのような形式・内容で提供されていますか？

手書き文字、帳票、商品ラベル、看板、公共文書など、実際の業務・生活シーンを想定した多様なデータを提供しています。すべてのデータセットには、行レベル・文字レベルのバウンディングボックスとテキスト転写が含まれ、用途に応じて柔軟にご利用いただけます。各データには詳細な仕様書とサンプルも同梱しており、事前にデータの特徴や適用可能性をご確認いただけます。

英語・日本語など多言語混在の帳票データも収集できますか？

はい、可能です。日本、アメリカ、中国、韓国など主要国を含むグローバルパートナー網を活用し、お客様の指定する業種・地域・フォーマットの実在帳票を現地で収集します。収集と並行して、ネイティブスピーカーによる高精度なアノテーションを即時実施できる体制を整えており、多言語混在文書や業界特化フォーマットにも柔軟に対応します。

多言語や業界特化データにも対応していますか？

はい。日本語（標準語・方言含む）に加え、英語、中国語、韓国語など12言語以上の自然シーンOCRデータを提供しています。製造、物流、小売、金融、公共サービスなど業界別のデータ構成も可能で、お客様のユースケースに最適なデータセットを迅速にご提案・提供いたします。

105,941枚の12言語自然シーンOCRデータセット

プロジェクトの成熟度

よくあるご質問