104,320枚の韓国語とヒンディー語の自然シーンOCRデータ

韓国語

ヒンディー語

OCRデータ

自然シーン

OCR音訳データ

104,320枚の韓国語とヒンディー語の自然シーンOCRデータは、商品パッケージ、ポスター、チケット、案内表示、メニュー、建物の標識などのシーンから収集されています。データの多様性には、多様なシーン、多様な撮影角度、多様な照明条件が含まれます。言語分布は韓国語、ヒンディー語、および英語（少量）です。アノテーションに関しては、行単位の多角形ボックス（または四角形ボックス、矩形ボックス）アノテーション、行単位の内容転写、テキスト属性（言語種類）を行い、列単位の多角形ボックス（または四角形ボックス、矩形ボックス）アノテーショ、列単位の内容転写、テキスト属性（言語種類）を行います。この韓国語とヒンディー語の自然シーンOCRデータは、韓国語とヒンディー語の自然シーンにおけるOCRタスクに活用できます。

このデータセットは、商用利用や研究目的などに役立つ有償のデータセットです。著作権ありの既製データセットは、AIプロジェクトの飛躍的なスタートに役立ちます。

データ仕様

データ規模

韓国語 76,861 枚、555,913 フレーム; ヒンディー語 27,459 枚、200,453 フレーム

収集環境

商品パッケージ、ポスター、チケット、リマインダー、メニュー、建物の看板など。

収集の多様性

多様な自然シーン、多様な撮影角度、異なる照明条件

収集設備

スマートフォン

撮影角度

仰視点、俯瞰視点、水平視点

言語分布

韓国語、ヒンディー語、英語（少量）

データフォーマット

画像形式：.jpg、アノテーションドキュメント形式：.json

アノテーションボックスの形状分布

韓国語：315,822個の四角形ボックス、240,091個の多角形ボックス。ヒンディー語：780個の四角形ボックス、199,671個の多角形ボックス、2個の矩形ボックス。

アノテーション特徴

行単位の多角形ボックス（または四角形ボックス、矩形ボックス）アノテーション、行単位の内容転写、テキスト属性（言語種類）。列単位の多角形ボックス（または四角形ボックス、矩形ボックス）アノテーション、列単位の内容転写、テキスト属性（言語種類）。

正解率

アノテーションボックスの頂点の偏差が5ピクセルを超えない場合を正しい検出とみなす。検出ボックスの精度は95％以上。文字おこしの精度は95％以上。

よくあるご質問

日本語OCRデータは、どのような形式・内容で提供されていますか？

手書き文字、帳票、商品ラベル、看板、公共文書など、実際の業務・生活シーンを想定した多様なデータを提供しています。すべてのデータセットには、行レベル・文字レベルのバウンディングボックスとテキスト転写が含まれ、用途に応じて柔軟にご利用いただけます。各データには詳細な仕様書とサンプルも同梱しており、事前にデータの特徴や適用可能性をご確認いただけます。

英語・日本語など多言語混在の帳票データも収集できますか？

はい、可能です。日本、アメリカ、中国、韓国など主要国を含むグローバルパートナー網を活用し、お客様の指定する業種・地域・フォーマットの実在帳票を現地で収集します。収集と並行して、ネイティブスピーカーによる高精度なアノテーションを即時実施できる体制を整えており、多言語混在文書や業界特化フォーマットにも柔軟に対応します。

多言語や業界特化データにも対応していますか？

はい。日本語（標準語・方言含む）に加え、英語、中国語、韓国語など12言語以上の自然シーンOCRデータを提供しています。製造、物流、小売、金融、公共サービスなど業界別のデータ構成も可能で、お客様のユースケースに最適なデータセットを迅速にご提案・提供いたします。

104,320枚の韓国語とヒンディー語の自然シーンOCRデータ

韓国語 ヒンディー語 OCRデータ 自然シーン OCR音訳データ

プロジェクトの成熟度

よくあるご質問

韓国語

ヒンディー語

OCRデータ

自然シーン

OCR音訳データ