jp

Please fill in your name

Mobile phone format error

Please enter the telephone

Please enter your company name

Please enter your company email

Please enter the data requirement

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

The data requirement cannot be less than 5 words and cannot be pure numbers

m.nexdata.datatang.com

105,941枚の12言語自然シーンOCRデータセット

日本語
韓国語
インドネシア語
マレー語
ベトナム語
タイ語
フランス語
ドイツ語
イタリア語
ポルトガル語
ロシア語
スペイン語
OCR
自然な会話シーン
多様な撮影アングル
テキストの行レベルの四角形バウンディングボックスアノテーションとテキスト転写

105,941枚の12言語自然シーンOCRデータは、12種類の言語(アジア言語6種類、ヨーロッパ言語6種類)をカバーし、多様な自然シーンや撮影角度で収集されています。アノテーションについては、行単位のテキストの四角形バウンディングボックスと、行単位のテキスト文字起こしが行われています。このデータセットは、多言語OCRタスクに活用できます。

有料データセット
このデータセットは、商用利用や研究目的などに役立つ有償のデータセットです。著作権ありの既製データセットは、AIプロジェクトの飛躍的なスタートに役立ちます。
仕様データ仕様
データ規模
105,941枚のデータには、アジア言語系として、日本語9,997枚、韓国語10,231枚、インドネシア語7,591枚、マレー語5,650枚、ベトナム語8,822枚、タイ語9,645枚が含まれています。ヨーロッパ言語系としては、フランス語10,015枚、ドイツ語7,213枚、イタリア語8,824枚、ポルトガル語7,754枚、ロシア語10,376枚、スペイン語9,823枚が含まれています。
収集環境
店舗の看板、バス停標識、ポスター、乗車券、道路標識、漫画、マンホールの絵、案内表示、警告表示、包装説明、メニュー、建物のサインなどが含まれます。
収集の多様性
12種類の言語、多様な自然シーン、複数の撮影角度(仰角、俯角、水平)が含まれます。
収集デバイス
スマートフォン、カメラ
画像パラメータ
画像フォーマットは.jpg、アノテーションフォーマットは.jsonです
アノテーション内容
行単位の四角形アノテーション、行単位の内容で文字起こし
正解率
四角形バウンディングボックスの頂点の偏差が5ピクセル以内であれば正しい検出とみなし、検出ボックスの精度は97%以上とします。テキスト文字起こしの精度も97%以上とします
サンプル サンプル
  • 105,941枚の12言語自然シーンOCRデータセット
  • 105,941枚の12言語自然シーンOCRデータセット
  • 105,941枚の12言語自然シーンOCRデータセット
おすすめデータセットおすすめデータセット
ご要望をご相談ください

プライバシー保護 に同意する

39ffa4c2-0dca-4b09-b7f4-6d5ce34f134c

50e94a51-7e29-4e5a-8248-b2e79a23f1c3