[{"@type":"PropertyValue","name":"データタイプ","value":"426,687枚の高解像度画像。20言語対応(繁体字中国語・日本語・韓国語・タイ語・ベトナム語・インドネシア語・マレー語・英語・仏・独・西・露・阿など)。"},{"@type":"PropertyValue","name":"収録環境","value":"自然シーン:看板・領収書・ポスター・道路標識・食品パッケージ・広告・駅サインなど。文書画像:電子文書・議事録・報告書・マニュアル・書籍・新聞・教材など。"},{"@type":"PropertyValue","name":"撮影条件","value":"スマートフォン・PCで撮影。見上げ・見下ろし・アイレベルなど複数アングル対応。背景・照明・画角の多様性を確保。収集精度95%超。"},{"@type":"PropertyValue","name":"活用シーン","value":"多言語文字認識モデル学習、テキスト検出・レイアウト解析アルゴリズム開発、日本語/中国語/韓国語対応OCRシステム構築、グローバル文書処理基盤整備に最適。GDPR/CCPA/PIPL準拠でプライバシー保護も万全。カスタマイズ対応により、独自ソリューション開発もサポートします。"}]
{"id":1759,"datatype":"1","titleimg":"https://jp.nexdata.ai/shujutang/static/image/index/datatang_tuxiang_default.webp","type1":"147","type1str":null,"type2":"150","type2str":null,"dataname":"426,687枚・20言語対応自然シーン&文書画像OCRデータセット","datazy":[{"title":"データタイプ","content":"426,687枚の高解像度画像。20言語対応(繁体字中国語・日本語・韓国語・タイ語・ベトナム語・インドネシア語・マレー語・英語・仏・独・西・露・阿など)。"},{"title":"収録環境","content":"自然シーン:看板・領収書・ポスター・道路標識・食品パッケージ・広告・駅サインなど。文書画像:電子文書・議事録・報告書・マニュアル・書籍・新聞・教材など。"},{"title":"撮影条件","content":"スマートフォン・PCで撮影。見上げ・見下ろし・アイレベルなど複数アングル対応。背景・照明・画角の多様性を確保。収集精度95%超。"},{"title":"活用シーン","content":"多言語文字認識モデル学習、テキスト検出・レイアウト解析アルゴリズム開発、日本語/中国語/韓国語対応OCRシステム構築、グローバル文書処理基盤整備に最適。GDPR/CCPA/PIPL準拠でプライバシー保護も万全。カスタマイズ対応により、独自ソリューション開発もサポートします。"}],"datatag":"Natural Scenes,Document Photography Scenes,Electronic Scenes,OCR","technologydoc":null,"downurl":null,"datainfo":null,"standard":null,"dataylurl":null,"flag":null,"publishtime":null,"createby":null,"createtime":null,"ext1":null,"samplestoreloc":null,"hosturl":null,"datasize":null,"industryPlan":null,"keyInformation":null,"samplePresentation":[{"name":"Italian.jpg","url":"https://storage-product.datatang.com/damp/product/instructions_zh/20250408181303/Italian.jpg?Expires=4102415999&OSSAccessKeyId=LTAI5tEBeSWUJiqjXvBMsxEu&Signature=4PPPhAekKh9bLbFrSmO6wAeEHmw%3D","intro":"","size":1809941,"progress":100,"type":"jpg"},{"name":"German.JPG","url":"https://storage-product.datatang.com/damp/product/instructions_zh/20250408181303/German.JPG?Expires=4102415999&OSSAccessKeyId=LTAI5tEBeSWUJiqjXvBMsxEu&Signature=jtiszx3%2FxhwmY8Lf11kG1CS7kYA%3D","intro":"","size":4991935,"progress":100,"type":"jpg"},{"name":"German-1.jpg","url":"https://storage-product.datatang.com/damp/product/instructions_zh/20250408181303/German-1.jpg?Expires=4102415999&OSSAccessKeyId=LTAI5tEBeSWUJiqjXvBMsxEu&Signature=bAy%2FbH26hDUdacLQwMwnMTvj390%3D","intro":"","size":963208,"progress":100,"type":"jpg"}],"officialSummary":"多言語対応のOCRシステムや文書自動処理技術の開発では自然シーンと文書画像の両方に対応した高品質なOCR教師データの確保が課題です。特に日本語・中国語・韓国語を含む多言語OCRデータセットや、実環境に近いシーンテキスト認識学習データの需要が急増中です。弊社が提供する本データセットは、426,687枚の高解像度画像を収録。対象言語は20言語。繁体字中国語・日本語・韓国語・タイ語・ベトナム語・インドネシア語・マレー語に加え、英語・フランス語・ドイツ語・スペイン語・ロシア語・アラビア語など主要言語を包括。収録環境は多岐にわたります。自然シーンでは、看板・領収書・ポスター・道路標識・食品パッケージ・広告看板・駅構内サインなどを収録。文書画像では、電子文書・議事録・報告書・マニュアル・書籍・新聞・教材などを網羅。撮影条件も豊富です。スマートフォン・PCで撮影。見上げ・見下ろし・アイレベルなど複数アングルに対応。背景・照明・画角の多様性を確保。収集精度は95%超を維持。本データセットは、多言語文字認識モデルの学習や、テキスト検出・レイアウト解析アルゴリズム開発に最適。日本語、中国語・韓国語・東南アジア言語対応の文字認識システム構築、グローバル展開を視野に入れた多言語文書処理基盤の整備など、幅広い用途にご利用いただけます。単一言語では対応困難な多言語・多環境OCRタスクを、効率的に実装可能です。さらに、お客様の開発要件に合わせてカスタマイズ対応も可能。収録言語・シーン種別・アノテーション粒度・データ形式などを柔軟に調整。GDPR/CCPA/PIPL準拠のプライバシー保護のもと、独自性の高い多言語OCRソリューション開発をサポートいたします。","dataexampl":null,"datakeyword":["多言語OCRデータセット","文字認識学習データ","OCR教師データ","日本語OCRデータセット","文書画像OCRデータ","レイアウト解析教師データ","中国語韓国語OCRデータ"],"isDelete":null,"ids":null,"idsList":null,"datasetCode":null,"productStatus":null,"tagTypeEn":"Data Type,Language","tagTypeZh":null,"website":null,"samplePresentationList":null,"datazyList":null,"keyInformationList":null,"dataexamplList":null,"bgimg":null,"datazyScriptList":null,"datakeywordListString":null,"sourceShowPage":"ocr","dataShowType":"[{\"code\":\"0\",\"language\":\"ZH\"},{\"code\":\"1\",\"language\":\"ZH\"},{\"code\":\"2\",\"language\":\"EN,PT,DE,KO,FR,ES,JP\"},{\"code\":\"3\",\"language\":\"EN\"},{\"code\":\"4\",\"language\":\"JP\"}]","productNameEn":"426,687 Images - Natural Scenes & Document Photography Scenes & Electronic Scenes OCR Collection Data of 20 Countries","BGimg":"","voiceBg":["/shujutang/static/image/comm/audio_bg.webp","/shujutang/static/image/comm/audio_bg2.webp","/shujutang/static/image/comm/audio_bg3.webp","/shujutang/static/image/comm/audio_bg4.webp","/shujutang/static/image/comm/audio_bg5.webp"],"firstList":[{"name":"Korean.jpg","url":"https://storage-product.datatang.com/damp/product/instructions_zh/20250408181303/Korean.jpg?Expires=4102415999&OSSAccessKeyId=LTAI5tEBeSWUJiqjXvBMsxEu&Signature=rMkhxOhurCs7nUTnO5puCPLBo6s%3D","intro":"","size":1218381,"progress":100,"type":"jpg"}]}
https://jp.nexdata.ai/shujutang/static/image/index/datatang_tuxiang_default.webp
[{"@type":"ImageObject","embedUrl":"https://storage-product.datatang.com/damp/product/instructions_zh/20250408181303/Italian.jpg?Expires=4102415999&OSSAccessKeyId=LTAI5tEBeSWUJiqjXvBMsxEu&Signature=4PPPhAekKh9bLbFrSmO6wAeEHmw%3D"},{"@type":"ImageObject","embedUrl":"https://storage-product.datatang.com/damp/product/instructions_zh/20250408181303/German.JPG?Expires=4102415999&OSSAccessKeyId=LTAI5tEBeSWUJiqjXvBMsxEu&Signature=jtiszx3%2FxhwmY8Lf11kG1CS7kYA%3D"},{"@type":"ImageObject","embedUrl":"https://storage-product.datatang.com/damp/product/instructions_zh/20250408181303/German-1.jpg?Expires=4102415999&OSSAccessKeyId=LTAI5tEBeSWUJiqjXvBMsxEu&Signature=bAy%2FbH26hDUdacLQwMwnMTvj390%3D"},{"@type":"ImageObject","embedUrl":"https://storage-product.datatang.com/damp/product/instructions_zh/20250408181303/Korean.jpg?Expires=4102415999&OSSAccessKeyId=LTAI5tEBeSWUJiqjXvBMsxEu&Signature=rMkhxOhurCs7nUTnO5puCPLBo6s%3D"}]
426,687枚・20言語対応自然シーン&文書画像OCRデータセット
多言語OCRデータセット
文字認識学習データ
OCR教師データ
日本語OCRデータセット
文書画像OCRデータ
レイアウト解析教師データ
中国語韓国語OCRデータ
多言語対応のOCRシステムや文書自動処理技術の開発では自然シーンと文書画像の両方に対応した高品質なOCR教師データの確保が課題です。特に日本語・中国語・韓国語を含む多言語OCRデータセットや、実環境に近いシーンテキスト認識学習データの需要が急増中です。弊社が提供する本データセットは、426,687枚の高解像度画像を収録。対象言語は20言語。繁体字中国語・日本語・韓国語・タイ語・ベトナム語・インドネシア語・マレー語に加え、英語・フランス語・ドイツ語・スペイン語・ロシア語・アラビア語など主要言語を包括。収録環境は多岐にわたります。自然シーンでは、看板・領収書・ポスター・道路標識・食品パッケージ・広告看板・駅構内サインなどを収録。文書画像では、電子文書・議事録・報告書・マニュアル・書籍・新聞・教材などを網羅。撮影条件も豊富です。スマートフォン・PCで撮影。見上げ・見下ろし・アイレベルなど複数アングルに対応。背景・照明・画角の多様性を確保。収集精度は95%超を維持。本データセットは、多言語文字認識モデルの学習や、テキスト検出・レイアウト解析アルゴリズム開発に最適。日本語、中国語・韓国語・東南アジア言語対応の文字認識システム構築、グローバル展開を視野に入れた多言語文書処理基盤の整備など、幅広い用途にご利用いただけます。単一言語では対応困難な多言語・多環境OCRタスクを、効率的に実装可能です。さらに、お客様の開発要件に合わせてカスタマイズ対応も可能。収録言語・シーン種別・アノテーション粒度・データ形式などを柔軟に調整。GDPR/CCPA/PIPL準拠のプライバシー保護のもと、独自性の高い多言語OCRソリューション開発をサポートいたします。
このデータセットは、商用利用や研究目的などに役立つ有償のデータセットです。著作権ありの既製データセットは、AIプロジェクトの飛躍的なスタートに役立ちます。
![仕様]()
データ仕様
データタイプ
426,687枚の高解像度画像。20言語対応(繁体字中国語・日本語・韓国語・タイ語・ベトナム語・インドネシア語・マレー語・英語・仏・独・西・露・阿など)。
収録環境
自然シーン:看板・領収書・ポスター・道路標識・食品パッケージ・広告・駅サインなど。文書画像:電子文書・議事録・報告書・マニュアル・書籍・新聞・教材など。
撮影条件
スマートフォン・PCで撮影。見上げ・見下ろし・アイレベルなど複数アングル対応。背景・照明・画角の多様性を確保。収集精度95%超。
活用シーン
多言語文字認識モデル学習、テキスト検出・レイアウト解析アルゴリズム開発、日本語/中国語/韓国語対応OCRシステム構築、グローバル文書処理基盤整備に最適。GDPR/CCPA/PIPL準拠でプライバシー保護も万全。カスタマイズ対応により、独自ソリューション開発もサポートします。
![サンプル]()
サンプル
![おすすめデータセット]()
おすすめデータセット
よくあるご質問

日本語OCRデータは、どのような形式・内容で提供されていますか?

手書き文字、帳票、商品ラベル、看板、公共文書など、実際の業務・生活シーンを想定した多様なデータを提供しています。すべてのデータセットには、行レベル・文字レベルのバウンディングボックスとテキスト転写が含まれ、用途に応じて柔軟にご利用いただけます。各データには詳細な仕様書とサンプルも同梱しており、事前にデータの特徴や適用可能性をご確認いただけます。

英語・日本語など多言語混在の帳票データも収集できますか?

はい、可能です。日本、アメリカ、中国、韓国など主要国を含むグローバルパートナー網を活用し、お客様の指定する業種・地域・フォーマットの実在帳票を現地で収集します。収集と並行して、ネイティブスピーカーによる高精度なアノテーションを即時実施できる体制を整えており、多言語混在文書や業界特化フォーマットにも柔軟に対応します。

多言語や業界特化データにも対応していますか?

はい。日本語(標準語・方言含む)に加え、英語、中国語、韓国語など12言語以上の自然シーンOCRデータを提供しています。製造、物流、小売、金融、公共サービスなど業界別のデータ構成も可能で、お客様のユースケースに最適なデータセットを迅速にご提案・提供いたします。
d2ef19e3-3853-4dec-a774-08ec4e50fd76