「Datatang株式会社」は現在「Nexdata」のブランドとして事業を展開しています。本サイトより最新のAIデータサービスとソリューションをご案内いたします。

jp

Please fill in your name

Mobile phone format error

Please enter the telephone

Please enter your company name

Please enter your company email

Please enter the data requirement

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

The data requirement cannot be less than 5 words and cannot be pure numbers

日韓手書きOCRデータセット-日本語韓国語22,163件・100名

日本語手書きOCRデータセット
OCRデータセット
日本語OCR教師データ
韓国語手書きOCRデータセット

日本語・韓国語の手書き文字認識や多言語OCRシステム開発では、モバイル環境で収集された自然な筆跡データの確保が課題です。弊社が提供する本データセットは、100名から収集された22,163件の手書き画像です。国籍構成は日本人50名・韓国人49名・アフガニスタン1名。性別は全員男性。年齢層は若年〜中年層が中心。収録環境は実用的です。複数機種のスマートフォンで撮影。被験者ごとに異なるコーパスを採用。データ形式は.json。アノテーションは高精度です。テキスト内容・年齢・国籍・筆跡トレーシング情報を付与。アノテーション精度は95%以上を確保。学習用として最適な品質を実現。本データセットは、日本語・韓国語手書きOCRモデルの学習や、多言語手書き認識システム開発に最適。日韓バイリンガル対応の手書き文字認識、モバイル撮影環境に特化した筆跡理解、多言語OCRパイプラインの構築など、幅広い用途にご利用いただけます。日本人・韓国人の自然な筆跡に最適化された高精度な手書き認識を、効率的に実装可能です。さらに、お客様の開発要件に合わせてカスタマイズ対応も可能。収録言語・筆跡バリエーション・アノテーション項目・データ形式などを柔軟に調整。独自性の高い日韓手書きOCRソリューション開発を、最適な学習データ基盤でサポートいたします。

有料データセット
このデータセットは、商用利用や研究目的などに役立つ有償のデータセットです。著作権ありの既製データセットは、AIプロジェクトの飛躍的なスタートに役立ちます。
仕様データ仕様
データ規模
100人、合計手書き枚数22,163枚; 1人分最少手書き枚数159枚
国籍分布
日本人50人、韓国人49人、アフガン人1人
性別分布
男性
年齢分布
主に青年·中年
網羅性とバリデーション
多種多様な録音設備とコンテンツ含む
録音設備
ススマートフォン
データフォーマット
json
アノテーション
テキスト、年齢、国籍、手書き軌跡
正解率
正解率95%以上
サンプル サンプル
  • 日韓手書きOCRデータセット-日本語韓国語22,163件・100名
  • 日韓手書きOCRデータセット-日本語韓国語22,163件・100名
  • 日韓手書きOCRデータセット-日本語韓国語22,163件・100名
おすすめデータセットおすすめデータセット
ご要望をご相談ください

プロジェクトの成熟度

初期検討段階(具体的な仕様は未定)
目標は明確だが、専門的な支援が必要
開発中または最適化フェーズ
データ/アノテーションの専門チーム(明確な仕様あり)

プライバシー保護 に同意する

よくあるご質問

日本語OCRデータは、どのような形式・内容で提供されていますか?

手書き文字、帳票、商品ラベル、看板、公共文書など、実際の業務・生活シーンを想定した多様なデータを提供しています。すべてのデータセットには、行レベル・文字レベルのバウンディングボックスとテキスト転写が含まれ、用途に応じて柔軟にご利用いただけます。各データには詳細な仕様書とサンプルも同梱しており、事前にデータの特徴や適用可能性をご確認いただけます。

英語・日本語など多言語混在の帳票データも収集できますか?

はい、可能です。日本、アメリカ、中国、韓国など主要国を含むグローバルパートナー網を活用し、お客様の指定する業種・地域・フォーマットの実在帳票を現地で収集します。収集と並行して、ネイティブスピーカーによる高精度なアノテーションを即時実施できる体制を整えており、多言語混在文書や業界特化フォーマットにも柔軟に対応します。

多言語や業界特化データにも対応していますか?

はい。日本語(標準語・方言含む)に加え、英語、中国語、韓国語など12言語以上の自然シーンOCRデータを提供しています。製造、物流、小売、金融、公共サービスなど業界別のデータ構成も可能で、お客様のユースケースに最適なデータセットを迅速にご提案・提供いたします。

873778eb-99cd-4d2e-b2a2-ce963c3a42fc

4ac28760-d5ad-4b25-acca-c40c47e88f16