「Datatang株式会社」は現在「Nexdata」のブランドとして事業を展開しています。本サイトより最新のAIデータサービスとソリューションをご案内いたします。

jp

Please fill in your name

Mobile phone format error

Please enter the telephone

Please enter your company name

Please enter your company email

Please enter the data requirement

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

The data requirement cannot be less than 5 words and cannot be pure numbers

OCRデータセット

既製の高品質データセットでAIモデルのパフォーマンスを即座に向上させます。

データタイプ

全て
26
ドキュメント
2
自然シーン
10
手書き文字
13
インターネット画像
3
帳票
1
その他
3
試験内容
1
1

言語

全て
26
中国語
5
英語
4
ヒンディー語
3
日本語
7
韓国語
6
その他
17
ベトナム語
3

21言語・50万枚 多言語OCR データセット(自然画像・文書画像・スクリーン)

本データセットは、21言語に対応した合計約50万枚のOCR用画像データを収録しています。各言語ごとに約2万〜2.5万枚の画像を含み、自然シーン画像、文書撮影画像、電子画面画像(スクリーン表示)など多様なデータタイプで構成されています。撮影角度、背景、レイアウト、文字種の違いなど、実環境に近い多様性を備えています。アノテーションは行(列)単位での四辺形または多角形による領域ラベリングと内容転写(トランスクリプション)を実施しており、テキスト検出・文字認識・多言語OCRモデルの学習および評価に適しています。
ocrデータセット 日本語ocrデータ OCR画像データ OCR学習データ

1,000枚OCR向け日本語請求書データセット

本データセットは、日本語の請求書画像1,000枚を収録した高品質なOCR学習用データです。基礎編集データ500枚と専門編集データ500枚から構成され、請求書の内容、編集方式、フォーマットにおいて十分な多様性を確保し、実際の業務で使用される帳票に近い構成となっています。画像内に含まれる会社名、住所、氏名、電話番号、FAX番号などの個人・企業情報はすべて仮想データに置換された匿名加工済み情報であり、プライバシーに配慮しています。本データは、日本語請求書の検出、OCRによる文字認識、帳票構造解析、キー情報抽出、エンドツーエンド型Document AIシステムの開発など、幅広いAI研究開発用途に活用可能です。
日本語OCRデータ AI-OCR学習データ 請求書OCR学習用データ 日本語帳票データ

222,289枚の中国語ナチュラルシーンOCRデータ

222,289枚の中国語ナチュラルシーンOCRデータは、室内と屋外のシーンをカバーしています。データの網羅性やバリエーションには、様々なシーンや撮影角度が含まれます。アノテーションに関しては、画像中の文字に対して行レベルアノテーション、単語レベルアノテーション、文字レベルアノテーション、および内容転写が行われます。本中国語ナチュラルシーンOCRデータセットは、ナチュラルシーンOCRに活用可能。
OCR ナチュラルシーン 行レベルアノテーション 単語レベルアノテーション 文字レベルアノテーション テキストの転写

9,497枚の10種類の表OCRデータ

9,497枚の10種類の表OCRデータは矩形ボックスを使用してアノテーションされ、表検出と認識などのタスクに利用可能。
OCR フォーム

小学校数学の答案用紙17,561枚の収集データ

17,561枚の小学校数学の答案用紙収集データ背景は単色です。データは、複数の問題タイプ、複数の問題用紙タイプ(数学の練習帳、問題用紙、コンテスト問題など)、複数の学年をカバーしています。本小学校数学答案用紙の収集データはスマート判定、小学生の宿題指導などの任務に用いることができます。
小学校数学論文 OCR 複数種類の問題(垂直計算 水平計算 再帰計算 分数 解決方程式など) 複数種類の試験論文(数学の作業帳 試験論文 競技試験問題など) 複数の成績

4,995枚のベトナム語OCRマーキングおよび転写データ

4,995枚のベトナム語OCRマークアップおよび転写データには、自然シーン画像258枚、インターネット画像2,553枚、テキスト画像2,184枚が含まれている。マークアップの面では、行レベルの内容:行レベルの四角形ボックスマークアップ、行レベルの内容転写、縦列内容:縦列四角形ボックスのマークアップ、縦列内容の転写。このベトナム語OCRマークアップと転写データは、さまざまなシーンでのベトナム語認識、ベトナム語写真翻訳などのタスクに使用することができます。
ベトナム OCR 文書画像 インターネット画像 自然シーン 複数の角度 さまざまな光条件 四角形境界ボックスアノテーション テキストの行レベルの転写 テキストの列レベルの転写

104,320枚の韓国語とヒンディー語の自然シーンOCRデータ

104,320枚の韓国語とヒンディー語の自然シーンOCRデータは、商品パッケージ、ポスター、チケット、案内表示、メニュー、建物の標識などのシーンから収集されています。データの多様性には、多様なシーン、多様な撮影角度、多様な照明条件が含まれます。言語分布は韓国語、ヒンディー語、および英語(少量)です。アノテーションに関しては、行単位の多角形ボックス(または四角形ボックス、矩形ボックス)アノテーション、行単位の内容転写、テキスト属性(言語種類)を行い、列単位の多角形ボックス(または四角形ボックス、矩形ボックス)アノテーショ、列単位の内容転写、テキスト属性(言語種類)を行います。この韓国語とヒンディー語の自然シーンOCRデータは、韓国語とヒンディー語の自然シーンにおけるOCRタスクに活用できます。
韓国語 ヒンディー語 OCRデータ 自然シーン OCR音訳データ

105,941枚の12言語自然シーンOCRデータセット

105,941枚の12言語自然シーンOCRデータは、12種類の言語(アジア言語6種類、ヨーロッパ言語6種類)をカバーし、多様な自然シーンや撮影角度で収集されています。アノテーションについては、行単位のテキストの四角形バウンディングボックスと、行単位のテキスト文字起こしが行われています。このデータセットは、多言語OCRタスクに活用できます。
日本語 韓国語 インドネシア語 マレー語 ベトナム語 タイ語 フランス語 ドイツ語 イタリア語 ポルトガル語 ロシア語 スペイン語 OCR 自然な会話シーン 多様な撮影アングル テキストの行レベルの四角形バウンディングボックスアノテーションとテキスト転写

100人日韓手書きデータ

100人の日韓手書きデータは、データ入力者合計100人のうち、日本人50人、韓国人49人とアフガニスタン人1人。各人が書いたコーパスはすべて異なります。本データの網羅性やバリエーションは、様々な携帯録音設備と異なるコーパスを含みます。本日韓手書きデータセットは、日本語と韓国語の手書き文字OCR認識に活用可能。
日本語 韓国語 手書きOCR 手書き軌跡

loading

今すぐデータをカスタマイズ

既製データセットの強み

  • 著作権あり

    著作権あり

    自社版権で すぐ納品可能
  • 安全

    安全

    承認済み 安全で使用可能
  • 専門性高い

    専門性高い

    AIデータの専門家により 設計・作成
  • 多様性に富む

    多様性に富む

    様々な 実際のシーンから収集
  • コスパ高い

    コスパ高い

    カスタマイズより コスパが優れている
  • 効率的

    効率的

    即座に 納品可能
715a1ab8-d6b0-4376-a5e1-eb78a7453c67