3,506枚のヒンディー語OCRマークアップと転写データ

ヒンディー語

OCR

文書画像

インターネット画像

自然シーン

複数の角度

さまざまな光条件

四角形境界ボックスアノテーション

テキストの行レベルの転写

テキストの列レベルの転写

3,506枚のヒンディー語OCRマークアップおよび転写データには、自然シーン画像2,056枚、インターネット画像1,103枚、テキスト画像347枚が含まれている。マークアップの面では、行レベルの内容：行レベルの四角形ボックスマークアップ、行レベルの内容転写、縦列内容：縦列四角形ボックスのマークアップ、縦列内容の転写。このヒンディー語OCRマークアップと転写データは、マルチシーンでのヒンディー語認識、ヒンディー語写真翻訳などのタスクに使用することができます。

このデータセットは、商用利用や研究目的などに役立つ有償のデータセットです。著作権ありの既製データセットは、AIプロジェクトの飛躍的なスタートに役立ちます。

よくあるご質問

日本語OCRデータは、どのような形式・内容で提供されていますか？

手書き文字、帳票、商品ラベル、看板、公共文書など、実際の業務・生活シーンを想定した多様なデータを提供しています。すべてのデータセットには、行レベル・文字レベルのバウンディングボックスとテキスト転写が含まれ、用途に応じて柔軟にご利用いただけます。各データには詳細な仕様書とサンプルも同梱しており、事前にデータの特徴や適用可能性をご確認いただけます。

英語・日本語など多言語混在の帳票データも収集できますか？

はい、可能です。日本、アメリカ、中国、韓国など主要国を含むグローバルパートナー網を活用し、お客様の指定する業種・地域・フォーマットの実在帳票を現地で収集します。収集と並行して、ネイティブスピーカーによる高精度なアノテーションを即時実施できる体制を整えており、多言語混在文書や業界特化フォーマットにも柔軟に対応します。

多言語や業界特化データにも対応していますか？

はい。日本語（標準語・方言含む）に加え、英語、中国語、韓国語など12言語以上の自然シーンOCRデータを提供しています。製造、物流、小売、金融、公共サービスなど業界別のデータ構成も可能で、お客様のユースケースに最適なデータセットを迅速にご提案・提供いたします。

3,506枚のヒンディー語OCRマークアップと転写データ

ヒンディー語 OCR 文書画像 インターネット画像 自然シーン 複数の角度 さまざまな光条件 四角形境界ボックスアノテーション テキストの行レベルの転写 テキストの列レベルの転写

プロジェクトの成熟度

よくあるご質問

ヒンディー語

OCR

文書画像

インターネット画像

自然シーン

複数の角度

さまざまな光条件

四角形境界ボックスアノテーション

テキストの行レベルの転写

テキストの列レベルの転写