日本語OCRモデルに活用可能：101名・4,538枚日本語手書きOCRデータ

発信者：Nexdata 日時： 12/18/2025

今回は、高品質な日本語手書きOCR（光学式文字認識）トレーニング用データセット「101 People – 4,538 Images Japanese Handwriting OCR Data」をご案内致します。

本データセットは、101名の異なる筆者がA4用紙に記述した手書きテキストをスキャナーで収集したもので、計4,538枚の画像とそれに対応する高精度アノテーションを含みます。筆者は日本語専攻（中国人または日本人）の大学院卒または修士卒であり、多様な表現・筆跡をカバーしています。

データ内容は、社会・生活、エンタメ、旅行、スポーツ、映画、作文など幅広い分野にわたり、実用性の高い語彙構成となっています。

アノテーションは、文字レベルおよび行レベルの双方で実施されており、それぞれ矩形バウンディングボックスとテキスト転写が付与されています。特殊な表記（例：「ジェ」「シェ」など拗音2文字）にも対応しており、きめ細やかなラベリングが特徴です。

品質面では、バウンディングボックスの各頂点誤差が3ピクセル以内、アノテーション精度および文字転写精度ともに97%以上を確保しています。

データ形式は画像が.jpg、アノテーションファイルが.jsonで提供され、フォルダ構成も明確に整理されています（セッション別：行レベル／文字レベル）。研究・開発用途に即して利用可能な、実用性と拡張性を兼ね備えたデータセットです。

詳細：https://jp.nexdata.ai/datasets/ocr/1296?fromPage=1

このデータセットは、日本語手書き認識モデルの開発・ファインチューニング、OCRシステムの精度向上、あるいは多様な筆跡へのロバスト性評価など、幅広いAI研究・実装にご活用いただけます。

Nexdata会社情報・AI開発に役立つ事例・業界レポートをダウンロードできます。

今すぐチェック