Nexdataはこのたび、「
100時間日本語エンティティ含有スクリプト独話スマートフォン音声データセット」を新たに提供開始しました。本データセットは、日本語音声認識(ASR)および話者認識モデルの研究・開発を目的に、実運用を前提とした設計思想で構築された高品質音声データです。
実サービスで“本当に出現する”エンティティを網羅的に収録
本データセット最大の特長は、すべての発話文にエンティティ情報が意図的に含まれている点です。人名、電話番号、住所、英数字列、メールアドレス、製品型番、シリアル番号、金額など、コールセンター、音声入力UI、業務システム連携において頻出する情報を網羅しています。
単なる汎用ASRではなく、エンティティ認識精度が求められる音声システムや、将来的なSLU(Speech & Language Understanding)拡張を見据えたモデル設計に適した学習データとして活用できます。
スマートフォン収録 × 実環境想定で“机上精度”に終わらせない
音声はすべて Android / iPhone によって収録されており、フォーマットは 16kHz / 16bit / 非圧縮WAV(モノラル)。静かな屋内環境だけでなく、日常的な軽微ノイズを含む通常環境でも収録されています。これにより、実際のスマートフォン音声入力環境に近い分布を再現でき、研究室内での評価にとどまらない、実運用レベルでのモデル耐性検証が可能です。
文字正解率98%の高精度書き起こしで研究効率を最大化
全音声データには、厳格な品質管理プロセスを経た書き起こしテキストとメタデータが付与されています。文字正解率(CAR)は98%を達成しており、音響モデル・言語モデル学習の双方に安心して利用可能です。
また、ノイズを含む音声にはタグ付けが行われており、ノイズ耐性評価、エラー分析、追加学習設計にも活用しやすい構成となっています。
話者ID単位で整理された構造が話者認識研究にも対応
データは話者ID単位で整理されており、同一話者の音声・書き起こし・メタデータが一貫して管理されています。そのため、話者識別・話者照合・音声特徴量分析など、音声認識にとどまらない研究用途にも適しています。
ASRと話者認識を並行して検証したい研究チームにとって、追加前処理を最小限に抑えられる即戦力データセットです。
ユースケースと活用シナリオ
本データセットは、以下のような開発・研究シーンで特に高い価値を発揮します。
日本語音声認識(ASR)の音響モデル・言語モデル学習
エンティティ認識を伴う音声入力・音声UIの精度向上
コールセンター/業務音声システム向け研究
話者認識・音声IDモデルの開発および評価
日本語音声AI開発を加速する“実用指向”データ基盤
Nexdataは、研究用途に留まらず実際のプロダクト開発で再利用できるデータ設計を重視しています。本データセットも、現場で直面する課題を前提に設計された、再現性・拡張性の高い日本語音声データ基盤です。
日本語音声AIの精度向上や新規モデル研究を検討されている方は、ぜひ本データセットをご活用ください。