学術研究用オープンデータセット

コンピュータビジョン

音声認識

データセット名	データ種類	データサイズ	特徴
1,000枚多様なシーン画像キャプションデータ	画像	1,000枚	多様なシーンの画像キャプションデータセット。シーンの分布には、自然の風景、都市の通り、展示会、家庭環境などが含まれます。各画像には、3〜5文の英語の説明が含まれています。
1,000枚自然シーンのOCRキャプションデータ	画像	1,000枚	14言語のOCRキャプションデータセット。画像の被写体には、バス停、ポスター、道路標識などが含まれます。各画像には、3〜5文の英語の説明が含まれています。
1,000枚画像キャプションデータ	画像	1,000枚	さまざまな頭の姿勢、顔の表情などの人間の顔画像キャプションデータセット。各画像には、3〜5文の英語の説明が含まれています。
1,000枚ジェスチャーの画像キャプションデータ	画像	1,000枚	さまざまな角度とジェスチャーをカバーするジェスチャー画像キャプションデータセット。各画像には、3〜5文の英語の説明が含まれています。
1,000枚肌質検出画像データ	画像	1,000枚	にきび、にきび跡、ダークスポット、しわ、くまなどの顔の皮膚の欠陥データセット。
1,000本人間の動きの動画キャプションデータ	動画	1,000本	CCTVおよび非CCTV視点のヒューマンモーションビデオキャプションデータセット。人間の動きには、歩く、飲む、あくびをする、フィットネスなどが含まれます。各ビデオには英語のキャプションが含まれています。
1,000人多人種表現認識データ	画像	1,000名	ノーマル、幸せ、驚き、悲しみ、怒り、嫌悪、怖いなど、7 つの表情データセット。
1,000本多人種微表情(FACS)データ	動画	1,000本	インナーブロウレイザー(AU1)、アウターブロウレイザー(AU2)、上まぶたレイザー(AU5)などを含む57の顔表情データセット。
50人運転行動動画データ	動画	50名	危険な行動、疲労行動、視覚運動行動の運転行動データセット。データセットの多様性には、さまざまな対象年齢、期間、車両の種類、カメラ位置が含まれます。
50人2D顔なりすまし防止データ	画像・動画	50名	2D 顔のなりすまし防止データセット。リアルフェイスデータには、フェイシャルアクションビデオ、フェイシャル画像、リップランゲージビデオが含まれます。なりすまし対策データには、偽の顔のアクション動画、偽の唇の動作の動画、偽の顔画像が含まれます。
1,000枚ジェスチャー認識画像データ	画像	1,000枚	18種類ジェスチャー認識データセット。ジェスチャーのカテゴリには、番号1、OK、LOVEなどが含まれます。21のランドマークと複数のジェスチャーがアノテーションされました。
3,000枚自然シーンOCR画像データ	画像	3,000枚	アジア言語(日本語、韓国語など)とヨーロッパ言語(フランス語、ドイツ語など)の自然情景OCRデータセット。テキストの行レベルの四辺形バウンディングボックスのアノテーションと文字起こしが付いています。
500枚手書きOCR画像データ	画像	500枚	英語と日本語の手書きOCRデータ。テキストの行レベルの四辺形バウンディングボックスのアノテーションと文字起こしが付いています。
50人3D顔のなりすまし防止データ	画像	50名	3D顔のなりすまし防止データセット。リアルフェイスデータには、顔画像が含まれます。なりすまし対策データには、偽の顔画像が含まれます。各画像は、深度画像、深度値ファイル、およびカメラパラメーターファイルに対応します。
1,000人多人種多姿勢顔画像データ	画像	1,000名	多人種顔認識データセット。各被収集者には、14の屋内マルチポーズ画像、14の屋外マルチポーズ画像、1 つのID 画像を含む 29 の顔画像があります。人種、性別、年齢、顔のポーズのラベルが含まれます。

データセット名	収録デバイス	データサイズ	仕様
2時間-4カ国英語音声合成コーパス	マイクロフォン	2時間、4人	話者：アメリカ、イギリス、オーストラリア、ニュージーランドから4名フォーマット： 48,000Hz、24bit、非圧縮wav、モノラルチャンネル録音環境：プロ用レコーディングスタジオ
20時間-フランスフランス語携帯電話による読み上げ・会話音声データ	携帯電話	20時間	フォーマット：16kHz、16bit、非圧縮wav、モノラルチャンネル録音環境：背景雑音が少なく（屋内）、エコーなし録音内容 : 朗読、会話録音デバイス：アンドロイドスマートフォン、iPhone 国 : ポルトガル言語 : ポルトガル語アノテーション : 文字起こし精度：単語誤り率（WAR）は97％以上
20時間-携帯電話によるドイツ語読み上げ・会話音声データ	携帯電話	20時間	フォーマット：16kHz、16bit、非圧縮wav、モノラルチャンネル録音環境：背景雑音が少なく（屋内）、エコーなし録音内容：朗読、会話録音デバイス：アンドロイドスマートフォン、iPhone 国 : ドイツ言語 : ドイツ語アノテーション : 文字起こし精度：単語誤り率（WAR）は97％以上
20時間-携帯電話によるイタリア語読み上げ・会話音声データ	携帯電話	20時間	フォーマット：16kHz、16bit、非圧縮wav、モノラルチャンネル録音環境：背景雑音が少なく（屋内）、エコーなし録音内容：朗読、会話録音デバイス：アンドロイドスマートフォン、iPhone 国 : イタリア言語 : イタリア語アノテーション : 文字起こし精度：単語誤り率（WAR）は97％以上
20時間-携帯電話によるスペイン語読み上げ・会話音声データ	携帯電話	20時間	フォーマット：16kHz、16bit、非圧縮wav、モノラルチャンネル録音環境：背景雑音が少なく（屋内）、エコーなし録音内容：朗読、会話録音デバイス：アンドロイドスマートフォン、iPhone 国 : スペイン言語 : スペイン語アノテーション : 文字起こし精度：単語誤り率（WAR）は97％以上
20時間-携帯電話による欧州ポルトガル語読み上げ・会話音声データ	携帯電話	20時間	フォーマット：16kHz、16bit、非圧縮wav、モノラルチャンネル録音環境：背景雑音が少なく（屋内）、エコーなし録音内容：朗読、会話録音デバイス：アンドロイドスマートフォン、iPhone 国 : ポルトガル言語 : ポルトガル語アノテーション : 文字起こし精度：単語誤り率（WAR）は97％以上
20時間-携帯電話による日本語読み上げ・会話音声データ	携帯電話	20時間	フォーマット：16kHz、16bit、非圧縮wav、モノラルチャンネル録音環境：背景雑音が少なく（屋内）、エコーなし録音内容：朗読、会話録音デバイス：Androidスマートフォン、iPhone 国 : 日本言語 : 日本語アノテーション : 文字起こし精度：単語誤り率（WAR）は97％以上
20時間-携帯電話による韓国語読み上げ・会話音声データ	携帯電話	20時間	フォーマット：16kHz、16bit、非圧縮wav、モノラルチャンネル録音環境：背景雑音が少なく（屋内）、エコーなし録音内容：朗読、会話録音デバイス：アンドロイドスマートフォン、iPhone 国 : 韓国言語 : 韓国語アノテーション : 文字起こし精度：単語誤り率（WAR）は97％以上
10時間 - 電話によるパシュトゥー語会話データ	携帯電話	10時間	フォーマット：8kHz、8bit、a-law/u-law pcm、モノラル・チャンネル内容カテゴリー : 与えられたトピックに基づく対話録音環境：背景雑音が少なく（屋内）録音デバイス：電話国 : アフガニスタン（AFG）言語（地域）コード : ps-AF 言語 : パシュトゥー語話者 : 合計224人、男性92%、女性8% アノテーション : 文字起こし、タイムスタンプ、話者ID、性別精度 :単語誤り率（WAR）は95%以上
Interspeech_ アクセント英語音声認識コンテストデータ	携帯電話	200時間、528人	オーディオ・フォーマット：16kHz、16bit、モノラルwav 音声内容：日常的なコミュニケーションを中心に、人間とコンピュータの対話シーンなど録音環境：比較的静かな室内、携帯電話による録音収録時間：各アクセント約20時間、計8アクセント言語：ロシア語、韓国語、アメリカ語、ポルトガル語、日本語、インド語、イギリス語話者：各言語40～110人