Please fill in your name

Mobile phone format error

Please enter the telephone

Please enter your company name

Please enter your company email

Please enter the data requirement

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

The data requirement cannot be less than 5 words and cannot be pure numbers

m.nexdata.datatang.com

データによる
研究支援活動

Nexdataは、大学や学術機関を含む世界中の非営利組織向けにAIデータ支援研究プログラムを開始しました。このプログラムは、コンピュータビジョン、音声認識、その他の分野における貴重なトレーニングデータセットを提供し、AIの学術研究を支援します。

コンピュータビジョン コンピュータビジョン
音声認識 音声認識
データセット名  データ種類  データサイズ 特徴
1,000枚多様なシーン画像キャプションデータ    画像    1,000枚 多様なシーンの画像キャプションデータセット。シーンの分布には、自然の風景、都市の通り、展示会、家庭環境などが含まれます。各画像には、3〜5文の英語の説明が含まれています。
1,000枚自然シーンのOCRキャプションデータ  画像    1,000枚 14言語のOCRキャプションデータセット。画像の被写体には、バス停、ポスター、道路標識などが含まれます。各画像には、3〜5文の英語の説明が含まれています。
1,000枚画像キャプションデータ 画像    1,000枚 さまざまな頭の姿勢、顔の表情などの人間の顔画像キャプションデータセット。各画像には、3〜5文の英語の説明が含まれています。
1,000枚ジェスチャーの画像キャプションデータ 画像    1,000枚 さまざまな角度とジェスチャーをカバーするジェスチャー画像キャプションデータセット。各画像には、3〜5文の英語の説明が含まれています。
1,000枚肌質検出画像データ 画像    1,000枚 にきび、にきび跡、ダークスポット、しわ、くまなどの顔の皮膚の欠陥データセット。 
1,000本人間の動きの動画キャプションデータ   動画   1,000本   CCTVおよび非CCTV視点のヒューマンモーションビデオキャプションデータセット。人間の動きには、歩く、飲む、あくびをする、フィットネスなどが含まれます。各ビデオには英語のキャプションが含まれています。
1,000人多人種表現認識データ    画像    1,000名   ノーマル、幸せ、驚き、悲しみ、怒り、嫌悪、怖いなど、7 つの表情データセット。
1,000本多人種微表情(FACS)データ 動画   1,000本   インナーブロウレイザー(AU1)、アウターブロウレイザー(AU2)、上まぶたレイザー(AU5)などを含む57の顔表情データセット。
50人運転行動動画データ   動画   50名    危険な行動、疲労行動、視覚運動行動の運転行動データセット。データセットの多様性には、さまざまな対象年齢、期間、車両の種類、カメラ位置が含まれます。
50人2D顔なりすまし防止データ   画像・動画   50名    2D 顔のなりすまし防止データセット。リアルフェイスデータには、フェイシャルアクションビデオ、フェイシャル画像、リップランゲージビデオが含まれます。なりすまし対策データには、偽の顔のアクション動画、偽の唇の動作の動画、偽の顔画像が含まれます。 
1,000枚ジェスチャー認識画像データ   画像    1,000枚 18種類ジェスチャー認識データセット。ジェスチャーのカテゴリには、番号1、OK、LOVEなどが含まれます。21のランドマークと複数のジェスチャーがアノテーションされました。
3,000枚自然シーンOCR画像データ    画像    3,000枚  アジア言語(日本語、韓国語など)とヨーロッパ言語(フランス語、ドイツ語など)の自然情景OCRデータセット。テキストの行レベルの四辺形バウンディングボックスのアノテーションと文字起こしが付いています。
500枚手書きOCR画像データ   画像    500枚    英語と日本語の手書きOCRデータ。テキストの行レベルの四辺形バウンディングボックスのアノテーションと文字起こしが付いています。
50人3D顔のなりすまし防止データ   画像    50名    3D顔のなりすまし防止データセット。リアルフェイスデータには、顔画像が含まれます。なりすまし対策データには、偽の顔画像が含まれます。各画像は、深度画像、深度値ファイル、およびカメラパラメーターファイルに対応します。
1,000人多人種多姿勢顔画像データ     画像    1,000名   多人種顔認識データセット。各被収集者には、14の屋内マルチポーズ画像、14の屋外マルチポーズ画像、1 つのID 画像を含む 29 の顔画像があります。人種、性別、年齢、顔のポーズのラベルが含まれます。
データセット名  収録デバイス データサイズ 仕様
2時間-4カ国英語音声合成コーパス マイクロフォン 2時間、4人 話者:アメリカ、イギリス、オーストラリア、ニュージーランドから4名
フォーマット: 48,000Hz、24bit、非圧縮wav、モノラルチャンネル
録音環境:プロ用レコーディングスタジオ
20時間-フランス フランス語携帯電話による読み上げ・会話音声データ 携帯電話 20時間 フォーマット:16kHz、16bit、非圧縮wav、モノラルチャンネル
録音環境:背景雑音が少なく(屋内)、エコーなし
録音内容 : 朗読、会話
録音デバイス:アンドロイドスマートフォン、iPhone
国 : ポルトガル
言語 : ポルトガル語
アノテーション : 文字起こし
精度: 単語誤り率(WAR)は97%以上
20時間-携帯電話によるドイツ語読み上げ・会話音声データ 携帯電話 20時間 フォーマット:16kHz、16bit、非圧縮wav、モノラルチャンネル
録音環境:背景雑音が少なく(屋内)、エコーなし
録音内容:朗読、会話
録音デバイス:アンドロイドスマートフォン、iPhone
国 : ドイツ
言語 : ドイツ語
アノテーション : 文字起こし
精度: 単語誤り率(WAR)は97%以上
20時間-携帯電話によるイタリア語読み上げ・会話音声データ 携帯電話 20時間 フォーマット:16kHz、16bit、非圧縮wav、モノラルチャンネル
録音環境:背景雑音が少なく(屋内)、エコーなし
録音内容:朗読、会話
録音デバイス:アンドロイドスマートフォン、iPhone
国 : イタリア
言語 : イタリア語
アノテーション : 文字起こし
精度: 単語誤り率(WAR)は97%以上
20時間-携帯電話によるスペイン語読み上げ・会話音声データ 携帯電話 20時間 フォーマット:16kHz、16bit、非圧縮wav、モノラルチャンネル
録音環境:背景雑音が少なく(屋内)、エコーなし
録音内容:朗読、会話
録音デバイス:アンドロイドスマートフォン、iPhone
国 : スペイン
言語 : スペイン語
アノテーション : 文字起こし
精度: 単語誤り率(WAR)は97%以上
20時間-携帯電話による欧州ポルトガル語読み上げ・会話音声データ 携帯電話 20時間 フォーマット:16kHz、16bit、非圧縮wav、モノラルチャンネル
録音環境:背景雑音が少なく(屋内)、エコーなし
録音内容:朗読、会話
録音デバイス:アンドロイドスマートフォン、iPhone
国 : ポルトガル
言語 : ポルトガル語
アノテーション : 文字起こし
精度: 単語誤り率(WAR)は97%以上
20時間-携帯電話による日本語読み上げ・会話音声データ 携帯電話 20時間 フォーマット:16kHz、16bit、非圧縮wav、モノラルチャンネル
録音環境:背景雑音が少なく(屋内)、エコーなし
録音内容:朗読、会話
録音デバイス :Androidスマートフォン、iPhone
国 : 日本
言語 : 日本語
アノテーション : 文字起こし
精度: 単語誤り率(WAR)は97%以上
20時間-携帯電話による韓国語読み上げ・会話音声データ 携帯電話 20時間 フォーマット:16kHz、16bit、非圧縮wav、モノラルチャンネル
録音環境:背景雑音が少なく(屋内)、エコーなし
録音内容:朗読、会話
録音デバイス:アンドロイドスマートフォン、iPhone
国 : 韓国
言語 : 韓国語
アノテーション : 文字起こし
精度: 単語誤り率(WAR)は97%以上
10時間 - 電話によるパシュトゥー語会話データ 携帯電話 10時間 フォーマット:8kHz、8bit、a-law/u-law pcm、モノラル・チャンネル
内容カテゴリー : 与えられたトピックに基づく
対話録音環境:背景雑音が少なく(屋内)
録音デバイス: 電話
国 : アフガニスタン(AFG)
言語(地域)コード : ps-AF
言語 : パシュトゥー語
話者 : 合計224人、男性92%、女性8%
アノテーション : 文字起こし、タイムスタンプ、話者ID、性別
精度 :単語誤り率(WAR)は95%以上
Interspeech_ アクセント英語音声認識コンテストデータ 携帯電話 200時間、528人 オーディオ・フォーマット:16kHz、16bit、モノラルwav
音声内容:日常的なコミュニケーションを中心に、人間とコンピュータの対話シーンなど
録音環境:比較的静かな室内、携帯電話による録音
収録時間:各アクセント約20時間、計8アクセント
言語:ロシア語、韓国語、アメリカ語、ポルトガル語、日本語、インド語、イギリス語
話者:各言語40~110人
ノート:研究分野に応じてデータセットをお申し込みしてください。コンピュータービジョンデータセットは最大6セットまでご利用頂けます。
ノート:研究分野に応じてデータセットをお申し込みしてください。音声認識データセットは最大4セットまでご利用頂けます。

データセット利用の流れ

利用したいデータセットを選択

利用したいデータセットを選択

フォームを送信

フォームを送信

返信をもらう

返信をもらう

データセットを入手

データセットを入手

データセットの申し込み

協力機関

Nexdataはオープンソースデータイベントを解釈する権利を有します。

27bcfc11-d587-4df2-8144-a957b663534f

ebd8a234-657f-4059-9a14-ef663c895363