[{"@type":"PropertyValue","name":"フォーマット","value":"動画:MP4形式、1280×720、音声:WAV形式、16kHz、16ビットモノラル"},{"@type":"PropertyValue","name":"収録環境","value":"静かな日当たりの良い部屋を用いて昼間の屋外走行シーンを再現、信号対雑音比25~20dB"},{"@type":"PropertyValue","name":"内容","value":"日光の強さによって、大きなシーンとサブシーンに分かれる"},{"@type":"PropertyValue","name":"話者","value":"249 中国人、男女バランス取れる"},{"@type":"PropertyValue","name":"角度","value":"正面、片側顔、上向き、下向き、下向き横顔、上向き横顔の全6方向の動画を撮影し、同時に近接音声と遠隔音声を収録する"},{"@type":"PropertyValue","name":"言語","value":"中国語"},{"@type":"PropertyValue","name":"活用シーン","value":"唇の動きによる言語認識"},{"@type":"PropertyValue","name":"正確率","value":"文の正確性は95%"}]
{"id":996,"datatype":"1","titleimg":"https://jp.nexdata.ai/shujutang/static/image/index/datatang_yuyin_default.webp","type1":"165","type1str":null,"type2":"168","type2str":null,"dataname":"155時間リップシンク向けマルチモーダル動画データ","datazy":[{"title":"フォーマット","content":"動画:MP4形式、1280×720、音声:WAV形式、16kHz、16ビットモノラル"},{"title":"収録環境","content":"静かな日当たりの良い部屋を用いて昼間の屋外走行シーンを再現、信号対雑音比25~20dB"},{"title":"内容","content":"日光の強さによって、大きなシーンとサブシーンに分かれる"},{"title":"話者","content":"249 中国人、男女バランス取れる"},{"title":"角度","content":"正面、片側顔、上向き、下向き、下向き横顔、上向き横顔の全6方向の動画を撮影し、同時に近接音声と遠隔音声を収録する"},{"title":"言語","content":"中国語"},{"title":"活用シーン","content":"唇の動きによる言語認識"},{"title":"正確率","content":"文の正確性は95%"}],"datatag":"Lip Language,Multimodal,Mandarin,Reading,Mobile Phone,Video camera","technologydoc":null,"downurl":null,"datainfo":null,"standard":null,"dataylurl":null,"flag":null,"publishtime":null,"createby":null,"createtime":null,"ext1":null,"samplestoreloc":null,"hosturl":null,"datasize":null,"industryPlan":null,"keyInformation":null,"samplePresentation":[{"name":"/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/39-1_7.mp4","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/39-1_7.mp4?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=CXlfsrjdCwQkhc3n1EVtI%2Fpm8fE%3D","intro":"","size":0,"progress":100,"type":"mp4"},{"name":"/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/18-1_6.mp4","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/18-1_6.mp4?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=Q6wG5SACXEx%2FwO8OAJz9mcmQ%2BEI%3D","intro":"","size":0,"progress":100,"type":"mp4"},{"name":"/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/31-1_2.mp4","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/31-1_2.mp4?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=VLqukWwvgzvK1TYD8TaPyAvkwyo%3D","intro":"","size":0,"progress":100,"type":"mp4"}],"officialSummary":"249名の参加者による音声および対応する唇語動画をマルチデバイスで同期録画し、パルス信号を用いて正確にアライメント補正を実現した。高精度であり、音声画像分野のマルチモーダル学習アルゴリズム研究に活用できる。複数AI企業の検証により:モデルが実世界の多様性に対し優れた性能を発揮するのに寄与できる。データ保護法規およびプライバシー規定を厳格に順守し、データ収集、保存、利用の全過程においてユーザーのプライバシーと法的権益を保護する。全てのデータはGDPR、CCPA、PIPLに準拠する。","dataexampl":null,"datakeyword":["唇語"],"isDelete":null,"ids":null,"idsList":null,"datasetCode":null,"productStatus":null,"tagTypeEn":"Data Type,Language","tagTypeZh":null,"website":null,"samplePresentationList":null,"datazyList":null,"keyInformationList":null,"dataexamplList":null,"bgimg":null,"datazyScriptList":null,"datakeywordListString":null,"sourceShowPage":"speechRec","BGimg":"brightSpot_audio","voiceBg":["/shujutang/static/image/comm/audio_bg.webp","/shujutang/static/image/comm/audio_bg2.webp","/shujutang/static/image/comm/audio_bg3.webp","/shujutang/static/image/comm/audio_bg4.webp","/shujutang/static/image/comm/audio_bg5.webp"],"firstList":[{"name":"/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/5-1_4.mp4","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/5-1_4.mp4?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=2kWsbA%2FAu1%2Bb7WGo37pQLws%2F0tk%3D","intro":"","size":0,"progress":100,"type":"mp4"}]}
https://jp.nexdata.ai/shujutang/static/image/index/datatang_yuyin_default.webp
[{"@type":"VideoObject","embedUrl":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/39-1_7.mp4?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=CXlfsrjdCwQkhc3n1EVtI%2Fpm8fE%3D"},{"@type":"VideoObject","embedUrl":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/18-1_6.mp4?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=Q6wG5SACXEx%2FwO8OAJz9mcmQ%2BEI%3D"},{"@type":"VideoObject","embedUrl":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/31-1_2.mp4?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=VLqukWwvgzvK1TYD8TaPyAvkwyo%3D"},{"@type":"VideoObject","embedUrl":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/5-1_4.mp4?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=2kWsbA%2FAu1%2Bb7WGo37pQLws%2F0tk%3D"}]
155時間リップシンク向けマルチモーダル動画データ
唇語
249名の参加者による音声および対応する唇語動画をマルチデバイスで同期録画し、パルス信号を用いて正確にアライメント補正を実現した。高精度であり、音声画像分野のマルチモーダル学習アルゴリズム研究に活用できる。複数AI企業の検証により:モデルが実世界の多様性に対し優れた性能を発揮するのに寄与できる。データ保護法規およびプライバシー規定を厳格に順守し、データ収集、保存、利用の全過程においてユーザーのプライバシーと法的権益を保護する。全てのデータはGDPR、CCPA、PIPLに準拠する。
このデータセットは、商用利用や研究目的などに役立つ有償のデータセットです。著作権ありの既製データセットは、AIプロジェクトの飛躍的なスタートに役立ちます。
![仕様]()
データ仕様
フォーマット
動画:MP4形式、1280×720、音声:WAV形式、16kHz、16ビットモノラル
収録環境
静かな日当たりの良い部屋を用いて昼間の屋外走行シーンを再現、信号対雑音比25~20dB
内容
日光の強さによって、大きなシーンとサブシーンに分かれる
角度
正面、片側顔、上向き、下向き、下向き横顔、上向き横顔の全6方向の動画を撮影し、同時に近接音声と遠隔音声を収録する
![サンプル]()
サンプル
![おすすめデータセット]()
おすすめデータセット
よくあるご質問

日本語の音声認識データにはどのようなバリエーションがありますか?

子どもの日常会話、モノローグ、講義、バラエティなど幅広いジャンルを含むリアルな対話音声が収録されており、話者 ID、性別、年齢、アクセントなどもアノテーションされています。

データの多様性は実際のユースケースに役立ちますか?

はい、リアルな対話と幅広い話者属性を収録しており、日本のさまざまな環境での音声認識モデルに対応可能です。

納品までのスピードはどの程度ですか?

既製データセットは最短1日で納品可能で、カスタム収集・アノテーションも迅速対応可能です。
dbef5186-d50d-4c50-b706-131473dcf2ae