一、面向未来的交互信息技术——听觉视觉双模态语音识别(AVSR)(上)(论文文献综述)
张会云,黄鹤鸣,李伟[1](2021)在《面向情感变化检测的语音情感数据库》文中指出语音情感数据库是进行语音情感识别研究的基础。多样化、大规模、高质量的优质的语音情感数据库对语音情感识别系统性能的提升具有重要作用。研究首先全面地分析了目前国内外使用最广泛的语音情感数据库,并将其归纳为单模态语音情感数据库和多模态语音情感数据库;然后通过实验将不同数据库上所取得的最优性能进行对比,选出可推荐的优质语音情感数据库,为相关研究人员提供有价值的学术参考;最后对未来语音情感数据库的建立提出几点建议。
程美,王力华[2](2021)在《医疗智能语音技术与应用综述》文中研究说明随着人工智能技术的不断发展,智能语音技术正在逐步改变人们的生活,同时也越来越多地应用在医疗卫生领域。本文主要对医疗智能语音技术与应用相关的文献进行分析,总结目前国内外智能语音技术在医疗领域的发展和应用现状,分析医疗智能语音技术算法生态、专利申请趋势和主流识别框架,介绍医疗智能语音应用场景,并归纳总结医疗智能语音五大发展趋势,提出智能语音技术在医疗临床应用中不断优化的思路和方向。
任泽裕,王振超,柯尊旺,李哲,吾守尔·斯拉木[3](2021)在《多模态数据融合综述》文中研究说明随着当今信息技术的飞速发展,信息的存在形式多种多样,来源也十分广泛。不同的存在形式或信息来源均可被称之为一种模态,由两种或两种以上模态组成的数据称之为多模态数据。多模态数据融合负责将多个模态的信息进行有效的整合,汲取不同模态的优点,完成对信息的整合。自然现象具有十分丰富的特征,单一模态很难提供某个现象的完整信息。面对保持融合后具有各个模态信息的多样性以及完整性、使各个模态的优点最大化、减少融合过程造成的信息损失等方面的融合要求,如何对各个模态的信息进行融合成为了多个领域广泛存在的一个新挑战。简要阐述了常见的多模态融合方法、融合架构,总结了三个常见的融合模型,简要分析协同、联合、编解码器三大架构的优缺点以及多核学习、图像模型等具体融合方法。在多模态的应用方面,对多模态视频片段检索、综合多模态信息生成内容摘要、多模态情感分析、多模态人机对话系统进行了分析与总结。指出了当前多模态融合出现的问题,并提出未来的研究方向。
喻言[4](2021)在《适老化视角下的语音交互设计研究 ——以老年备忘录为例》文中研究指明
袁杰[5](2021)在《面向虚实融合实验的自然交互模型与算法研究》文中提出
孟欣[6](2021)在《面向虚实融合实验教学的智能手套关键技术与应用研究》文中进行了进一步梳理
龚雨佳[7](2021)在《基于KAP理论的老年语音助手交互设计研究》文中研究指明
赖雪梅[8](2021)在《基于深度学习的多模态情感分析》文中研究表明
高飞[9](2021)在《藏语拉萨话音视频语音识别研究》文中研究说明在安静环境中,语音识别模型能够达到95%以上的准确率,然而在现实环境中使用还是会有诸多问题,比如环境噪音的干扰,远场麦克风采集的音频信息信噪比过低等问题,以至于音频信号不能够满足进行语音识别的要求。这时就需要其他模态信号对音频信号进行补充。与音频信号相比,视觉信息不易受到背景噪音的影响,在说话过程中,人的脸部各个器官也会随之做出相应的变化,恰好可以对音频信息做出一定的补充。根据目前已有资料,多模态语音识别已经在英语、汉语等主流语言上展开,但是对于藏语多模态识别的研究却几乎没有。基于此现状,本文主要研究了藏语拉萨话的多模态语音识别及应用。论文的主要工作如下:1.构建藏语音视频数据集为了加快藏语拉萨话多模态语音识别的研究,本文构建并开源了一个藏语拉萨话的音视频数据集。该数据集相较于常见的音视频数据集,如TCD-TIMIT,具有录制环境更复杂,场景更多等特点,更加贴近实际使用场景。2.端到端藏语多模态语音识别基线模型本论文使用WaveNet-CTC模型作为基线模型。基于端到端语音识别技术的特点和藏语语言文字特点,我们选取藏语单音节作为本文中所有模型的识别基元。在基线模型中,我们分别将音频信息、视觉信息、音频信息与视觉信息的拼接信息送入到WaveNet-CTC模型中。实验结果显示,在自建的藏语数据集中,音频信息与视觉信息的简单融合没有改善识别效果,我们分析可能的原因是该藏语音视频数据集中,说话人的头部姿态和面部表情差异较大,影响了视频唇部运动特征的提取,音视频的拼接特征具有一定的局限性。3.基于cross-attention机制的端到端藏语多模态语音识别为了解决音视频拼接特征的局限性,更好地利用视频模态的信息进行语音识别,本文提出了跨模态注意力机制(cross-attention),并将其用于WaveNet-CTC的端到端藏语多模态语音识别基线模型中。实验结果显示,相较于基线模型,在音频特征和视觉特征初级融合阶段引入cross-attention机制,对于语音识别的效果有很好的提升。4.基于隐回归贝叶斯网络的端到端藏语多模态语音识别为了解决音视频拼接特征的局限性,本文不仅在多模态特征的融合方式上进行了探索,而且在特征数据的表示方面进行了尝试。文中在端到端模型的输入层引入隐回归贝叶斯网络,试图从音频流的语谱图和视频流的原始图像中提取编码特征,替代输入端原来使用的人工音频特征MFCCs和唇部运动特征。根据实验结果,相较于人工选取的特征,由隐回归贝叶斯网络网络提取得到的隐特征并未有较好的语音识别表现。5.藏语音视频语音识别系统的微信小程序实现本文使用tensorflow深度学习框架和tomcat工具实现了藏语音视频语音识别功能的微信小程序。该微信小程序可以获取视频数据,返回视频数据的识别结果并在微信小程序中显示。本文通过对端到端藏语音视频语音识别进行研究,不仅补充了了藏语多模态语音识别方面的工作,同时在多模态识别模型的构建上,提出了 cross-attention 机制,有效融合了多模态特征,一定程度上解决了拼接特征的局限性,提高了语音识别准确率。此外本文还探索了在端到端模型输入端使用隐回归贝叶斯网络,使用提取的隐特征表示音视频原始数据,替代人工提取的MFCCs特征和唇部运动特征,尝试使用隐特征规避拼接特征的局限性。
杨棽尧[10](2021)在《基于深度学习的唇语识别技术及其应用研究》文中研究指明随着深度学习及人工智能的发展,唇语识别技术在计算机视觉及人机交互领域有着深厚的发展前景与应用需求。尤其是在利用自动唇部识别技术来改善听力障碍者和发音障碍者的社交互动方面,更是人工智能在医疗保健和康复中最有前途的应用之一。所谓唇语识别技术就是通过嘴唇视觉图像的动态变化来识别主要人物表达的内容。当前阶段,唇语识别技术主要停留在对算法以及计算机性能的研究上,很少将其真正的运用到实际生活场景中。因此,本研究聚焦研究基于深度学习的唇语识别应用系统,即针对听障人士的语言矫正系统,更加具有实际意义,旨在为未来自动唇读识别技术更加落地化奠定基础。本文主要运用ResNet-50残差网络结构对手势语言进行识别,运用MobileNet轻量级网络与LSTM网络相结合的方式对发音者的唇读时序序列进行识别,并构建唇形相似度匹配系统,以手语识别作为媒介来辅助听障人士学习正确的嘴唇发音序列图像,矫正口型。具体研究内容如下:对视频处理算法的研究:本文提出并设计了一种半随机抽取视频帧策略来提取人脸序列图像。使用Dlib库中的人脸68关键点检测法定位嘴唇区域。然后根据嘴唇各个方向边界的关键点精确定位与分割出感兴趣的嘴唇区域,从而减少后续计算中的冗余信息。基于ResNet-50网络结构的手势图像特征提取的研究:由于手部区域图像较大,细节特征较少,因而本文采用ResNet-50网络结构来提取手语特征,该网络结构良好的应用了计算残差这一方式,减少了常规特征提取方法中所需参数的数量,缩短了应用系统的运行时间。基于MobileNet与LSTM融合的嘴唇视频序列图像特征提取的研究:依赖于CNN在图像特征提取方面的强大能力,以及RNN在处理时序特征时的实用性,本文选取MobileNet网络与LSTM相结合的方式,不仅能有效的提取出嘴唇发音视频图像的序列特征,还能再保证识别准确度的同时,极大程度的降低所需要的参数数目。具有界面功能的唇读识别及矫正应用系统研究:根据听力残障人士的实际应用需求,设计出唇读序列比对系统,结合手语识别结果,给出使用者正确的唇读序列及自身唇读序列之间的差异化数值,并搭建一个可操作的系统界面,以供其进行使用、学习和矫正。
二、面向未来的交互信息技术——听觉视觉双模态语音识别(AVSR)(上)(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、面向未来的交互信息技术——听觉视觉双模态语音识别(AVSR)(上)(论文提纲范文)
(1)面向情感变化检测的语音情感数据库(论文提纲范文)
1 引言 |
2 相关工作 |
3 语音情感数据库 |
3.1 单模态语音情感数据库 |
1)Belfast英语情感数据库 |
2)EMO-DB德语情感数据库 |
3)AIBO自然语音情感数据库 |
4)CASIA中文语音情感数据库 |
5)丹麦DES情感语料库 |
6)老人语音情感库EESDB |
7)北京航空航天大学情感语料库 |
8)Semaine数据库 |
9)TYUT2.0中文情感语音数据库 |
10)SUSAS英语情感数据库 |
3.2 多模态语音情感数据库 |
1)IEMOCAP英语情感数据库 |
2)RECOLA数据库 |
3)eNTERFACE’05英语情感数据库 |
4)RML数据库 |
5)AFEW6.0数据库 |
6)GEMEP数据库 |
7)ABC德语情感数据库 |
8)ACCorpus系列中文情感数据库 |
9)AVEC 2012数据库 |
10)VAM德语情感数据库 |
11)AVIC英语情感数据库 |
12)MOUD西班牙语情感数据库 |
13)MOSI英语数据库 |
14)SAVEE语音情感数据库 |
15)CHEVAD中文自然情感数据库 |
16)DEAP数据库 |
4 实验 |
5 结论与展望 |
(2)医疗智能语音技术与应用综述(论文提纲范文)
1 现状 |
2 医疗智能语音技术分析 |
2.1 医疗智能语音算法生态成熟 |
2.2 医疗智能语音技术专利趋势分析 |
2.3 基于端到端的深度学习算法 |
3 医疗智能语音应用场景 |
4 医疗智能语音发展趋势 |
4.1 从基本可用到好用易用 |
4.2 语音交互向辅助诊断延展 |
4.3 智能交互算法的可解释性 |
4.4 多模态融合的人机交互 |
4.5 统一应用接口和硬件适配 |
5 结语 |
(3)多模态数据融合综述(论文提纲范文)
1 多模态融合分类法 |
1.1 模型无关的融合方法 |
1.1.1 早期融合 |
1.1.2 后期融合 |
1.1.3 混合融合 |
1.2 基于模型的融合方法 |
1.2.1 多核学习方法 |
1.2.2 图像模型方法 |
1.2.3 神经网络方法 |
2 背景知识 |
2.1 单一模态表示 |
2.1.1 图片特征提取 |
2.1.2 文本特征提取 |
2.1.3 语音特征提取 |
2.2 多模态信息表示 |
2.2.1 简单融合操作的方法 |
2.2.2 基于注意力机制的方法 |
2.2.3 基于双线性池化的融合方法 |
3 多模态深度学习模型 |
3.1 深层结构化语义模型 |
3.1.1 输入层 |
3.1.2 表示层 |
3.1.3 匹配层 |
3.2 记忆融合网络 |
3.2.1 长短期记忆系统LSTMs |
3.2.2 增量记忆注意力网络DMAN |
3.2.3 多模态门控存储器 |
3.2.4 MFN的输出 |
3.3 多模态循环融合模型 |
4 多模态融合架构 |
4.1 协同架构 |
4.2 联合架构 |
4.3 编解码器架构 |
5 多模态融合的应用 |
5.1 多模态视频片段检索 |
5.2 综合多模态信息生成内容摘要 |
5.3 多模态情感分析 |
5.4 多模态人机对话系统 |
6 多模态融合有助于深度学习可解释 |
7 总结与展望 |
(9)藏语拉萨话音视频语音识别研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 多模态语音识别 |
1.2.1 多模态语音识别的发展历程 |
1.2.2 多模态语音识别现状 |
1.2.3 多模态语音识别存在的问题 |
1.3 藏语语言特点及建模基元选择 |
1.4 藏语多模态语音识别研究现状 |
1.5 本文主要内容和结构 |
第二章 多模态学习方法 |
2.1 引言 |
2.2 多模态学习 |
2.2.1 多模态学习的定义 |
2.2.2 多模态学习的挑战 |
2.3 端到端技术 |
2.3.1 注意力机制 |
2.3.2 CTC算法 |
2.4 本章小结 |
第三章 藏语音视频数据集的构建 |
3.1 数据采集 |
3.2 数据预处理 |
第四章 端到端藏语多模态语音识别基线模型 |
4.1 引言 |
4.2 WaveNet模型 |
4.3 实验及结果分析 |
4.3.1 特征提取 |
4.3.2 实验配置 |
4.3.3 结果及分析 |
4.4 本章小结 |
第五章 基于cross-attention机制的端到端藏语多模态语音识别 |
5.1 引言 |
5.2 Cross-attention机制 |
5.3 基于cross-attention机制的端到端藏语音视频语音识别模型 |
5.4 实验及结果分析 |
5.5 本章小节 |
第六章 基于隐回归贝叶斯网络的端到端藏语多模态语音识别 |
6.1 引言 |
6.2 隐回归贝叶斯网路 |
6.2.1 LRBN模型的推导 |
6.2.2 LRBN模型的学习 |
6.3 基于LRBN特征表示的端到端藏语多模态语音识别 |
6.4 实验及结果分析 |
6.4.1 数据处理与实验设置 |
6.4.2 实验结果及分析 |
6.5 本章小结 |
第七章 藏语音视频语音识别系统的微信小程序实现 |
7.1 引言 |
7.2 Tensorflow框架及Tomcat工具 |
7.2.1 Tensorflow框架 |
7.2.2 Tomcat工具 |
7.3 微信小程序 |
7.4 藏语音视频语音识别系统的微信小程序实现 |
第八章 总结与展望 |
8.1 本文总结 |
8.2 后续相关工作 |
参考文献 |
致谢 |
攻读学位期间发表的学术论文目录 |
(10)基于深度学习的唇语识别技术及其应用研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究的背景及意义 |
1.2 国内外研究现状 |
1.2.1 传统的唇语识别方法 |
1.2.2 基于深度学习的唇语识别研究现状 |
1.3 本文研究内容与结构 |
第二章 深度学习及唇语识别技术基础 |
2.1 人工神经网络 |
2.2 残差神经网络 |
2.2.1 ResNet残差网络 |
2.2.2 深度残差学习 |
2.3 卷积神经网络 |
2.4 循环神经网络 |
2.5 特征分类算法 |
2.6 本章小结 |
第三章 基于深度学习的唇语识别系统设计 |
3.1 唇语识别系统架构 |
3.2 识别流程 |
3.3 自制数据集的建立 |
3.4 视频抽帧算法与唇部定位 |
3.4.1 抽取视频帧算法策略 |
3.4.2 唇部区域定位 |
3.5 手势及唇读特征提取 |
3.5.1 唇部特征提取 |
3.5.2 唇读视频动态特征提取 |
3.5.3 手势特征提取 |
3.6 分类识别与唇形比对 |
3.6.1 手势图像及唇读视频的识别 |
3.6.2 唇形比对 |
3.7 本章小结 |
第四章 实验平台的搭建与实验结果分析 |
4.1 实验平台的选择及环境搭建 |
4.1.1 实验平台的选择 |
4.1.2 实验环境的搭建 |
4.2 实验评价指标 |
4.3 实验结果与分析 |
4.3.1 手语及唇语模型训练测试结果 |
4.3.2 手语及唇语识别结果 |
4.3.3 唇语识别分数比对结果 |
4.4 本章小结 |
第五章 唇语识别应用系统的实现与使用 |
5.1 系统需求分析和可行性分析 |
5.1.1 系统的需求分析 |
5.1.2 系统的可行性分析 |
5.2 系统开发的环境 |
5.3 系统功能介绍 |
5.3.1 系统界面展示 |
5.3.2 系统预测结果显示 |
5.4 本章小结 |
第六章 结论与展望 |
6.1 主要结论 |
6.2 研究展望 |
参考文献 |
在学期间的研究成果 |
致谢 |
四、面向未来的交互信息技术——听觉视觉双模态语音识别(AVSR)(上)(论文参考文献)
- [1]面向情感变化检测的语音情感数据库[J]. 张会云,黄鹤鸣,李伟. 计算机仿真, 2021(09)
- [2]医疗智能语音技术与应用综述[J]. 程美,王力华. 中国数字医学, 2021(08)
- [3]多模态数据融合综述[J]. 任泽裕,王振超,柯尊旺,李哲,吾守尔·斯拉木. 计算机工程与应用, 2021(18)
- [4]适老化视角下的语音交互设计研究 ——以老年备忘录为例[D]. 喻言. 北京邮电大学, 2021
- [5]面向虚实融合实验的自然交互模型与算法研究[D]. 袁杰. 济南大学, 2021
- [6]面向虚实融合实验教学的智能手套关键技术与应用研究[D]. 孟欣. 济南大学, 2021
- [7]基于KAP理论的老年语音助手交互设计研究[D]. 龚雨佳. 中国矿业大学, 2021
- [8]基于深度学习的多模态情感分析[D]. 赖雪梅. 重庆邮电大学, 2021
- [9]藏语拉萨话音视频语音识别研究[D]. 高飞. 中央民族大学, 2021(12)
- [10]基于深度学习的唇语识别技术及其应用研究[D]. 杨棽尧. 北方工业大学, 2021(01)