一、嵌入式操作系统下的语音合成技术及应用(论文文献综述)
孔祥基[1](2021)在《基于嵌入式Linux的机器人控制和交互》文中研究指明机器人的应用已经迅速扩展到娱乐、家庭、工业、医疗等多个领域。随着集成电路、5G通信、嵌入式等相关技术的进步,人们对于机器人的需求已经不再局限于简单的控制,拥有良好的人机交互能力是机器人发展的核心方向。基于高可靠性、低成本的机器人控制系统,并融合视觉、听觉等感知技术,来提高机器人的智能交互能力已成为近年来的研究热点。在小型人形机器人领域,低成本的控制器和开源、移植性高、可裁剪性高的操作系统组成的控制系统决定了产品的市场占有率,以及机器人二次迭代更新的速度。因此,本文基于ARM架构的硬件平台,结合嵌入式Linux操作系统以建立高性价比的交互控制系统为主要目标。通过结合其他硬件模块,及开源软件资源,实现机器人的语音交互控制,视觉信息在局域网内的采集压缩传输。论文的主要内容有:1.以ARM架构的S3C2440为硬件核心,移植嵌入式Linux系统及其他开源软件资源,搭建起了一个人形机器人控制系统。2.以搭建的软硬件系统为基础,在嵌入式Linux系统内实现对机器人运动的控制。结合语音识别模块、语音合成模块,实现机器人语音交互控制,完成了语音识别芯片在Linux系统下的驱动开发,及在Linux系统下机器人舵机、语音合成芯片等硬件设备的使用。在此过程中介绍了UART、SPI等通信协议以及Linux系统下字符设备驱动开发、SPI总线设备驱动的开发。3.基于Linux中的v4l2视频应用框架、USB摄像头驱动框架、H264编码、RTP协议等相关技术,并借助无线网卡和USB摄像头,模拟实现机器人视觉信息采集压缩,并通过网络发送至上位机。
王智浩[2](2021)在《嵌入式藏语语音合成系统的研究》文中研究说明与汉语、英语等主流语言的语音合成技术相比,藏语语音合成技术合成的语音在自然度和相似度上还存在较大的差距,因此,借鉴主流语言的语音合成技术来研究藏语语音合成具有重要的意义。同时,由于嵌入式设备性能的不断提升,将藏语语音合成技术与嵌入式设备相结合,可以实现便携式的藏语语音合成系统。本文以嵌入式藏语语音合成为研究对象,设计并建立了一个藏语语音合成语料库,分析并改进了语音合成系统中的声码器,在此基础上,搭建了基于深度学习的藏语语音合成系统,并将其移植于嵌入式设备上,实现了嵌入式藏语语音合成系统。本文的主要工作和创新如下:1.设计并建立了藏语语音合成语料库。首先搜集了不同题材的藏语语句,然后剔除其中不常见以及特殊句子,最后按照音节频率进行句子的增加和删除并进行了语音的录制。在保证基本音韵均衡的情况下,建立了10000句高质量的藏语语音合成语料库。2.分析并改进了用于语音合成的声码器。在分析声码器原理的基础上,将其提取的原始语音谱包络特征改为低维谱包络特征,实现了一个藏语语音编解码系统。实验结果表明,改进的声码器生成的藏语语音具有更好的音质。3.搭建了基于深度学习的藏语语音合成系统。在训练阶段,通过前端文本分析获得上下文相关的标注信息,并使用改进的声码器提取声学参数特征,以完成基于深度神经网络的声学模型训练。采用的神经网络模型有深度神经网络(Deep Neural Networks,DNN)、混合长短时记忆网络(hybrid Long Short Term Memory networks,混合LSTMs)、混合双向长短时记忆网络(hybrid Bidirectional Long Short Term Memory networks,混合BLSTMs)。在合成阶段,待合成的藏语文本经过文本分析得到上下文相关的标注信息,声学模型根据上下文相关的标注信息产生相应的声学参数特征,最终声码器依据声学模型输出的声学参数特征恢复语音波形。实验结果表明,采用改进的语音合成系统在三种神经网络模型下的合成语音自然度和相似度均有所提高,采用混合BLSTMs模型的合成语音质量最好。4.实现了嵌入式藏语语音合成系统。建立了两种嵌入式藏语语音合成系统实现框架。嵌入式端与服务器端的交互采用客户端/服务器(Client/Server,C/S)模式。实验结果表明,不同使用场景下系统的最佳实现方式不同。
娄皓翔[3](2020)在《基于ARM技术的盲人避障系统的设计》文中指出据中国残疾人联合会数据,2018年我国视力残疾患者人数达到1700多万,每年新增盲人数量达到45万,中国是全世界盲人最多的国家之一。盲人作为弱势群体,他们在生活中所遇到的困难往往是正常人所无法想象的。数据显示约30%盲人基本不外出,另外46%需家人朋友陪同,盲人出行的问题亟需人们的关注。城市的盲道建设和管理的不规范导致盲道无法有效的利用,当前盲人在交通环境下主要还是依靠传统的导盲方式:导盲杖能帮助盲人探测周围路面情况,但范围有限,并且无法发现悬空危险物体;而导盲犬训练周期长,价格昂贵,无疑增加盲人的生活压力。因此,传统的导盲方式并不能有效解决盲人出行困难问题和保障他们的安全。本文针对智能导盲系统展开研究,目的是让盲人外出行走在人行道时能像正常人一样了解道路信息,保障其便捷、安全地出行。本文通过对国内外导盲技术的研究,分析道路环境特点并结合盲人需求设计了一种基于ARM技术的盲人避障系统,采用嵌入式-云服务器的架构,保障系统的实时性和可靠性。系统的设计主要包括前端底层硬件设计、嵌入式平台的搭建以及交通信号灯和交通标志牌的检测识别。前端以I.MX6U-ALPHA开发板为硬件平台,其微处理器是以I.MX6ULL为核心的Cortex-A7,嵌入式平台选用开源Linux操作系统,交通信号灯和交通标志牌分别采用传统图像检测技术和基于深度学习的方法进行识别。本文的主要工作内容如下:首先提出本系统的总体设计方案,详细介绍了如何搭建Linux系统开发平台;在PC机上安装交叉编译工具链,在此开发环境下进行了U-Boot移植、Linux内核移植、根文件系统移植和设备驱动程序的操作,为盲人避障系统的设计提供一个稳定可靠的嵌入式平台环境。对系统硬件模块数据采集进行电路设计,其外围设备模块包括:图像采集模块、超声波测距模块以及语音播报模块,嵌入式前端与云服务器通过WIFI相连,将采集的数据通过TCP/IP协议下的Socket套接字进行信息交互。其次详细地对图形检测识别算法进行研究,由于交通信号灯缺乏数据集且颜色形状特征明显,因此采用RGB转HSV色彩空间进行颜色分割提取候选区,通过形态学处理去噪,依据信号灯形状特点利用Hough变换作形状检测,将检测到的区域利用信号灯板信息排除非信号灯区域,最后利用颜色直方图的统计信息完成信号灯的识别。交通标志牌检测识别采用深度卷积神经网络多任务学习模型,在Linux系统及Tensorflow1.4架构下结合Zhu等人工作的基础上对网络结构进行改进,在图像输入层后采用MSRCR图像增强算法对图像增强处理。采用多尺度的策略对训练阶段和测试阶段图像截取固定大小图像块送入网络检测,同时将多任务学习模型由原来的8层减少到7层,最后通过实测验证了本文系统的可行性和实时性。本文设计的系统能对盲人自身1~3米范围内的障碍物有效识别,根据测试结果显示本系统对于标志牌识别在光照不理想、有遮挡等特殊条件下依旧有很好的检测效果。在准确率达到91%的同时,提高了系统的实时性,符合盲人外出对智能设备的要求。同时本文系统对于无人驾驶技术有一定的借鉴意义。
伍震业[4](2020)在《基于嵌入式GPU的家庭服务机器人软件设计》文中研究表明随着经济和社会的快速发展,人们的平均寿命迅速提高,但人口出生率却不断下降,人口结构老龄化现象严重。现今中国还没有完全实现现代化建设,大力发展机器人产业是解决人口老龄化下劳动力不足问题的一种有效解决方案。目前市场上在用的机器人大部分为工业机器人,随着机器人研究工作的深入以及人们对机器人功能需求的不断提高,国内外公司与研究机构纷纷对服务机器人展开研发。本论文针对机器人在家庭场景下的应用需求,设计了一款基于嵌入式GPU的家庭服务机器人软件,该软件具有定位导航、目标识别与测量以及人机交互等功能,具有良好的实际应用价值。论文的主要工作和成果如下:(1)分析家庭服务机器人软件的功能与性能需求,选用Turtlebot移动平台与Nvidia TX2嵌入式GPU开发板作为硬件开发平台;考虑到机器人软件中多传感器数据采集和运动控制等模块的实现,选用机器人操作系统ROS作为软件开发平台;搭建软硬件开发环境,并给出了基于ROS的软件总体设计。(2)定位导航模块研发。通过对比当前主流SLAM建图算法的优缺点,选择适用于家庭环境的GMapping算法作为建图算法,并采用AMCL算法进行机器人的定位。为了实现机器人导航,采用A*算法进行全局路径规划,以及利用DWA算法对Turtlebot的二轮差速机器人模型进行局部路径规划。此外,本论文还使用深度强化学习来训练一个神经网络,输入传感器数据,输出机器人的控制速度,实现了局部路径规划控制。(3)目标识别与测量模块研发。首先搜集公开数据集以及爬取网络上图片,制作了家庭服务场景下常用物品的数据集;接着训练比对不同神经网络结构的推理速度与准确率,选择鲁棒性较好且运行速度快的YOLOv3 Tiny神经网络模型来进行目标检测分类;然后在现有神经网络的目标辨识方法的基础上,设计了人脸和人形目标的辨识方法;最后给出了基于深度相机的目标测量方法。(4)人机交互模块研发。首先将科大讯飞MSC库移植到TX2开发板上,实现了语音识别与合成的功能;接着采用已设计的人形目标辨识方法,解决KCF跟踪算法在目标尺度发生变化以及目标被遮挡时所存在的跟踪漂移问题,实现了目标跟踪功能;最后基于已设计的人脸辨识方法,实现了家庭服务场景中的多人辨识功能。
刘少伟[5](2019)在《基于双系统的车联网车载终端设计与实现》文中研究指明近年来,随着我国城市化进程步伐加快,城市交通拥堵、交通事故频发、停车难等问题日益突出,严重影响了人们的出行和社会经济发展,伴随物联网技术迅猛发展,车联网成为解决城市交通问题的有效途径。其中车联网车载终端是车联网系统建立的基础,是实现车与车、车与路之间通信的桥梁,车载终端需具备多种信息交互、快速数据处理及功能扩展等功能。本课题通过对国内外现存车联网车载终端文献进行研究,在2018年辽宁省自然科学基金项目“智能网联汽车的车载通信终端关键技术研究”的支持下,提出了基于双系统的车联网车载终端的研究。双系统为嵌入式Linux系统和Android系统,由嵌入式Linux系统为用户提供安全应用、调度应用;由Android系统为用户提供娱乐应用,双系统运行的物理环境是两块同型号实验板,并分别配备触摸屏。车载终端主要实现踏板数据有效性判定、定位数据热备、行车数据上传至云端、下载云端的交通协调信息、导航、影音播放等功能,由双系统处理器实验板、4G模块、双模定位模块、蓝牙/WiFi模块、GPS定位模块等部分构成。在车载终端设计时,首先依据ISO26262标准中的安全管理生命周期对车载终端进行分析,确定车载终端硬件架构与风险处理策略。然后对车载终端的各功能模块相关接口进行设计。之后对车载终端进行符合实际情况的系统定制,增添/删减嵌入式Linux系统Kernel驱动文件,使嵌入式Linux系统能够支持相关功能模块;Android系统在内核定制的前提下修改File System源码,使Android系统更符合车载环境。最后对车载终端的应用程序进行设计,在嵌入式Linux系统内通过建立进程方式实现风险处理程序和车载终端与云端的数据交互程序同时运行,并将关键信息显示在QT/E界面内;在Android系统中设计监听程序,通过对Android UI界面按键、CAN通信、串口的监听实现语音控制、定位数据热备和第三方应用的跳转,由第三方应用提供导航和娱乐服务。最后对不同系统的实验板分别进行实物测试,通过模拟车联网通信数据,验证车载终端通信能力及目标功能,实验结果表明方案可行,电路设计合理,达到预期目标,该成果对促进我国车联网发展具有实际意义。
林少宏[6](2019)在《车辆智能语音安全监控系统设计与应用》文中研究表明近年来随着我国国民经济的不断进步发展,私家车已经成为了我们日常生活中不可或缺的重要出行交通工具。而炎炎夏日汽车停放后,车内温度将骤然升高,查阅相关文献可以发现在停车后车窗紧闭的情况下车内温度会迅速提升6-7℃。而在相同的环境下,儿童的体温升高速度比成人快3-5倍。近年来由于驾驶员的粗心大意引起私家车、校车内误留小孩在内,导致车内儿童高温烧伤甚至是死亡等事故层出不穷。因此,如何防止儿童误留车内,避免车内高温造成人员伤亡成为了急需解决的社会公共问题。本项目目的在于设计一种预警系统,能够在人员(特别是婴幼儿)被误锁在车内时及时报警通知驾驶员,系统采取智能语音技术检测被误锁人员发出的求救声(包括婴儿的哭闹声音),基于特征匹配算法来判定车内是否误留人员,如检测出有人误锁于车内时系统将向车主发送报警信息,报警方式设置为三个等级,根据不同的营救时间点采用不同的报警方式。本文采用专用语音识别芯片WM9714进行声音识别方案设计,该芯片具有录音模式和识别模式,识别模式之前先将目标词汇录入芯片内。在本项目中,可以将驾驶者家人的呼喊声先录入本系统中,如:“救命”、“爸爸”、“妈妈”、“呜呜”哭闹声等声音。待目标词汇录入芯片内后可将工作模式转入到声音识别模式,工作时系统将当前语音与事先已录入存储体的目标词汇进行比较,如有语音特征相匹配,则在芯片的相应输出端输出高电平或者是低电平。之后系统采用单片机技术、无线传感网络技术等,实现对声音识别模块发出来的语音匹配信号进行处理。车内人员发出求救信号后,声音识别模块将向手机发送报警短信,超过一定时间驾驶员未处理,系统将向手机拨打报警电话,拨打报警电话仍未处理车辆本身将发出报警声音,吸引周围人员的注意,从而降低车内人员人身安全事故的发生。通过该系统可单独加装于私家车内或者用于汽车制造厂商出厂配置,对于私家车安全监控的市场补充具有重要的现实意义。
杨明翰[7](2019)在《深度学习语音识别系统在嵌入式端的研究》文中研究表明随着深度学习技术的研究进展,语音识别同样已经完成了从传统模型到深度学习的过渡,本文主要目的是解决移动端离线状态下的语音识别并提高语音识别的精度。本文采用深度学习的方式,利用首先在电脑上训练好的模型移植到树莓派3b+上进行语音识别操作。项目整体结构可以分为声学模型及语言模型两个部分,声学模型由优化后的DFCNN(Deep Fully Convolutional Neural Network)构建训练而成,将声音信号转换成语谱图后通过优化后的DFCNN模型进行训练,训练完成后可以将输入的语音信号转换成拼音。语言模型采用谷歌针对英德互译所构造的模型框架Transformer编码器部分进行模型搭建及训练,将拼音转为汉字。针对上述模型本文还做了相关工作:1、利用深度学习框架Tensorflow构建DFCNN模型和Transformer编码器部分两个模型后完成训练,其中针对DFCNN模型进行优化。同时利用Tensorflow的量化系统将模型量化后,移植于嵌入式平台即搭载linux系统的树莓派3b+上,实现嵌入式端的语音识别。2、为了使样本足够丰富,选择清华大学开源的THCHS30的音频库进行训练。对于声学模型,摒弃了传统的MFCC和LPCC等特征值提取方式,采用类似图像识别的方式通过卷积神经网络提取特征值。利用python将语音信号预处理后转为语谱图作为DFCNN模型的输入数据。同时对比训练好的Bi-LSTM模型,在电脑和树莓派3b+上的识别速度和性能进行了测试及分析。3、语言模型部分利用Transformer编码器部分进行建模后,将处理后的拼音文件和汉字文件输入模型并训练。拼音文件和汉字文件皆通过生成的词典提取相应的ID列表并填充后输入模型。在测试阶段对比了传统的n-gram模型的性能和速度,分析了Transformer编码器模型的优劣。4、树莓派3b+通过安装ReSpeaker 2-Mics Pi Hat相关软硬件,可以针对说话人进行语音信号的采集,此硬件可以滤去一定的噪音,并通过预处理进一步提高音频信号的信噪比,提高识别率。利用训练集和收集到的实验室同学的音频信号,同语音识别中其他主流模型进行对比测试后,得到的结论是声学模型DFCNN和语言模型Transformer的编码器部分都适合移植于嵌入式端,且识别效果和速度都达到了期待的程度,实际运用中的识别率和识别速度也令人满意。
张帅[8](2017)在《统计参数语音合成的硬件实现》文中进行了进一步梳理语音合成技术应用于嵌入式设备更方便于人在日常生活中的做事效率,如基于语音处理的智能家电等。由于嵌入式设备内存空间和处理器速度的限制,较复杂的语音合成算法应用到嵌入式设备上达不到实时处理的语音合成效果。而且大部分设备只能合成单一的语音信息。针对以上的不足,本文将基于隐Markov模型(Hidden Markov Model,HMM)的统计参数语音合成技术应用到嵌入式设备中。因基于HMM的统计参数语音合成方法是一种参数化语音合成方法,后端合成语音对语料库的依赖性不大,前端利用训练语料库训练获得相应的HMM模型库即可合成语音,且模型库很小,适合应用于嵌入式设备中。本文选用的硬件设备为飞凌OK6410开发板,其是基于ARM11的S3C6410处理器,最终在硬件上实现语音的合成。本文的主要工作和创新为:1.完成了统计参数语音合成的声学模型训练。在PC服务器上搭建了基于HMM的统计参数语音合成系统框架,利用准备好的训练语料库,训练获得语音合成基元对应的上下文相关的HMM声学模型,包括谱参数模型、基频模型、时长模型和聚类后的决策树等。以上模型下载到开发板的FLASH中,供后端语音合成使用。2.对语音合成后端的各部分算法和声学模型进行了硬件移植。首先在硬件开发板上建立Linux操作系统,然后移植了文本分析模块、参数生成模块、Mel对数谱估计(Mel Log Spectrum Approximation,MLSA)合成滤波器模块。其中文本分析模块是对输入的文本进行处理,得到待合成文本的标注文件。此模块单独封装成库文件,供后续的参数生成模块调用。在参数生成模块,首先根据提供的标注文件,利用决策树得到每个合成基元对应的上下文相关声学模型,然后将上下文相关声学模型组合成语句的声学模型,最后利用参数生成算法得到对应的激励参数对数基频和谱参数广义Mel倒谱参数(Mel Generalized Coefficients,MGC),最后将激励参数和谱参数送入到MLSA合成滤波器中合成出语音。3.对系统进行了测评。主观评测和客观评测表明,本文开发的嵌入式设备上的语音合成系统能够实时合成较高音质的合成语音。
段雨宁[9](2017)在《MELP算法的研究及其嵌入式平台的实现》文中研究指明语音是一种最基本的人类交流方式,为了满足现代语音通信领域中节省带宽和降低编码速率的需求,低速率的语音编码技术成为了一个热门的研究课题,其在卫星通信、军事应用和安全通信等方面都有着比较广泛的应用和发展前景。低速率语音编码技术虽然有着较高的复杂度和较大的运算量,但是其具有非常重要的实际价值。MELP算法属于现有的低速率语音编码算法中比较优秀的算法,其通过采用多带混合激励、脉冲整形滤波、自适应谱增强、非周期脉冲和残差谐波谱处理这五大技术,改进了 LPC-10声码器的不足,从而提高了合成语音的质量。本论文首先深入地探讨了标准MELP算法的基础知识和编解码原理,并进行了相应的公式推导。然后在该算法的基础上,采用四帧联合量化和帧内参数插值的技术来设计并实现了 0.6Kb/s MELP算法,并通过合成语音波形图、合成语音质量和算法的复杂度来对该算法进行评估。最终,在Linux操作系统下用C语言实现了一个基于MELP算法的实时语音通信系统,并将该系统成功移植到香橙派平板(ARM开发板)上。
秦瑞强[10](2015)在《嵌入式盲人阅读器系统设计与开发》文中提出人们日常生活中接触到的多数信息都以图像的形式进行传递,盲人以及视力障碍人士由于视力缺陷在没有正常人帮助下根本无法获取这些信息,这很大程度上限制了盲人认知世界的机会。盲人阅读器是一款融合了光学字符识别(OCR)和语音合成(TTS)技术、实现图像文字到语音转换的设备,能帮助盲人自由获取纸质以及电子版文字信息。本文所实现的盲人阅读器系统使用QT进行界面编写,可分为以下模块:(1) 视频图像采集与预处理模块。该模块主要完成摄像头视频待识别文档的采集以及包括灰度化、二值化、去噪、版面分析、倾斜校正、字符切分等的图像预处理。本文通过比较分析,选取了合适的算法,取得了良好的实验效果。该模块是整个盲人阅读器系统的基础,其性能稳定与否直接关系到系统识别率的高低。(2) 文本识别模块。该模块由字符预处理、特征提取和文本识别组成,是整个系统的核心。本文介绍了细化和归一化字符预处理算法,并详细介绍了汉字识别中常用的几种汉字特征提取过程。考虑到汉字数量巨大,属于超大类别模式识别,本文利用汉字各种特征的互补性,采取了多级粗分类和细分类相结合的多特征多分类器汉字识别方法,粗分类缩小了待匹配字符范围,有效减少了计算量,细分类利用多种特征进行联合判别,汉字识别准确率得到很大提升。(3) 语音播报模块。针对软件使用环境的不同,本文实现了基于Microsoft SpeechSDK、科大讯飞MSP、自制语音库三种语音播报方法,都取得了较好效果,其中自制语音库语音播报适用于各种平台,但语音不够流畅,且占据较大存储空间。此外,为增加软件的交互性,Windows下软件中添加了语音识别模块,方便盲人通过语音的方式使用软件。结果表明,软件系统智能友好地完成了盲人阅读基本功能,对印刷体中文文档识别准确率达到99.67%,达到了软件设计要求。本文中实现了盲人阅读器系统的嵌入式开发,选用合众达DVS6446为硬件平台,QT/Embedded为嵌入式图形界面开发工具(主要为方便调试引入)。本文完成了嵌入式Linux开发环境的搭建过程,包括搭建交叉编译环境、内核的配置与移植、QT/Embedded移植等。通过交叉编译嵌入式盲人阅读器应用程序,得到可执行文件,利用挂载网络文件系统NFS方式实现了程序在目标平台的运行,经过反复调试,该系统能够完成盲人阅读功能日运行良好。
二、嵌入式操作系统下的语音合成技术及应用(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、嵌入式操作系统下的语音合成技术及应用(论文提纲范文)
(1)基于嵌入式Linux的机器人控制和交互(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 国外研究及现状 |
1.3 国内研究及现状 |
1.4 发展状况分析与概述 |
1.5 本文主要内容 |
第2章 软硬件平台的搭建 |
2.1 嵌入式的相关概述 |
2.1.1 嵌入式的定义 |
2.1.2 嵌入式系统的特点 |
2.1.3 嵌入式应用领域及发展方向 |
2.2 硬件系统搭建 |
2.2.1 系统硬件平台介绍 |
2.2.2 JZ2440 相关的介绍 |
2.2.3 系统控制部分概述 |
2.2.4 系统的输入输出概述 |
2.3 软件系统搭建 |
2.3.1 开发环境的搭建 |
2.3.2 Boot Loder及移植 |
2.3.3 Linux内核编译配置以及移植 |
2.3.4 构建根文件系统 |
2.4 本章小结 |
第3章 语音交互控制系统的硬件设计 |
3.1 UART串口简介 |
3.1.1 S3C2440 UART接口简介 |
3.1.2 串口相关基本概念 |
3.1.3 串口通信的相关参数 |
3.2 SYN6288 语音合成芯片介绍 |
3.2.1 芯片功能特性介绍 |
3.2.2 SYN6288 通信简介 |
3.3 机器人舵机简介 |
3.4 SPI协议介绍 |
3.4.1 SPI相关简介 |
3.4.2 SPI工作时序介绍 |
3.5 LD3320 语音识别芯片介绍 |
3.5.1 语音识别芯片功能特性介绍 |
3.5.2 语音识别芯片通信简介 |
3.6 本章小结 |
第4章 语音交互系统软件设计 |
4.1 Linux设备驱动开发简介 |
4.1.1 Linux设备驱动的分类和特点 |
4.1.2 字符驱动开发流程 |
4.2 Linux SPI总线驱动开发简述 |
4.2.1 总线设备驱动模型 |
4.2.2 SPI总线驱动开发框架 |
4.3 语音交互系统软件设计 |
4.3.1 LD3320 语音识别芯片驱动设计 |
4.3.2 SYN6288 语音合成芯片软件设计 |
4.3.3 机器人舵机控制的软件设计 |
4.3.4 语音交互控制的总体设计 |
4.4 本章小结 |
第5章 视频采集与传输 |
5.1 视频采集部分相关概述 |
5.1.1 摄像头工作原理概述 |
5.1.2 UVC驱动分析 |
5.1.3 Linux视频应用框架v4l2 概述 |
5.1.4 WiFi模块简介 |
5.1.5 WiFi模块驱动配置及使用 |
5.2 视频压缩传输概述 |
5.2.1 图像相关概念 |
5.2.2 H264 编码中相关压缩技术介绍 |
5.2.3 H264 编码相关概念 |
5.2.4 H264 码流介绍 |
5.3 视频传输相关概述 |
5.3.1 流媒体概念 |
5.3.2 常见流媒体协议介绍 |
5.3.3 RTP协议 |
5.3.4 X264 以及ORTP库的移植与相关简介 |
5.4 视频采集压缩软件整体设计 |
5.4.1 视频采集 |
5.4.2 视频压缩 |
5.4.3 视频传输 |
5.4.4 总体流程与实验结果展示 |
5.5 本章小结 |
第6章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
攻读学位期间主要研究成果 |
致谢 |
(2)嵌入式藏语语音合成系统的研究(论文提纲范文)
摘要 |
abstract |
第1章 引言 |
1.1 研究背景 |
1.2 研究现状 |
1.2.1 语音合成的研究现状 |
1.2.2 藏语语音合成的研究现状 |
1.2.3 嵌入式语音合成的研究现状 |
1.3 研究内容及意义 |
1.4 论文结构安排 |
1.5 本章小结 |
第2章 语音合成基础 |
2.1 语音产生过程与数学模型 |
2.1.1 语音产生过程 |
2.1.2 语音信号产生的数学模型 |
2.2 语音合成方法简介 |
2.2.1 早期的语音合成 |
2.2.2 波形拼接语音合成 |
2.2.3 基于HMM的统计参数语音合成 |
2.2.4 基于深度学习的语音合成 |
2.3 神经网络模型 |
2.3.1 深度神经网络 |
2.3.2 长短时记忆网络 |
2.3.3 双向长短时记忆网络 |
2.4 本章小结 |
第3章 藏语语料库的构建 |
3.1 藏语方言概述 |
3.1.1 藏文介绍 |
3.1.2 藏语声母、韵母、声调的特点 |
3.2 藏语语料库的设计 |
3.2.1 文本语料的设计 |
3.2.2 语音语料的录制 |
3.3 本章小结 |
第4章 藏语语音编解码系统 |
4.1 语音编解码系统概述 |
4.2 藏语语音编解码系统的实现与改进 |
4.2.1 藏语语音编解码的实现 |
4.2.2 藏语语音编解码的改进 |
4.3 藏语语音编解码系统的评测 |
4.4 本章小结 |
第5章 基于深度学习的藏语语音合成系统 |
5.1 系统总体框架 |
5.2 语言特征的生成 |
5.2.1 藏语上下文相关标注的设计 |
5.2.2 藏语上下文相关标注的生成 |
5.2.3 藏语问题集的设计 |
5.3 模型的构建 |
5.4 基于深度学习的藏语语音合成系统评测 |
5.4.1 实验设置 |
5.4.2 客观评测 |
5.4.3 主观评测 |
5.5 本章小结 |
第6章 嵌入式藏语语音合成系统的设计与实现 |
6.1 需求分析与总体设计 |
6.1.1 需求分析 |
6.1.2 硬件系统设计 |
6.1.3 软件系统设计 |
6.1.4 系统工作流程 |
6.2 系统硬件设计 |
6.2.1 系统存储结构 |
6.2.2 语音播放电路 |
6.2.3 系统通信电路 |
6.3 系统软件设计 |
6.3.1 语音生成模块 |
6.3.2 网络通信模块 |
6.4 系统移植 |
6.4.1 交叉编译环境建立 |
6.4.2 Bootloader、Linux内核、根文件系统移植 |
6.4.3 Python解释器移植 |
6.4.4 语音生成模块移植 |
6.5 嵌入式藏语语音合成系统评测 |
6.5.1 系统性能测试 |
6.5.2 合成音质评测 |
6.6 本章小结 |
第7章 总结与展望 |
7.1 论文总结 |
7.2 工作展望 |
参考文献 |
致谢 |
附录A 语音合成主观评价标准 |
个人简历、在校期间的研究成果及获奖情况 |
(3)基于ARM技术的盲人避障系统的设计(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 选题背景及研究目的与意义 |
1.2 国内外研究现状分析 |
1.2.1 国外研究现状分析 |
1.2.2 国内研究现状分析 |
1.3 主要研究内容与论文结构 |
1.3.1 主要研究内容 |
1.3.2 论文结构 |
第2章 系统设计技术基础 |
2.1 嵌入式微处理器ARM概述 |
2.2 嵌入式操作系统及Linux概述 |
2.3 深度学习基础 |
2.3.1 CNN结构及特征 |
2.3.2 常用CNN模型 |
2.4 本章小结 |
第3章 系统需求分析及总体框架设计 |
3.1 交通信号及交通标志牌灯现状分析 |
3.2 交通信号灯和交通标志类型及特征分析 |
3.3 嵌入式-云服务器构架需求分析 |
3.4 嵌入式前端数据采集需求分析 |
3.5 系统总体框架设计 |
3.6 本章小结 |
第4章 系统硬件设计与环境搭建 |
4.1 嵌入式ARM单元模块设计 |
4.2 摄像头图像采集模块设计 |
4.3 超声波测距模块设计 |
4.4 语音播报模块设计 |
4.5 其他电路设计 |
4.6 基于ARM的 Linux系统移植与驱动 |
4.6.1 交叉编译环境的建立 |
4.6.2 Boot Loader的选择和移植 |
4.6.3 Linux内核裁剪与移植 |
4.6.4 根文件系统移植 |
4.6.5 Linux设备的驱动程序 |
4.7 云服务器环境搭建 |
4.8 socket套接字 |
4.9 本章小结 |
第5章 交通信号灯与标志牌检测识别软件设计 |
5.1 基于颜色特征的交通信号灯的检测 |
5.1.1 RGB色彩空间 |
5.1.2 HSV色彩空间 |
5.1.3 基于HSV色彩空间对交通信号灯颜色分割 |
5.2 交通信号灯图像的形态学操作 |
5.3 基于hough变换的形状检测 |
5.4 交通信号灯类型识别 |
5.5 道路交通标志类别与标记 |
5.6 交通标志检测识别 |
5.6.1 交通标志训练数据集 |
5.6.2 交通标志检测识别网络框架设计 |
5.6.3 交通标志检测识别网络训练过程 |
5.6.4 交通标志网络检测结果 |
5.7 本章小结 |
第6章 系统测试与分析 |
6.1 避障语音播报系统的硬件测试 |
6.1.1 嵌入式硬件模块的搭建 |
6.1.2 摄像头图像采集模块的测试 |
6.1.3 超声波测距模块测试 |
6.2 嵌入式前端与云服务器的传输测试 |
6.3 交通信号灯和交通标志检测识别功能测试 |
6.4 本章小结 |
结论 |
致谢 |
参考文献 |
攻读学位期间取得学术成果 |
(4)基于嵌入式GPU的家庭服务机器人软件设计(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.2.1 服务机器人 |
1.2.2 定位导航 |
1.2.3 目标识别 |
1.2.4 人机交互 |
1.3 主要研究内容 |
1.4 论文组织结构 |
第二章 服务机器人软件总体设计 |
2.1 引言 |
2.2 需求分析 |
2.2.1 软件功能分析 |
2.2.2 软件性能分析 |
2.3 硬件平台搭建 |
2.3.1 Jetson TX2 开发板 |
2.3.2 Turtlebot移动平台 |
2.4 软件平台搭建 |
2.4.1 ROS开发框架 |
2.4.2 软件开发环境搭建 |
2.5 软件总体框架 |
2.6 本章小结 |
第三章 定位导航模块 |
3.1 引言 |
3.2 SLAM建图与定位 |
3.2.1 基于GMapping构建地图 |
3.2.2 基于AMCL进行定位 |
3.3 基于ROS的机器人导航 |
3.3.1 ROS导航包 |
3.3.2 全局路径规划 |
3.3.3 局部路径规划 |
3.4 基于深度强化学习的局部路径规划 |
3.4.1 深度强化学习基础 |
3.4.2 基于DDPG的深度强化学习方法 |
3.4.3 仿真环境搭建 |
3.4.4 实验结果与分析 |
3.5 本章小结 |
第四章 目标识别与测量模块 |
4.1 引言 |
4.2 目标检测分类算法选择 |
4.3 基于YOLO的目标检测分类 |
4.3.1 训练集制作 |
4.3.2 YOLO网络结构介绍 |
4.3.3 YOLO网络结构方案选择 |
4.3.4 YOLO网络训练结果分析 |
4.4 目标辨识 |
4.4.1 人脸辨识 |
4.4.2 人形辨识 |
4.5 基于深度相机的目标测量 |
4.6 本章小结 |
第五章 人机交互模块 |
5.1 引言 |
5.2 语音识别、合成功能 |
5.2.1 科大讯飞语音库移植 |
5.2.2 科大讯飞语法文件设计 |
5.2.3 语音识别、合成流程 |
5.3 机器人目标跟踪 |
5.3.1 常见的运动目标跟踪技术 |
5.3.2 基于KCF的目标跟踪 |
5.3.3 融合SORT算法的KCF目标跟踪方法 |
5.3.4 实验结果与分析 |
5.4 机器人多人辨识 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 工作总结 |
6.2 展望 |
参考文献 |
致谢 |
作者简介 |
1 作者简历 |
2 参与的科研项目及获奖情况 |
3 发明专利 |
学位论文数据集 |
(5)基于双系统的车联网车载终端设计与实现(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 课题的背景及意义 |
1.2 国内外研究现状 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.3 车联网概述 |
1.4 课题的研究内容与创新点 |
1.4.1 课题研究内容 |
1.4.2 课题创新点 |
1.5 论文章节安排 |
本章小结 |
第二章 车联网车载终端设计架构 |
2.1 车载终端安全管理生命周期分析 |
2.2 硬件架构设计方案论证 |
2.2.1 车载终端的硬件架构 |
2.2.2 车载终端硬件选取 |
2.3 软件架构设计方案论证 |
2.3.1 车载终端软件架构 |
2.3.2 ASIL等级判定 |
2.3.3 风险处理策略 |
2.4 系统设计开发涉及的关键技术 |
2.4.1 嵌入式Linux系统及NFS服务器 |
2.4.2 车载终端Android系统 |
2.4.3 其他技术 |
本章小结 |
第三章 车联网车载终端硬件设计 |
3.1 车载终端调试接口电路设计 |
3.1.1 调试串口电路设计 |
3.1.2 OTG接口介绍 |
3.2 通信模块接口设计 |
3.2.1 CAN通信模块电路设计 |
3.2.2 蓝牙/WiFi通信模块接口设计 |
3.2.3 4G模块接口电路设计 |
3.3 定位模块接口设计 |
3.3.1 双模定位模块接口电路设计 |
3.3.2 GPS定位模块接口设计 |
3.4 影音模块接口电路设计 |
3.4.1 音频编码/解码电路设计 |
3.4.2 语音识别模块接口电路设计 |
3.4.3 摄像头模块接口电路设计 |
3.4.4 触摸屏接口转换电路设计 |
3.5 电源转换电路设计 |
本章小结 |
第四章 车联网车载终端开发平台搭建 |
4.1 车载终端开发环境需求 |
4.2 宿主机环境搭建 |
4.2.1 Ubuntu系统搭建 |
4.2.2 交叉编译环境搭建 |
4.2.3 NFS服务器搭建 |
4.3 车载双系统编译 |
4.3.1 Bootloader编译 |
4.3.2 Kernel定制 |
4.3.3 File System定制 |
4.4 车载终端环境搭建 |
4.4.1 车载双系统初始移植 |
4.4.2 车载终端系统调试移植 |
本章小结 |
第五章 车联网车载终端软件设计 |
5.1 车载终端通信协议 |
5.1.1 CAN总线通信协议 |
5.1.2 NMEA-0183协议 |
5.1.3 双模定位模块命令协议 |
5.1.4 4G模块命令协议 |
5.1.5 语音识别模块命令协议 |
5.2 车载终端嵌入式Linux系统程序分析 |
5.2.1 嵌入式Linux系统应用函数介绍 |
5.2.2 A/D误差校正 |
5.2.3 车载终端嵌入式Linux系统串口初始化 |
5.3 风险处理程序设计 |
5.3.1 功能层程序设计 |
5.3.2 数据处理层程序设计 |
5.3.3 控制层程序设计 |
5.4 车载终端对云端的交互程序设计 |
5.4.1 交互程序设计 |
5.4.2 数据显示程序设计及开机自启 |
5.5 车载终端Android系统程序设计 |
5.5.1 程序设计环境 |
5.5.2 蓝牙/WiFi程序设计 |
5.5.3 监听程序设计 |
5.5.4 开机自启APP设定 |
本章小结 |
第六章 车联网车载终端测试 |
6.1 车载终端嵌入式Linux系统测试 |
6.1.1 风险处理功能层程序测试 |
6.1.2 数据处理层和控制层程序测试 |
6.1.3 车载终端对云端的交互程序测试 |
6.1.4 车载终端嵌入式Linux系统整体测试 |
6.2 车载终端Android系统测试 |
6.2.1 车载终端Android系统程序UI跳转测试 |
6.2.2 车载终端Android系统监听程序测试 |
本章小结 |
结论 |
参考文献 |
附录A 坐标系建立代码 |
攻读硕士学位期间取得的学术成果 |
致谢 |
(6)车辆智能语音安全监控系统设计与应用(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 研究内容 |
1.4 项目研究意义及关键技术 |
1.5 论文总体研究思路 |
1.6 本章小结 |
第2章 基于MATLAB的语音信号分析 |
2.1 语音信号研究现状 |
2.2 语音信号的特点与采集 |
2.2.1 语音信号的特点 |
2.2.2 语音信号的采集 |
2.3 基于MATLAB的语音信号时域特征分析 |
2.3.1 原理分析 |
2.3.2 窗口的选择 |
2.3.3 短时平均过零率 |
2.4 基于MATLAB的语音信号频域特征分析 |
2.4.1 原理分析 |
2.4.2 时域信号的FFT分析 |
2.5 车内语音信号的处理 |
2.5.1 语音信号的基本处理 |
2.5.2 MATLAB对原始语音信号分析 |
2.5.3 MATLAB对加噪音语音信号分析 |
2.5.4 车内语音信号性能提升方法 |
2.6 本章小结 |
第3章 车内语音控制系统总体方案研究 |
3.1 语音识别技术的应用 |
3.2 车内语音识别算法的使用 |
3.3 语音识别系统硬件平台的选择 |
3.4 语音识别系统软件平台的选取 |
3.5 报警时间阈值选定 |
3.6 本章小结 |
第4章 监控系统硬件平台设计开发 |
4.1 系统硬件结构的组成 |
4.2 ARM11 S3C6410 嵌入式处理器 |
4.3 语音处理 WM9714 |
4.4 存储设备 |
4.5 外围设备电路设计 |
4.5.1 以太网接口电路 |
4.5.2 USB电路 |
4.5.3 UART电路 |
4.5.4 LCD显示接口电路 |
4.6 其他电路模块设计 |
4.6.1 电源管理模块 |
4.6.2 时钟电路 |
4.6.3 SD卡电路 |
4.7 本章小结 |
第5章 智能语音监控平台应用程序开发 |
5.1 系统软件的设计概述 |
5.2 Windows CE嵌入式操作系统 |
5.3 Windows CE6.0 系统定制与移植 |
5.3.1 Windows CE开发平台 |
5.3.2 Windows CE6.0 的定制和移植 |
5.4 语音智能监控应用程序开发 |
5.4.1 语音信号的预处理与特征提取设计 |
5.4.2 矢量量化与DHMM模块设计 |
5.4.3 系统软件的总统设计 |
5.4.4 语音识别应用程序的设计和实现 |
5.5 系统运行与测试 |
5.6 本章小结 |
结论 |
致谢 |
参考文献 |
(7)深度学习语音识别系统在嵌入式端的研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题研究的背景及意义 |
1.2 国内外研究发展的历程和现状 |
1.2.1 人工智能发展历程 |
1.2.2 人工神经网络和深度学习发展历程及现状 |
1.2.3 语音识别的研究现状 |
1.3 深度学习在嵌入式端实现的意义 |
1.4 本文主要工作 |
1.5 论文组织结构 |
第2章 深度学习理论 |
2.1 神经网络 |
2.2 卷积神经网络CNN |
2.2.1 卷积层 |
2.2.2 池化层 |
2.2.3 全连接层 |
2.2.4 softmax回归 |
2.2.5 损失函数 |
2.3 循环神经网络RNN |
2.3.1 RNN介绍 |
2.3.2 RNN工作原理 |
2.4 长短时记忆神经网络LSTM |
2.4.1 LSTM的核心思想 |
2.4.2 LSTM工作流程 |
2.5 本章小结 |
第3章 声学模型及语言模型 |
3.1 模型整体设计 |
3.2 音频信号预处理 |
3.2.1 预加重 |
3.2.2 分帧 |
3.2.3 加窗 |
3.3 特征值,语谱图 |
3.3.1 特征值MFCC |
3.3.2 语谱图 |
3.4 声学模型及训练过程 |
3.4.1 声学模型简介 |
3.4.2 CNN模型 |
3.4.3 DFCNN模型 |
3.5 DFCNN训练及准备 |
3.5.1 利用训练样本数据的标记 |
3.5.2 网络结构训练过程 |
3.6 语言模型 |
3.6.1 n-gram语言模型 |
3.6.2 深度学习语言模型 |
3.7 基于Attention的语言模型 |
3.7.1 介绍 |
3.7.2 Transformer模型架构 |
3.7.3 编码器 |
3.7.4 Embedding层和位置编码 |
3.7.5 多头注意(Multi-Head Attention) |
3.7.6 面向位置的前馈网络 |
3.7.7 标签平滑层 |
3.8 利用DFCNN及Transformer网络进行识别 |
3.9 本章小结 |
第4章 基于电脑端的模型构建及训练 |
4.1 Tensorflow环境搭建及训练 |
4.1.1 pycharm+python |
4.1.2 Tensorflow-GPU版 |
4.2 声学模型训练 |
4.2.1 提取语谱图 |
4.2.2 利用Tensorflow搭建优化后的DFCNN模型 |
4.3 模型的输入输出的处理 |
4.3.1 损失函数及其优化 |
4.3.2 模型输入的处理及输出解码处理 |
4.4 语言模型Transformer |
4.4.1 Transformer利用Tensorflow进行构建 |
4.4.2 输入数据进行训练及识别 |
4.5 本章小结 |
第5章 硬件环境搭建 |
5.1 环境配置 |
5.1.1 安装系统及其他设置 |
5.1.2 连接网络 |
5.1.3 连接树莓派桌面 |
5.1.4 SD卡存储 |
5.2 模型量化操作 |
5.2.1 Bazel介绍及安装 |
5.2.2 Bazel编译Tensorflow源码 |
5.2.3 Bazel进行量化操作 |
5.3 音频采集软硬件 |
5.3.1 Re Speaker及驱动安装 |
5.3.2 树莓派连接端口 |
5.3.3 音频采集预处理 |
5.3.4 音频采集软件 |
5.4 本章小结 |
第6章 测试与分析 |
6.1 测试环境及数据 |
6.2 测试方法及结果 |
6.2.1 基于测试集声学模型的实验 |
6.2.2 基于测试集语言模型的实验 |
6.2.3 基于采集音频的语音识别系统测试 |
6.3 测试结果分析 |
6.4 本章小结 |
结论 |
致谢 |
参考文献 |
攻读学位期间取得学术成果 |
(8)统计参数语音合成的硬件实现(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究的背景 |
1.2 国内外研究的现状 |
1.2.1 语音合成的研究现状 |
1.2.2 语音合成硬件的研究现状 |
1.3 研究的意义 |
1.4 论文结构 |
1.5 本章总结 |
第2章 语音合成技术的概述和方法 |
2.1 语音合成的概述 |
2.2 语音合成的方法 |
2.2.1 共振峰语音合成 |
2.2.2 基于波形拼接的语音合成 |
2.2.3 基于统计参数的语音合成 |
2.3 基于HMM的统计参数语音合成方法 |
2.3.1 隐马尔可夫模型简介 |
2.3.2 基于HMM的统计参数语音合成技术原理 |
2.4 基于HMM统计参数语音合成中的重要算法 |
2.4.1 基于决策树的模型聚类算法 |
2.4.2 参数生成算法 |
2.4.3 MLSA合成滤波器算法 |
2.5 HTK工具箱 |
2.6 本章总结 |
第3章 基于HMM的统计参数语音合成的训练部分 |
3.1 预处理阶段 |
3.1.1 构建语料库 |
3.1.2 标注文件的生成 |
3.1.3 提取语音参数 |
3.2 HMM训练阶段 |
3.2.1 问题集的设计 |
3.2.2 基于决策树的模型聚类 |
3.2.3 HMM的训练 |
3.3 本章总结 |
第4章 基于ARM的统计参数语音合成系统的设计与实现 |
4.1 总体设计结构 |
4.2 ARM的硬件结构 |
4.2.1 ARM的概述 |
4.2.2 ARM的硬件开发板简介 |
4.3 ARM中各功能模块的设计 |
4.3.1 系统的存储结构 |
4.3.2 语音播放模块的电路 |
4.3.3 串口模块的电路 |
4.4 基于ARM的嵌入式的Linux系统编译与移植 |
4.4.1 交叉编译环境的建立 |
4.4.2 UBoot、Linux内核和文件系统的配置和移植 |
4.5 基于Linux系统的驱动程序设计 |
4.6 基于Linux系统的语音合成软件设计 |
4.6.1 文本分析程序模块 |
4.6.2 语音合成程序模块 |
4.7 本章总结 |
第5章 语音合成实验的测试与分析 |
5.1 合成语音质量的主观评测 |
5.2 合成语音质量的客观评测 |
5.3 本章总结 |
第6章 总结与展望 |
6.1 论文的工作总结 |
6.2 论文的展望 |
参考文献 |
攻读学位期间的研究成果 |
致谢 |
附录A |
(9)MELP算法的研究及其嵌入式平台的实现(论文提纲范文)
摘要 |
ABSTRACT |
符号说明 |
第一章 绪论 |
1.1 研究背景 |
1.2 语音编码技术 |
1.2.1 语音信号模型 |
1.2.2 语音分类 |
1.3 语音编码的性能评价方法 |
1.4 嵌入式开发 |
1.4.1 嵌入式处理器 |
1.4.2 嵌入式操作系统 |
1.5 论文各章节安排 |
第二章 MELP基础 |
2.1 语音信号线性预测分析 |
2.1.1 LPC的基本原理 |
2.1.2 线谱对LSP分析 |
2.2 LPC-10声码器 |
2.2.1 LPC-10声码器编码原理 |
2.2.2 LPC-10声码器解码原理 |
2.2.3 LPC-10声码器存在的问题 |
2.2.4 MELP算法的关键技术 |
2.3 本章小结 |
第三章 MELP声码器的原理 |
3.1 MELP编码原理 |
3.1.1 预处理 |
3.1.2 基音周期的计算 |
3.1.3 子带声音强度的计算 |
3.1.4 线性预测分析 |
3.1.5 增益的计算 |
3.1.6 非周期标志 |
3.1.7 傅里叶级数幅值的计算 |
3.1.8 量化 |
3.1.9 参数的比特分配 |
3.2 MELP解码原理 |
3.2.1 基音周期解码 |
3.2.2 增益解码 |
3.2.3 参数内插 |
3.2.4 混合激励生成 |
3.2.5 语音合成 |
3.3 本章小结 |
第四章 0.6Kb/s MELP算法的设计与实现 |
4.1 降低编码速率的方法 |
4.2 0.6Kb/s MELP算法构建与比特分配 |
4.2.1 子带声音强度的量化 |
4.2.2 超级帧的LSP参数量化 |
4.2.3 增益量化 |
4.2.4 参数的比特分配 |
4.3 0.6Kb/s MELP算法的C语言实现 |
4.3.1 顶层函数 |
4.3.2 功能模块函数 |
4.3.3 底层函数 |
4.3.4 基本运算函数 |
4.4 0.6Kb/sMELP算法的性能分析 |
4.4.1 合成语音波形图 |
4.4.2 合成语音质量 |
4.5 本章小结 |
第五章 MELP算法在嵌入式平台的实现 |
5.1 系统平台 |
5.1.1 系统硬件结构 |
5.1.2 系统软件结构 |
5.1.3 系统实现结构 |
5.2 优化 |
5.2.1 编译器优化 |
5.2.2 代码优化 |
5.2.3 优化前后MELP编解码器的性能对比 |
5.3 系统的实现研究 |
5.3.1 语音采集播放模块 |
5.3.2 语音编解码模块 |
5.3.3 网络传输模块 |
5.4 本章小结 |
第六章 论文总结和展望 |
6.1 主要工作总结 |
6.2 后续工作 |
参考文献 |
致谢 |
攻读学位期间发表的学术论文目录 |
(10)嵌入式盲人阅读器系统设计与开发(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 课题研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 文字识别(OCR)技术发展历程 |
1.2.2 语音合成(TTS)技术发展历程 |
1.3 面临技术挑战 |
1.4 论文章节安排 |
2 盲人阅读器系统相关理论知识介绍 |
2.1 文本图像预处理 |
2.1.1 灰度化、二值化与去噪 |
2.1.2 倾斜校正 |
2.1.3 版面分析 |
2.1.4 文本定位 |
2.2 字符特征提取与识别 |
2.2.1 字符预处理 |
2.2.2 汉字特征提取 |
2.2.3 特征匹配与识别 |
2.3 语音识别与合成 |
2.3.1 语音识别基本原理 |
2.3.2 语音合成基本原理 |
3 嵌入式盲人阅读器系统平台概述与开发环境搭建 |
3.1 系统硬件平台概述 |
3.2 系统软件平台概述 |
3.2.1 嵌入式操作系统的选择 |
3.2.2 嵌入式GUI的选择 |
3.3 盲人阅读器嵌入式Linux开发环境搭建 |
3.3.1 交叉编译环境搭建与配置 |
3.3.2 配置NFS服务 |
3.3.3 配置TFTP服务 |
3.4 内核编译与移植 |
3.5 嵌入式GUI开发环境搭建 |
3.5.1 QT编程概述 |
3.5.2 Host Linux下QT4开发环境搭建 |
4 盲人阅读器系统设计与结果分析 |
4.1 Windows平台下盲人阅读器软件设计与实现 |
4.2 基于DVS6446的嵌入式盲人阅读器系统实现 |
4.2.1 摄像头图片获取模块设计 |
4.2.2 阅读模块设计 |
4.2.3 嵌入式程序运行、移植与测试 |
4.3 实验与结果分析 |
结论 |
参考文献 |
致谢 |
四、嵌入式操作系统下的语音合成技术及应用(论文参考文献)
- [1]基于嵌入式Linux的机器人控制和交互[D]. 孔祥基. 汕头大学, 2021
- [2]嵌入式藏语语音合成系统的研究[D]. 王智浩. 西北师范大学, 2021(12)
- [3]基于ARM技术的盲人避障系统的设计[D]. 娄皓翔. 成都理工大学, 2020(04)
- [4]基于嵌入式GPU的家庭服务机器人软件设计[D]. 伍震业. 浙江工业大学, 2020(08)
- [5]基于双系统的车联网车载终端设计与实现[D]. 刘少伟. 大连交通大学, 2019(08)
- [6]车辆智能语音安全监控系统设计与应用[D]. 林少宏. 西南交通大学, 2019(03)
- [7]深度学习语音识别系统在嵌入式端的研究[D]. 杨明翰. 成都理工大学, 2019(02)
- [8]统计参数语音合成的硬件实现[D]. 张帅. 西北师范大学, 2017(02)
- [9]MELP算法的研究及其嵌入式平台的实现[D]. 段雨宁. 北京邮电大学, 2017(03)
- [10]嵌入式盲人阅读器系统设计与开发[D]. 秦瑞强. 大连理工大学, 2015(03)