一、关于MP3和Real Audio(论文文献综述)
董浩[1](2021)在《基于GAN的多模态信息隐藏研究》文中提出信息隐藏技术是一种将秘密信息隐藏在自然载体中而不改变载体感知特性的科学。图像、视频、语音、文本等多种数字媒体都可以作为信息隐藏的载体,而音频隐写技术是以音频为载体进行隐写的技术。现有的音频隐写方法主要是人工设计的方法,在算法设计时需要大量的对应的专业知识,门槛高,还面临很多挑战。此外,在大数据时代,媒体形式丰富多样,若信息隐藏模型只能针对单一类型的载体进行嵌入和提取,其安全性是不够的。我们希望无论输入的载体对象是音频、图像还是其他类型的数字媒体,信息隐藏模型都能对其进行嵌入和提取。生成对抗网络是一种深度无监督学习架构,其可以使生成样本分布和真实样本分布之间的JS散度不断变小,即使得生成样本尽可能地接近真实样本。本文以数字音频和数字图像为研究对象,对基于卷积神经网络和生成对抗网络的多类型载体隐写集成系统进行研究,论文的主要研究成果包括:(1)提出了一种基于卷积神经网络的可视化音频隐写模型。该模型由一个编码器和一个解码器组成:将秘密图像嵌入到音频载体中的编码器,从载密载体中提取秘密图像的解码器。本文提出将音频以可视化的方式送入到卷积神经网路中,以解决卷积神经网络只能处理图像的问题。提出的方案在两个训练集上进行训练和验证,实验结果表明,本方案可将图片嵌入音频中,并能将秘密图像高质量地恢复出来。(2)提出了一个基于生成对抗网络的可同时对音频和图像进行隐写的集成系统。该工作参考了现有的基于生成对抗网络的图像隐写模型,并结合基于卷积神经网络的可视化音频隐写模型,设计了一个可以同时以音频和图像为载体的集成隐写系统。该系统由一个编码器、一个解码器和一个鉴别器组成:编码器负责将秘密图像嵌入到音频载体或者图像载体中,解码器负责从载密音频或载密图像中恢复出秘密图像,判别器则负责判断输入样本是真实样本还是生成样本,来使它们之间的JS散度不断变小。实验表明该系统无论在音频载体上还是在图像载体上均有良好表现。
刘钊宏[2](2021)在《高信噪比环境下的高隐蔽性音频信息隐藏算法研究》文中提出随着互联网和多媒体技术的快速发展,数字音像制品以及其他电子出版物的传播和交易变得越来越便捷。如何在利用到互联网便利性的同时,有效的保护数据的安全与电子出版物的版权成为了一个亟待解决的课题。传统的信息加密技术通过加密算法将明文转换为无法阅读的密文,但这很容易引起攻击者的注意,而且难以应对暴力破解等手段。而音频信息隐藏技术将密文信息隐藏在载体音频中,这不仅能隐藏明文的内容,还能隐藏明文的存在,为保密信息提供了额外的一层保护。音频信息隐藏技术因其具有的优点而受到越来越多研究者的关注,并且已在隐蔽通信和版权保护领域得到了广泛的应用,具有很重要的研究价值和广阔的应用前景。本文首先对音频信息隐藏技术进行综述,介绍了系统框架、经典算法、人类听觉系统与心理声学模型,以及用于评估音频信息隐藏算法的三个性能指标;然后针对一些经典的音频信息隐藏算法存在的问题,结合非均匀嵌入、扩频技术等思想,优化了一种基于MDCT的音频信息编码算法,并在此基础上,提出一种基于patchwork和非均匀嵌入的音频信息编码算法;最后设计并实现了一个音频信息隐藏软件。本文的主要贡献与创新包括:1.优化了一种基于MDCT的音频信息隐藏算法。为了弥补FFT、DCT存在的一些不足,算法选择MDCT作为时频变换方法;在计算频点的嵌入强度时使用MP3的非均匀量化器,以防止大信号因嵌入过多产生畸变的同时改善提高小信号的量化信噪比,提高算法的鲁棒性;得出每个频点的嵌入强度后考虑音频信息隐藏技术与音频压缩技术的不同之处,解决能量很小的信号对音频音质产生负面影响的问题。2.提出了一种基于patchwork和非均匀嵌入的音频信息编码算法。算法针对现有的基于patchwork的音频信息隐藏算法存在的缺陷,利用前面提出的“非均匀嵌入”算法计算得出的嵌入强度,对需要进行信息嵌入的数据块的嵌入幅值进行分配,在不降低原有的基于patchwork的算法鲁棒性的同时提升了隐蔽性。3.设计并实现了一个音频信息隐藏软件。软件除了常见的音频文件信息嵌入和音频文件信息提取功能外,还有实时录音信息嵌入和实时录音信息提取功能,以满足对实时性的要求。在PC上用C/C++实现了整个软件,并将发送端的音频文件信息嵌入与整个接收端移植到安卓端。解决了双声道音频在实时录音信息提取中鲁棒性下降的问题。
罗一帆[3](2021)在《基于媒体特征分析的自适应音视频水印关键技术研究》文中进行了进一步梳理随着多媒体技术、网络技术的发展,多媒体数字产品的复制与传播变得非常便捷。相应的,盗版行为也日益猖獗,给版权商带来了不可估量的经济损失。因此,急需有效的版权保护措施来遏制盗版行为。在这一背景下,学者们提出了数字水印技术,经过近年来的快速发展,已成功应用于多媒体数字产品的版权保护,挽回了盗版带来的经济损失。因而,研究数字水印技术,进一步提升其版权保护效果,是一项具有重要理论意义与应用价值的工作。音视频作为视听媒体的代表,其版权保护是数字水印研究的重点,研究者们已提出了多种音视频数字水印方法。但现有方法对音视频信号在时-频域中的变化特征缺乏充分的研究与应用,导致水印抗时域同步攻击、几何变换等攻击能力不足,水印鲁棒性和不可感知性均有待提升;同时,对新发展起来的无损压缩音频、3D视频研究不足,少有针对性数字水印算法。为解决这些问题,本文基于音视频特征信息分析,从以下两个方面提出解决思路。第一,分析音视频信号时-频域变化规律,根据规律构建特征信息作为信号自适应分段标志、确定水印嵌入位置;水印嵌入位置随特征信息变化而改变,而各类攻击对特征信息影响小,水印抗同步攻击、几何攻击等攻击鲁棒性得到提升。第二,将水印嵌入与提取过程同音频信号变化特征、编解码特征、视频角点特征、3D视图渲染特征相结合,充分运用特征信息来提升水印不可感知性和抗各类攻击的鲁棒性。根据解决思路,本文提出了以下解决方案:依次构建在各类攻击下鲁棒性更强的音频节拍、音频显着状态、视频角点、视频对象动作等特征信息作为信号分段、水印嵌入位置选择或水印认证标志,实现水印抗同步攻击鲁棒性的提升。针对有损压缩、无损压缩音频,2D、3D视频,将特征信息构建与水印嵌入、提取方法相结合,分别设计双通道音频水印算法、双域音频水印算法、与无损压缩编码相结合的无损音频水印算法、与视觉密码相结合的2D视频‘零水印’算法、与3D渲染模式相结合的3D视频水印算法,各有侧重地提升水印鲁棒性和不可感知性。根据解决方案,具体算法实现如下:一、提出了基于信号自适应分段与嵌入强度优化的双通道音频水印算法。利用自相关检测法对音频信号进行自适应分段,作为水印嵌入位置选择标志,提高水印抗同步攻击鲁棒性。构建音频信号双通道特征信息,设计水印双通道嵌入与提取方法,降低水印嵌入强度,提高水印不可感知性。二、提出了基于离散小波包变换的双域音频水印算法。设计更具鲁棒性的音频信号自适应分段方法,水印具备更强的抗同步攻击能力;引入心理声学模型,将音频信号划分为听觉掩蔽域和被掩蔽域,设计符合掩蔽效应的双域水印嵌入位置选择方法、水印嵌入强度自适应控制方法,在双域中同时进行水印嵌入与提取,既提高水印的鲁棒性,又能保障其不可感知性。三、提出了针对MPEG-4 SLS格式的无损压缩音频水印算法。构建MPEG-4 SLS(Scalable Lossless Coding)编码整型修正离散余弦变换(Integer Modified Discrete Cosine Transform,Int MDCT)系数显着状态特征信息作为水印嵌入位置选择标志,增强特征信息鲁棒性,实现水印抗同步攻击鲁棒性的提升;设计与无损编解码技术相结合的水印嵌入与提取方法,提高水印抗各类信号处理攻击的鲁棒性,同时应用听觉掩蔽效应实现对水印嵌入强度的有效控制。四、提出了基于时-空域特征和视觉密码的视频‘零水印’算法。设计有限状态机进行关键帧选择,在关键帧中构建时-空域角点特征信息作为水印认证信息元素,提高特征信息抗同步攻击、色彩与几何攻击鲁棒性。将特征信息与视觉密码相结合,生成鲁棒性水印认证信息,在版权机构进行注册,在不改变视频信号的前提下实现水印嵌入。五、提出了基于深度图像渲染(Depth-image-based rendering,DIBR)的3D视频水印算法。与DIBR特征进行融合,构建视频帧对象动作特征信息作为水印嵌入位置自适应选择标志,增强特征信息鲁棒性,提升水印抗深度信息变化、几何变换攻击鲁棒性;设计同DIBR渲染过程相结合的水印嵌入与提取方法,提升水印鲁棒性和不可感知性。综上所述,本文针对现有音视频水印方法存在的问题,基于特征信息分析对音视频数字水印关键技术进行研究。分析音视频信号时-频域变化特征与鲁棒性特征信息提取方法,提出了问题解决思路,给出了解决方案。实现了在小波域、时空域、压缩域中对有损压缩音频、无损压缩音频、2D视频、3D视频进行水印嵌入与提取,有效增强了水印鲁棒性和不可感知性,为水印算法的应用打下了更坚实的基础。
王勇[4](2021)在《生物特征模板在语音认证与检索算法中的研究》文中研究说明随着手机、电脑等便携设备性能的提升和互联网的高速发展,使得如今的语音信息呈指数式增加,且语音格式的种类繁多。这一变化使得人们如何快速的实现多格式下的语音认证、提高语音的检索效率与精度及其保证云端数据的安全性成为亟须解决的问题。论文分别以多格式语音认证、密文语音检索为研究背景,对数字信号处理、生物特征模板的构建、语音加密和哈希索引构建算法等技术展开研究。主要研究内容及贡献如下:1、针对现存语音内容认证的应用范围小,认证过程中的鲁棒性、区分性、安全性和认证的实时性有待提高的问题,本文通过对生物特征模板、加密算法等的研究,提出了三种基于感知哈希的多格式语音认证算法及两种基于生物哈希的多格式语音认证算法。所提算法首先对语音片段进行特征提取,然后分别采用感知哈希法、生物哈希法将经过生物特征模板的特征矩阵提取生成哈希索引,最后利用加密算法对哈希索引进行等长度的置乱加密。实验结果表明:算法不仅具有安全性好、区分性及实时性高、应用范围广的特点,而且通过比差法验证了生物哈希具有带陷门的单向性,通过最小码距法实现了对语音的小范围篡改检测与定位。2、针对现存语音生物哈希检索系统中明文数据的泄露问题,提高语音检索精度、生物特征模板的多样性、可撤销性,本文通过对可撤销生物特征模板、语音加密算法等的研究,提出了一种基于特征融合的长序列生物哈希密文语音检索。用户端,首先根据语音特征分类建立与分类结果具有单一映射密钥的生物特征模板;然后采用生物哈希方法将特征向量和密钥生成的混沌测量矩阵生成语音的特征索引,并采用改进的SHA256算法对语音文件进行加密;最后将特征索引和加密语音送至云端。实验结果表明:该算法不仅能有效的防止明文泄露,而且生物特征模板具备良好的多样性、可撤销性。与此同时,该算法不但具有良好的效率与精度,而且解决了内容保持操作后的语音检索问题。
侯贺祥[5](2021)在《基于多特征融合的长序列语音感知哈希认证方法研究》文中研究说明感知哈希在一些多媒体安全应用中得到越来越多的关注。然而,如何在语音哈希的鲁棒性和区分性这两个最重要的特性之间取得平衡,仍然是哈希算法面临的最大挑战。现有语音认证算法从语音采集到数据存储再到云端语音哈希数据库都存在安全漏洞,同时认证算法中构造的哈希序列较短,同一哈希序列可能分属于不同用户,导致用户认证时出现较高的误识率。低信噪比下,哈希算法面对复杂噪声的匹配精度效果不理想。因此,本文对上述问题展开了研究。本文的主要研究内容及贡献点如下:1.为了解决现有语音认证算法抗碰撞低、安全性差的问题,同时兼顾算法的鲁棒性和实时性,提出了一种基于多特征融合和Arnold变换的长序列语音感知哈希认证算法。该算法先提取小波对数能量和梅尔倒谱系数,并将两种特征的低频系数分别进行哈希长序列构造;然后采用Arnold变换对两组哈希长序列进行置乱加密;最后融合加密后的序列进行语音认证。实验结果表明,该算法具有较低的误识率,同时兼顾鲁棒性和安全性。由于上述方法效率慢,低信噪比下的复杂噪声的匹配精度低,以及哈希序列过长导致云端存储资源浪费的情况,又提出了基于恒Q变换和张量分解的语音感知哈希认证算法。该算法首先将频域特征进行子带划分,构建子带集方差矩阵;然后通过恒Q变换构建特征张量,Tucker分解后重构目标张量。最后将降维后的目标张量降生成二进制哈希长序列,完成语音认证。经过仿真实验验证,该算法在区分性方面远高于现有算法,同时兼顾了鲁棒性和实时性,满足了复杂噪声环境下语音认证的要求。2.现有语音认证算法将提取的语音特征直接进行哈希构造保存到云端,很容易造成语音特征的泄露。构造哈希时,语音特征利用效率较差,构造的哈希序列短会造成哈希序列区分性不够,认证出现偏差。为了解决上述问题,提出了一种基于二维正弦调制映射(2D-SIMM)和伽马通滤波倒谱系数(GFCC)余弦值的长序列生物哈希认证算法。采用2D-SIMM对语音信号的空间余弦特征进行生物安全模板构造,该算法验证了三种不同特征的空间余弦值。经过仿真实验对比,GFCC算法不仅降低了生物哈希序列的碰撞率和算法运行时间,而且克服了内容保持操作对认证准确率的影响。面对常见低信噪比噪声背景,该算法同样具有良好的匹配精度,同时还能够为生物特征提供可撤销的安全模板。
李梦涵[6](2021)在《基于音频合成模型的隐写算法与协议研究》文中研究说明加密是实现安全通信的主要技术,然而,以密文形式传输数据会暴露秘密通信行为的存在。隐写术是将秘密信息隐藏到媒体文件中得到与其相似的载密文件的技术。以载密形式传输数据既能保护秘密消息内容,又能隐藏秘密通信的行为,因此,隐写术为秘密通信提供了更多的安全属性。隐写分析是检测媒体文件中是否藏有秘密消息的技术。近年来,研究者们提出了众多性能优越的基于深度学习的隐写分析算法,给隐写术带来了更大的挑战。现有的自适应隐写方法已经难以很好地抵抗隐写分析的检测。同时,互联网上基于合成语音的服务越来越普遍,因此合成语音成为了合理的隐写载体,我们可以利用合成语音过程掩盖隐蔽通信过程。本文针对音频隐写展开研究,探索如何利用语音合成技术进一步提升音频隐写的安全性:针对隐写编码理论无法达到最小失真的问题,提出了基于文本转语音模型的载体可重现的音频隐写方案;为了进一步接近隐写理论安全,提出了基于显式概率音频生成模型,设计了计算可证安全的隐写方案和相关安全协议。本文的主要研究工作和创新点可归纳如下:1.提出了基于合成音频的载体可重现音频隐写方法传统自适应隐写方案中,由于接收方无法获得载体和修改概率,需要借助隐写编码来完成信息嵌入和提取,目前的隐写编码性能只能逼近率失真界,且计算复杂度很高。本文基于文本语音转化生成模型,利用语音语义对于隐写修改的鲁棒性,以及共享生成模型后载体语音的可恢复性,设计了基于信源编码的自适应语音隐写算法。该算法可以按照最优概率进行嵌入。实验结果表明,基于载体可重现的语音隐写算法的性能优于现有的基于STC编码的语音隐写方案。2.提出了基于音频合成的安全隐写算法与协议隐写的理论安全一直是研究者们追求的目标,具有显式概率分布的计算机生成媒体的出现,为可证明安全隐写理论提供了实际应用基础。本文以音频合成模型WaveNet为基础,提出了一个计算上可证安全的隐写方案,并从理论与实验两个角度验证了其安全性,隐写分析实验结果显示,攻击者无法区分载体和载密。另一方面,深度学习使得攻击者可以更好地分析通信双方的异常行为,因此进一步提升通信双方的行为安全性尤为重要。本文在安全隐写算法的基础上,提出了安全隐写协议,通过隐蔽信道实现了隐写通信的全部过程,包括对称密钥隐写、公钥隐写和密钥交换过程三个部分。
Syeda Nuzhat Subi Naqvi[7](2021)在《基于神经网络的图像字幕和图像生成技术》文中认为图像处理是数字信号处理的一个热门研究领域,而图像内容翻译和图像内容安全则属于人工智能的研究内容之一。图像理解要求检测和识别图像中的对象、场景、位置及其相互作用或关系。生成结构良好的句子需要语法和语义的理解。每天,我们都会遇到许多来自不同来源的图片,如互联网、新闻文章、文档图表和广告。然而,这些图像没有正确的标签,也没有很好地防止数字信号处理攻击。如果人类从网站或数据库源中搜索特定图像,机器需要进行图像解释并保证图像内容的安全。图像字幕和图像安全是很重要的;它们可以用于自动图像索引。图像索引是基于内容的图像检索(CBIR)的重要组成部分,因此它可以应用于生物医学、商业、军事、教育、数字图书馆和web搜索等领域。Facebook和Twitter等社交媒体平台可以直接从需要适当标记和保护的图像中生成描述。为了填补这些空白,我们开发了自动生成图像描述并提供图像内容保护的系统。在我们首次提出的工作中,我们探索了主流的图像说明方法,即以简单的方式利用编码器-解码器模型或者是注意机制的组合,分析并产生源图像文本描述作为输出。这两种模式都面临着各种各样的困难和问题。基于注意力机制的方法使用单个热图去关注特定的区域或者对象。热图可以用来表示图像中哪个部分最重要。然而,它不能平等地评估图像的每个部分。单个热图模型,如卷积神经网络(CNNs)和递归神经网络(RNNs),之所以遇到阻碍,是因为过分依赖停留在图像级别的全局特征,因此会遗漏对象并误解图像。此外,这些模型忽略了非视觉信号的方式嵌入视觉信息,这种方式不会提高视觉描述的准确性和多样性。为了解决这些问题,我们提出了一种全局局部联合信号注意模型(GL-JSAM)。该模型首先在图像层提取全局特征,在对象层提取局部特征。此外,该模型通过对全局和局部图像特征的累加来获取图像的细节特征。新的联合信号注意模型只选取相关信号,从图像细节特征中提出不相关和冗余的部分,并将细节特征传递给语言模型。另一方面,在语言模型中,联合信号注意力模型会在每一个时间戳内关注图像特征和语言特征,生成各种丰富、准确、具有描述力的句子。我们通过在MS-COCO数据集上进行实验,验证了该方法的有效性和优越性。我们的第二个工作目标是通过提取的数据集来描述图像,帮助幼儿在教育环境中理解图像。不幸的是,现有的流行数据集,如flickr8k、11k、MS-COCO,以及许多其他经常用于图像字幕说明的数据集,其视觉描述要么复杂,要么过于笼统,这与儿童的学习无关。在当前的数字图像时代,一旦幼儿能够方便地接触到智能设备,就必须在教育初期为他们提供合适的教材。为了填补这一空白,我们提出了一种自动数字图像描述符。首先,该模型使用智能增强技术从Flickr8k和SDD数据集中开发了一个合并的3K Flickr SDD数据集。我们还修改了 merage 3K Flickr SDD数据集的每个标签,使其适合儿童理解。视觉特征提取采用CNN(卷积神经网络)和LSTM(长-短期记忆)语言模型生成文本序列。避免使用递归神经网络(RNN),因为RNN会因为梯度消失而遗忘先前信息中生成的句子。我们对于实验结果进行了定量和定性分析;研究结果表明,与现有模型相比,该模型在标准数据集上具有更好的性能。与合并的3K Flickr SDD数据集的两个版本相比,它还展示了显着的竞争力。在我们的第三个提议的工作中,我们探讨了图像内容的安全性问题,这个对于信息共享的前景有着重要意义。我们最初的尝试是将图像输入音频。不过,这个模型也可以很容易地应用于任何封面媒体,如音频、视频、语音和文本。然而,通过数字网络共享照片是非常不安全的,现有的音频水印策略对信号处理攻击的鲁棒性不够,因此很容易导致日常数据所有者失去版权保护和内容认证。实现健壮性、不可感知性和数据容量之间的平衡对于一个先进的模型来说是一个巨大的挑战。作为一种解决方案,我们提出了一种鲁棒的三重加密的音频图像水印方案,该方案首先对二值图像进行双重加密,提高了水印图像的安全性。水印嵌入前,对加密图像和宿主音频信号进行双树复小波变换(DTCWT)、短时傅立叶变换(STFT)和奇异值分解(SVD),其中SVD层用于水印嵌入。三重转换提高了容量、不可感知性和健壮性。实验结果表明,该方案针对各种数字信号处理的攻击表现出很好的鲁棒性。在我们的第四个工作中,我们提出了另一个水印方案,重点是在不安全的网络上的数字数据的安全性和隐秘性。以前的系统主要关注健壮性、不可感知性和数据容量,但没有优先考虑数据安全。作为一个解决方案,我们提出了一个鲁棒的二重图像音频水印方案,该方案首先通过Arnold加密(AE)和Bose-Chaudhuri-Hocquenghem(BCH)码来利用二值图像。改进的水印图像安全性保证了入侵者不能直接提取水印信息。我们还利用双树复小波变换(DTCWT)、离散余弦变换(DCT)和奇异值分解(SVD)将嵌入的图像分解为覆盖音频,从而提高了隐藏容量的不可见性。与现有的音频水印方案相比,该方案具有安全性好、鲁棒性强、嵌入容量大的优势,同时对于高斯噪声、重采样、带通滤波、回声、MP3、MP4压缩和剪切攻击都具有不错的抵抗力和健壮性。
赵雪娇[8](2021)在《基于深度哈希的密文语音检索方法及索引方案研究》文中指出随着云存储技术的发展及多媒体数据的暴增,云端数据检索方法研究成为热点话题。语音有着特殊的表义功能,蕴含着丰富的语义信息及内容感知信息,在法庭证据、军事机密等应用中发挥着至关重要的作用。为了保护这些重要的隐私数据,加密操作必不可少,但加密操作会给检索任务带来一定的挑战。因此,对云端密文语音检索方案的研究有着重大的研究价值。论文主要利用深度神经网络模型、哈希函数构造、语音信号处理等技术,对深度语义特征提取、深度哈希构造、语音分类、索引方案构建等关键技术展开了研究。主要研究工作如下:1.为了解决现有语音特征提取方法存在的手工特征表义性差、检索精度及检索效率较低等问题,提出了一种基于CNN和深度哈希的密文语音检索方法。首先利用Rossler混沌映射加密方法构建密文语音库;然后采用二次特征提取方法提取语音的语谱图特征和高级语义特征,并通过所设计的CNN网络模型生成深度哈希二值码用于检索任务;同时引入批量归一化方法(BN)来提高模型的鲁棒性和泛化能力。实验结果表明,该方法构造的深度哈希二值码具有很好的区分性和鲁棒性,在各种内容保持操作下仍具有较高的检索精度及检索效率。同时,采用的语音加密方法具有较高的密钥空间,可有效的抵御穷举攻击。2.为了解决传统分类方法分类精度低、分类模型构建复杂,并进一步提高语音特征表义性和检索效率等问题,提出了一种基于CNN/CRNN和深度哈希的密文语音分类检索方法。首先利用Rossler混沌映射加密方法构建密文语音库;然后提取语音Log-Mel谱图特征,并通过所设计的CNN/CRNN模型和构造的哈希函数生成语义特征哈希码和分类结果;最后,采用“二阶段”分类检索策略和归一化汉明距离算法实现匹配检索。实验结果表明,该方法提出的CNN/CRNN编码模型具有优异的特征学习性能,检索方法具有较好的查全率、查准率及检索效率。3.为了解决传统索引方法存在的索引数据结构模型复杂、查找效率低的问题,以及进一步提高检索效率和索引结构的可扩展性,设计了一种基于多哈希表的索引结构,并将其应用到密文语音检索系统中。首先在语义特征哈希上采用“哈希码分段”的思想,根据分段情况,生成几个不同的哈希索引表;然后在每段的哈希表中建立相应的多个子哈希索引表,从而实现多哈希表的并行检索;最后,采用一种逐步增大搜索半径的搜索方法,根据不同的检索需求,完成不同的检索任务。实验结果表明,该索引结构可以满足不同的数据量环境和检索需求,有着良好的可扩展性,并且具有较高的检索精度及检索效率。
Mohsin Ashraf[9](2021)在《基于卷积递归神经网络和残差学习的音乐分类算法研究》文中研究说明由于音乐数量的迅速增加,音乐分类的应用需求更为突出。音乐流派分类(MGC)是一种基于内容的音乐分析,在音乐检索中起着重要作用。虽然音乐分类算法已经取得了令人瞩目的成果,但在提高准确性、训练和超参数设置方面仍具挑战性。卷积神经网络(CNN)可提取低级特征,但不能保持长期依赖性。递归神经网络(RNN)虽可以保持长期依赖性,但仍存在梯度消失的问题,亟待研究音乐数据库智能高效的技术。本文研究具有适当归一化、正则化和平衡超参数设置的深度神经体系结构,以用于音乐分类和模型训练。主要研究进展如下:(1)为解决层数过多而导致的模型复杂问题,提出了一种结合CNN和残差学习的改进方法用于音乐流派分类。此方法用梅尔频谱图作为输入,使用不同池化技术的CNN层来提供更丰富的分类信息。残差学习使用的卷积网络跳过了不重要的学习步骤,从而避免了网络的复杂性。该模型在GTZAN和FMA数据集上进行的实验表明,两个数据集的分类准确度分别为87.80%和68.50%。(2)为解决网络训练复杂度和分类精度问题,提出了一种基于全局层归一化的CNN和RNN混合模型。CNN使用质谱图自动提取低级特征,从而消除了对人工干预的需求,而RNN执行时间聚合并保持长期依赖性。层归一化有效地代替了传统的批量归一化。将统计信息与功能维度一起计算,提高了音乐数据隐藏状态的动态性。实验结果表明,全局归一化联合神经体系结构改进了模型训练,该模型在GTZAN和FMA数据集上的平均准确度分别为89.79%和68.78%,提高了分类准确性。(3)为解决音乐分类中RNN梯度消失的问题,提出了一种结合CNN和改进RNN的混合模型。RNN的改进包括有长短期记忆LSTM、双向长短期记忆Bi-LSTM、门控循环单元GRU和双向门控循环单元Bi-GRU。本文使用MFCC和梅尔谱图特征,比较了不同的网络结构,并比较了所提出混合模型的性能。基于GTZAN数据集的实验表明,CNN和LSTM的混合模型对于MFCC特征的分类准确率达到了76.40%,而CNN和Bi-GRU的组合获得了89.40%的准确率。
杨贵安[10](2021)在《广播台标识别技术研究及工程实现》文中进行了进一步梳理无线电广播是基础性战略资源,是信息通信、交通运输、国防军事和社会经济发展的重要生产要素。本文对我国广播监测实际工程中的主要任务及广播台标特点进行了详细分析,对现有采用音频检索和语音识别实现广播台标识别的技术进行研究,并分析了传统人工监测广播台标方式和现有自动化广播台标识别技术所存在的问题和不足之处。为了达到广播台标学习和识别的目的,解决因传输链路中噪声干扰造成识别准确率下降的问题,本文提出了一种具有自适应台标学习能力的广播台标识别算法。针对现有基于音频检索实现的广播台标识别技术需人工添加台标库、算法鲁棒性不佳、识别效率低的不足,该算法利用倒谱对两段含有台标信息的广播信号混合后的对数谱中等距离成分具有敏感辨识能力的特点进行广播台标学习和识别;以多个真实广播节目整点时刻的信号为音源进行实时采集,通过倒谱分析出同一广播节目下多段不同整点时刻所采集音频中高度相似的音频段及该音频段出现的起始时间点,即广播台标自动学习结果,并将学习结果放入台标库;先后通过倒谱分析广播台标样本和台标库中所有台标的相似度,计算得出最高相似度所对应台标即为广播台标样本识别结果。对所提算法通过实验进行性能测试,结果证明,所提算法在不同信噪比的加性高斯白噪声条件下表现出了较好的抗噪性能,特别是在低信噪比下(SNR小于等于5dB),仍可以达到95.88%的广播台标识别准确率,且识别效率相较于现有算法更加符合广播实时监播的要求。最后,本文采用搭载Linux系统的树莓派4B开发板和USB音频采集卡,通过Linux系统的高级声音架构ALSA驱动音频采集卡采集实时音频流并提出将基于倒谱和基于Shazam的算法融合进行台标识别,测试了融合算法移植到嵌入式系统上的实际运行效果,从而验证了算法的工程实用性价值,实现了对广播节目的实时监测,保障了广播发射安全。
二、关于MP3和Real Audio(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、关于MP3和Real Audio(论文提纲范文)
(1)基于GAN的多模态信息隐藏研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 研究内容及工作 |
1.3 论文组织架构 |
第二章 相关研究综述 |
2.1 传统的音频隐写算法 |
2.1.1 基于HAS原则的技术 |
2.1.2 基于LSB替换的技术 |
2.1.3 线性预测编码技术 |
2.1.4 扩频技术 |
2.1.5 小波域处理技术 |
2.1.6 相位隐藏 |
2.1.7 回声隐藏技术 |
2.1.8 MP3数据隐藏技术 |
2.2 基于深度学习的音频隐写算法 |
2.3 音频隐写算法总结 |
2.4 传统的图像隐写算法 |
2.5 基于深度学习的图像隐写算法 |
2.6 基于深度学习的隐写算法总结 |
第三章 基于卷积神经网络的可视化音频隐写模型 |
3.1 音频的可视化处理 |
3.2 自动编码器具体结构 |
3.2.1 编码器与解码器结构 |
3.2.2 损失函数 |
3.3 实验过程与结果分析 |
3.3.1 数据集 |
3.3.2 参数设置 |
3.3.3 训练过程 |
3.3.4 结果分析 |
3.4 鲁棒性分析 |
3.5 本章小结 |
第四章 基于生成对抗网络的多模态隐写模型 |
4.1 生成对抗网络 |
4.2 多模态信息隐藏模型具体结构 |
4.2.1 训练过程 |
4.3 实验过程与结果分析 |
4.4 本章小结 |
第五章 总结与展望 |
5.1 工作总结 |
5.2 不足与改进 |
第六章 参考文献 |
致谢 |
(2)高信噪比环境下的高隐蔽性音频信息隐藏算法研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 本文主要研究工作和内容安排 |
1.4 本章小结 |
第二章 音频信息隐藏技术综述 |
2.1 人类听觉系统与心理声学模型 |
2.1.1 人类听觉系统 |
2.1.2 心理声学模型 |
2.2 音频信息隐藏技术 |
2.2.1 系统框架 |
2.2.2 经典算法介绍 |
2.3 性能指标 |
2.3.1 鲁棒性 |
2.3.2 隐蔽性 |
2.3.3 隐藏容量 |
2.4 本章小结 |
第三章 高隐蔽性的音频信息隐藏算法 |
3.1 关键问题描述 |
3.1.1. 时域与变换域的选择 |
3.1.2. 生成数字水印 |
3.1.3. 确定嵌入强度 |
3.2 基于扩频的音频信息隐藏算法 |
3.2.1 技术流程框架 |
3.2.2 计算嵌入强度 |
3.2.3 基于扩频的差分编解码算法 |
3.3 基于PATCHWORK的非均匀嵌入算法 |
3.3.1 信息嵌入 |
3.3.2 嵌入信息后的子块平稳性 |
3.3.3 信息提取 |
3.4 仿真结果与性能比较 |
3.4.1. 隐蔽性 |
3.4.2. 鲁棒性 |
3.5 本章小结 |
第四章 音频信息隐藏系统的设计与软件实现 |
4.1 发送端的软件设计与实现 |
4.1.1 音频文件信息嵌入设计 |
4.1.2 实时录音信息嵌入设计 |
4.1.3 发送端其他模块的介绍 |
4.1.4 软件运行效果图 |
4.2 接收端的软件设计与实现 |
4.2.1 音频文件信息提取设计 |
4.2.2 实时录音信息提取设计 |
4.2.3 接收端其他模块设计 |
4.2.4 软件运行效果图 |
4.3 双声道混合问题 |
4.3.1 问题描述 |
4.3.2 解决方案 |
4.3.3 测试结果 |
4.4 本章小结 |
第五章 工作总结与展望 |
5.1 论文工作总结 |
5.2 未来展望 |
参考文献 |
缩略语列表 |
致谢 |
(3)基于媒体特征分析的自适应音视频水印关键技术研究(论文提纲范文)
摘要 |
Abstract |
常用缩略词表 |
常用符号表 |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 数字水印技术概述 |
1.2.1 数字水印系统模型 |
1.2.2 数字水印的分类 |
1.2.3 数字水印的应用 |
1.2.4 数字水印的性能特征 |
1.2.5 音视频水印攻击类型 |
1.2.6 数字水印性能评价指标 |
1.3 国内外研究现状 |
1.3.1 音频水印算法研究现状 |
1.3.2 视频水印算法研究现状 |
1.3.3 存在的问题 |
1.4 本文主要研究内容 |
1.5 本文结构安排 |
第2章 基于音频信号自适应分段与嵌入强度优化的双通道音频水印算法 |
2.1 引言 |
2.2 音频信号自适应分段 |
2.3 音频信号双通道特征信息构建 |
2.4 水印嵌入方法 |
2.5 水印提取方法 |
2.6 水印嵌入强度优化 |
2.7 实验结果 |
2.7.1 水印不可感知性评价 |
2.7.2 水印鲁棒性评价 |
2.8 本章小结 |
第3章 基于离散小波包变换的双域音频水印算法 |
3.1 引言 |
3.2 音频节拍检测与自适应分段 |
3.3 音频信号双域划分与水印嵌入位置选择 |
3.4 水印嵌入与提取 |
3.4.1 水印嵌入规则 |
3.4.2 自适应嵌入强度计算 |
3.4.3 水印嵌入方法 |
3.4.4 水印提取方法 |
3.5 实验结果 |
3.5.1 水印不可感知性评价 |
3.5.2 水印鲁棒性评价 |
3.6 本章小结 |
第4章 针对MPEG-4 SLS格式的无损压缩音频水印算法 |
4.1 引言 |
4.2 相关技术介绍 |
4.3 水印嵌入与提取 |
4.3.1 嵌入失真允许阈值 |
4.3.2 显着状态与嵌入位置选择 |
4.3.3 水印嵌入方法 |
4.3.4 水印提取方法 |
4.4 实验结果 |
4.4.1 水印不可感知性评价 |
4.4.2 水印鲁棒性评价 |
4.5 本章小结 |
第5章 基于时-空域特征与视觉密码的视频零水印算法 |
5.1 引言 |
5.2 有限状态机设计与关键帧选择 |
5.2.1 视频镜头分割 |
5.2.2 有限状态机运行规则 |
5.3 视频时-空域特征信息提取 |
5.3.1 Harris-Laplace角点检测 |
5.3.2 时域特征数据集构建 |
5.3.3 频域特征数据集构建 |
5.4 Ownership share的产生与水印提取 |
5.4.1 Ownership share的产生 |
5.4.2 水印提取方法 |
5.5 实验结果 |
5.6 本章小结 |
第6章 基于深度图像渲染的3D视频水印算法 |
6.1 引言 |
6.2 相关技术简介 |
6.2.1 DIBR系统 |
6.2.2 SIFT特征点检测 |
6.3 水印嵌入位置选择 |
6.3.1 视频场景分割 |
6.3.2 SIFT特征点跨帧匹配 |
6.3.3 匹配向量概率分布 |
6.3.4 匹配向量主方向和水印嵌入位置选择 |
6.4 水印嵌入与提取方法 |
6.4.1 改进的扩频水印嵌入方法 |
6.4.2 在中心视图中嵌入水印 |
6.4.3 从左右视图中提取水印信息 |
6.5 实验结果 |
6.5.1 水印不可感知性评价 |
6.5.2 水印鲁棒性评价 |
6.6 本章小结 |
第7章 总结与展望 |
7.1 本文工作总结 |
7.2 研究展望 |
参考文献 |
作者在读期间科研成果简介 |
致谢 |
(4)生物特征模板在语音认证与检索算法中的研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 研究的背景与意义 |
1.2 国内外现状 |
1.2.1 语音认证技术研究现状 |
1.2.2 语音检索技术研究现状 |
1.3 存在的问题及分析 |
1.4 主要研究内容与创新工作 |
1.5 本文结构 |
第2章 相关理论 |
2.1 音频格式分类 |
2.2 语音生物哈希技术 |
2.2.1 语音生物哈希构造原理及其应用 |
2.3 特征提取技术 |
2.3.1 线性预测最小均方差 |
2.3.2 离散余弦变换 |
2.3.3 改进的Mel能量 |
2.4 改进的SHA256 |
2.5 混沌测量矩阵 |
2.6 本章小结 |
第3章 多格式语音感知哈希认证算法的构建 |
3.1 引言 |
3.2 基于感知哈希的多格式语音认证 |
3.2.1 短时对数能量和改进的Mel能量参数融合算法(LME算法) |
3.2.2 频带方差算法(FBV算法) |
3.2.3 能零比和频带方差参数融合算法(LZV算法) |
3.3 实验结果分析 |
3.3.1 区分性测试与分析 |
3.3.2 鲁棒性测试与分析 |
3.3.3 安全性分析 |
3.3.4 篡改与定位 |
3.3.5 效率分析 |
3.4 本章小结 |
第4章 基于生物哈希的语音认证与检索算法 |
4.1 引言 |
4.2 基于生物哈希的多格式语音认证 |
4.2.1 基于语谱图的多格式语音生物哈希认证算法(SMBH算法) |
4.2.2 基于参数融合的多格式语音生物哈希认证算法(LPZMBH算法) |
4.3 基于生物哈希的密文语音检索 |
4.3.1 基于特征融合的长序列生物哈希密文语音检索(FLBHR算法) |
4.4 实验结果分析 |
4.4.1 区分性测试与分析 |
4.4.2 鲁棒性测试与分析 |
4.4.3 单向性 |
4.4.4 认证性能分析 |
4.4.5 检索性能分析 |
4.5 本章小结 |
第5章 总结与展望 |
参考文献 |
致谢 |
个人简历、在学期间发表的学术论文 |
(5)基于多特征融合的长序列语音感知哈希认证方法研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 存在的问题及分析 |
1.4 论文的主要研究内容和创新点 |
1.5 论文的组织结构与安排 |
第2章 相关理论知识 |
2.1 语音感知哈希认证技术 |
2.1.1 语音感知哈希认证原理 |
2.1.2 语音感知哈希认证框架 |
2.1.3 语音感知哈希认证性能评估 |
2.2 语音感知特征提取技术 |
2.3 生物哈希认证技术 |
2.4 本章小结 |
第3章 长序列语音感知哈希认证 |
3.1 引言 |
3.2 基于多特征融合和Arnold变换的长序列语音感知哈希认证算法 |
3.2.1 梅尔倒谱系数(MFCC) |
3.2.2 离散小波变换(DWT) |
3.2.3 Arnold变换 |
3.2.4 方案描述 |
3.2.5 实验结果与性能分析 |
3.3 基于恒Q变换和张量分解的长序列语音感知哈希认证算法 |
3.3.1 均匀子带集方差 |
3.3.2 张量分解 |
3.3.3 方案描述 |
3.3.4 实验结果与性能分析 |
3.4 两种语音认证方法的性能对比分析 |
3.4.1 鲁棒性和区分性分析 |
3.4.2 实时性分析 |
3.5 本章小结 |
第4章 基于2D-SIMM和 GFCC的长序列生物哈希认证 |
4.1 .引言 |
4.2 相关理论 |
4.2.1 CQCC |
4.2.2 GFCC |
4.2.3 余弦相似性定理 |
4.2.4 2D-SIMM |
4.3 生物哈希认证方案 |
4.3.1 注册阶段 |
4.3.2 认证阶段 |
4.4 实验结果及分析 |
4.4.1 数据库 |
4.4.2 区分性测试与分析 |
4.4.3 鲁棒性测试与分析 |
4.4.4 真实噪声环境下的匹配率测试与分析 |
4.4.5 单向性和安全性的测试与分析 |
4.4.6 可撤销性分析 |
4.4.7 实时性 |
4.5 本章小结 |
第5章 总结和展望 |
参考文献 |
致谢 |
个人简历、在学期间发表的学术论文及研究成果 |
(6)基于音频合成模型的隐写算法与协议研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景与意义 |
1.2 相关研究现状 |
1.2.1 传统隐写算法 |
1.2.2 生成式隐写 |
1.2.3 音频隐写 |
1.3 本文研究内容 |
1.4 论文的结构安排 |
第2章 相关理论与方法 |
2.1 隐写术 |
2.1.1 隐蔽通信模型 |
2.1.2 隐写方法评价指标 |
2.2 隐写编码理论 |
2.2.1 最小化失真隐写 |
2.2.2 隐写编码 |
2.2.3 STC编码 |
2.3 音频合成技术 |
2.3.1 语音合成模型 |
2.3.2 深度生成模型 |
2.4 音频隐写分析 |
2.4.1 音频隐写分析系统 |
2.4.2 隐写分析特征 |
2.4.3 集成分类器 |
2.5 本章小结 |
第3章 载体可重现的音频隐写算法 |
3.1 引言 |
3.1.1 自适应隐写和失真定义 |
3.1.2 研究动机 |
3.2 音频隐写算法 |
3.3 算法测试与结果分析 |
3.3.1 实验设置 |
3.3.2 隐写分析测试结果 |
3.4 本章小结 |
第4章 基于音频合成的安全隐写算法与协议 |
4.1 引言 |
4.2 基于WaveNet语音生成模型的隐写算法 |
4.2.1 WaveNet语音生成模型 |
4.2.2 安全隐写算法 |
4.2.3 安全性讨论 |
4.3 隐蔽通信协议 |
4.3.1 公钥隐写协议 |
4.3.2 全流程隐蔽通信协议 |
4.4 算法测试与结果分析 |
4.4.1 实验设置 |
4.4.2 安全隐写算法实验结果 |
4.4.3 公钥隐写实验结果 |
4.5 本章小结 |
第5章 总结与展望 |
5.1 论文总结 |
5.2 未来工作展望 |
参考文献 |
致谢 |
在读期间发表的学术论文与取得的研究成果 |
(7)基于神经网络的图像字幕和图像生成技术(论文提纲范文)
Dedication |
摘要 |
ABSTRACT |
Nomenclature |
Chapter 1 Introduction |
1.1 Research Background and Significance |
1.2 Literature Review |
1.3 Contribution of the Thesis |
1.4 Organization of the Thesis |
1.5 Summary |
Chapter 2-Research Background of Image Captioning |
2.1 Overview |
2.2 Computer Vision (CV) |
2.3 Image Processing |
2.4 Deep Neural Networks (DNNs) |
2.4.1 Convolutional Neural Networks (CNNs) |
2.4.2 Recurrent Neural Networks (RNNs) |
2.4.3 Long Short Term Memory (LSTM) |
2.5 Natural Language Processing (NLP) |
2.6 Evaluation Methods for Image Captioning |
2.6.1 Bilingual Evaluation Understudy (BLEU) |
2.6.2 Recall-Oriented Understudy for Gisting Evaluation (ROGUE) |
2.6.3 Metric for Evaluation of Translation with Explicit Ordering (METEOR) |
2.6.4 Consensus-based Image Description Evaluation (CIDEr) |
2.6.5 SPICE |
2.6.6 Word Mover's Distance(WMD) |
2.6.7 Human Evaluations |
2.7 Summary |
Chapter 3-Research Background of Image Security |
3.1 Introduction |
3.2 Arnold Encryption (AE) |
3.3 Bose-Chaudhuri-Hocquenghem (BCH) |
3.4 Dual-Tree Complex Wavelet Transfer (DTCWT) |
3.5 Short Time Foruier Transfer (STFT) |
3.6 Singular Value Decomposition (SVD) |
3.7 Datasets |
3.8 Measurement Techniques |
3.9 Signal Processing Attacks |
3.10 Input watermark images |
3.11 Summary |
Chapter 4-Image Captions:Global-Local Using Joint Attention Model |
4.1 Introduction |
4.2 Preliminaries |
4.3 Problem Statement |
4.4 Proposed Methodology |
4.5 Training and Testing Phase |
4.6 Experimental Results |
4.6.1 Experimental Setup |
4.6.2 Dataset |
4.6.3 Evaluation Methods |
4.7 Compared Models |
4.8 Quantitative Analysis |
4.9 Qualitative Analysis |
4.10 Summary |
Chapter 5 Digital Image Descriptor for Children's Independent Learning Using CNN and LSTM |
5.1 Introduction |
5.2 Problem Statement |
5.3 Proposed Methodology |
5.3.1 Image and text pre-processing |
5.3.2 Feature extraction |
5.3.3 Sequence Processor |
5.3.4 Sentence Generation |
5.4 Training and Testing Phase |
5.5 Experimental Results |
5.5.1 Experimental Setup |
5.5.2 Datasets |
5.5.3 Flickr8k~1 |
5.5.4 Stanford Dogs Dataset~2 |
5.5.5 Data Augmentation |
5.5.6 3K-Flickr-SDD Dataset |
5.5.7 Simplified Version of 3K-Flickr-SDD Dataset |
5.5.8 Comprehensive Version of 3K-Flickr-SDD Dataset |
5.6 Evaluation Methods |
5.6.1 Quantitative Analysis |
5.6.2 Qualitative Analysis |
5.7 Summary |
Chapter 6 Audio Watermarking for Image Hiding using SVD |
6.1 Introduction |
6.2 Problem Statement |
6.3 Preliminaries |
6.4 Proposed Methodology |
6.4.1 Watermark Encryption and Decomposition Principle |
6.4.2 Host Audio Signal Decomposition Principle |
6.4.3 Watermark Embedding and Composing Principle |
6.4.4 Watermark Extraction and Decryption Algorithm |
6.5 Experimental Results |
6.6 Effect of DTCWT over DWT |
6.7 Embedding Into Different Detail Coefficients of DTCWT |
6.8 Performance Analysis with and without Attacks |
6.8.1 Capacity Analysis |
6.8.2 Robustness Analysis without Attack |
6.8.3 Security Analysis without Attack |
6.8.4 Robustness Analysis with Attacks |
6.8.5 Security Analysis with Attacks |
6.8.6 Imperceptibly Analysis without Attack |
6.8.7 Imperceptibly Analysis with Attack |
6.8.8 Encryption and Decryption of Test Images |
6.9 Summary |
Chapter 7 Audio Watermarking for Image Hiding using DTCWT-DCT-SVD |
7.1 Introduction |
7.1.1 Discrete Cosine Transform (DCT) |
7.2 Proposed Methodology |
7.2.1 Watermark Encryption and Decomposition Principle |
7.2.2 Host Audio Signal Decomposition Principle |
7.2.3 Watermark Embedding Principle |
7.2.4 Watermark Extraction and Decryption Principle |
7.3 Experimental Results |
7.3.1 Experimental Setup |
7.3.2 Effect of DTCWT over DWT |
7.3.3 Effect of Watermarking with Different Sub-bands of DTCWT |
7.3.4 Capacity Analysis |
7.3.5 Performance Analysis without and with Attacks |
7.3.6 Robustness Analysis without Attacks |
7.3.7 Security Analysis without Attacks |
7.3.8 Robustness Analysis with Attacks |
7.3.9 Security Analysis with Attacks |
7.3.10 Imperceptibility Analysis without Attacks |
7.3.11 Imperceptibility Analysis with Attacks |
7.3.12 Waveform and Spectrogram Comparisons |
7.3.13 Encryption and Decryption of Test Images |
7.4 Summary |
Chapter 8 Conclusion and Future Direction |
8.1 Conclusions |
8.2 Recommendation for Future Work |
References |
Acknowledgments |
List of Publications |
(8)基于深度哈希的密文语音检索方法及索引方案研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题的研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 密文语音检索技术研究现状 |
1.2.2 语音特征提取、分类及索引方法研究现状 |
1.2.3 语音加密方法研究现状 |
1.3 现有研究存在的问题与分析 |
1.4 论文的主要研究内容与创新点 |
1.5 论文的组织结构与安排 |
第2章 相关理论知识 |
2.1 语谱图特征 |
2.2 Log-Mel谱图特征 |
2.3 卷积神经网络(CNN) |
2.4 循环神经网络(RNN) |
2.5 深度哈希方法 |
2.6 基于Rossler映射的混沌加密系统 |
2.7 本章小结 |
第3章 基于CNN和深度哈希的密文语音检索方法 |
3.1 引言 |
3.2 密文语音检索系统模型 |
3.3 密文语音检索方案描述 |
3.3.1 构建密文语音库 |
3.3.2 深度哈希二值码生成模型 |
3.3.3 哈希函数学习 |
3.3.4 深度哈希二值码构造 |
3.3.5 语音检索及解密 |
3.4 实验结果与性能分析 |
3.4.1 实验环境及主要参数设置 |
3.4.2 模型准确率分析 |
3.4.3 m AP分析 |
3.4.4 区分性分析 |
3.4.5 鲁棒性分析 |
3.4.6 检索性能分析 |
3.4.7 检索效率分析 |
3.4.8 安全性分析 |
3.5 本章小结 |
第4章 基于CNN/CRNN和深度哈希的密文语音分类检索方法 |
4.1 引言 |
4.2 密文语音分类检索系统模型 |
4.3 密文语音分类检索方案描述 |
4.3.1 构建密文语音库 |
4.3.2 深度哈希编码模型 |
4.3.3 哈希函数学习 |
4.3.4 深度哈希二值码构造 |
4.3.5 语音检索及解密 |
4.4 实验结果与性能分析 |
4.4.1 实验环境及主要参数设置 |
4.4.2 深度哈希编码模型性能分析 |
4.4.3 m AP分析 |
4.4.4 检索性能分析 |
4.4.5 检索效率分析 |
4.5 本章小结 |
第5章 基于多哈希表索引的密文语音检索方法 |
5.1 引言 |
5.2 密文语音检索系统模型 |
5.3 基于多哈希表索引的密文语音检索方案描述 |
5.3.1 多哈希表索引结构的设计 |
5.3.2 多哈希表并行检索方案描述 |
5.3.3 搜索算法的实现 |
5.4 实验结果与性能分析 |
5.4.1 实验环境及主要参数设置 |
5.4.2 检索性能分析 |
5.4.3 检索效率分析 |
5.5 本文所提三种检索方法的性能对比 |
5.5.1 深度哈希编码模型的m AP对比 |
5.5.2 检索效率对比 |
5.6 本章小结 |
总结和展望 |
参考文献 |
致谢 |
附录 A 攻读硕士学位期间发表的学术论文 |
附录 B 攻读硕士学位期间参与的科研项目 |
(9)基于卷积递归神经网络和残差学习的音乐分类算法研究(论文提纲范文)
摘要 |
ABSTRACT |
List of Abbreviations |
Chapter 1 General Introduction |
1.1 Research Background and Significance |
1.1.1 Significance of Music Classification |
1.1.2 Aims and Motivations |
1.2 Research Status at Home and Abroad |
1.2.1 Global Growth and Revenue of Music |
1.2.2 Music Characteristics and Classification Algorithm Status |
1.2.3 Early Research on early effective Music classification techniques |
1.2.4 Research Status of Music Classification Based on Deep Learning |
1.2.5 Global Application Research of Music Classification |
1.3 Major Contributions |
1.4 Research Content |
1.5 Chapter Summary |
Chapter2 Technical Background |
2.1 Artificial Neural Networks(ANNs) |
2.1.1 Convolutional Neural Network(CNNs) |
2.1.2 Recurrent Neural Networks(RNNs) |
2.1.3 Bi-Directional Recurrent Neural Network |
2.1.4 Long Short-Term Memory(LSTM) |
2.1.5 Bi-Directional Long Short-Term Memory(Bi-LSTM) |
2.1.6 Gated Recurrent Unit(GRU) |
2.1.7 Bi-Directional Gated Recurrent Unit(Bi-GRU) |
2.1.8 Normalization |
2.1.9 Regularization |
2.1.10 Mini Batching |
2.2 Residual Learning |
2.2.1 Problem with a Large Number of Layers |
2.2.2 Solving Vanishing Gradient Problem |
2.3 Audio Data Representation |
2.3.1 Audio Signal |
2.3.2 Short-Time Fourier Transform(STFT) |
2.3.3 Mel-Spectrogram |
2.4 Music Classification |
2.4.1 Machine and Deep Learning in Music Classification |
2.4.2 Performance Measures for Music classification |
2.4.3 Music Preprocessing |
2.4.4 Mel-Spectrograms |
2.5 System Requirements |
2.5.1 Software Specifications |
2.5.2 Hardware Specifications |
2.6 Chapter Summary |
Chapter 3 Music Genre Classification with Modified Residual Learning and Deep Neural Networks |
3.1 Overview |
3.2 Literature Review |
3.3 Modified Residual Learning and Deep Neural Network |
3.3.1 Generating Mel-Spectrograms |
3.3.2 Dual CNN Architecture |
3.3.3 Residual Network Block |
3.3.4 Concatenation and Output |
3.4 Datasets& Experiments |
3.4.1 GTZAN Dataset |
3.4.2 Free Music Achieve(FMA)Dataset |
3.4.3 Experiments |
3.5 Results and Discussion |
3.6 Chapter Summary |
Chapter4 Music Classification using Hybrid Neural Networks through Global Layer Regularization |
4.1 Overview |
4.2 Literature Review |
4.3 The Globally Regularized CNN-RNN Architecture |
4.3.1 Generating Mel-Spectrogram |
4.3.2 Using CNNs to Extract Features |
4.3.3 Using RNNs to perform Temporal Aggregation |
4.3.4 Global Layer Regularization(GLR) |
4.4 Experiments |
4.4.1 Dataset Description |
4.4.2 Baseline Models |
4.4.3 Experimental Setup |
4.4.4 Result and Analysis |
4.5 Discussion |
4.6 Chapter Summary |
Chapter 5 Music Classification using Hybrid CNN and Variants of RNN |
5.1 Overview |
5.2 Related Work |
5.3 Methodology |
5.3.1 Proposed Hybrid Architecture |
5.3.2 Dataset |
5.3.3 Data Preprocessing |
5.3.4 Feature Extraction |
5.4 Learning Algorithm |
5.5 Experimental Setup |
5.6 Result with different Feature Extraction and Learning Algorithms |
5.7 Chapter Summary |
Conclusion& Future Work |
6.1 Conclusion |
6.2 Future Work |
References |
Acknowledgement |
Research Achievements |
(10)广播台标识别技术研究及工程实现(论文提纲范文)
摘要 |
Abstract |
符号说明 |
第一章 绪论 |
1.1 研究背景和意义 |
1.1.1 广播监测的需求 |
1.1.2 广播音频信号处理 |
1.1.3 广播台标的监测 |
1.2 国内外广播台标识别研究现状 |
1.3 论文创新点 |
1.4 论文主要工作 |
1.5 本章小结 |
第二章 广播台标音频信号的基本处理 |
2.1 传统人工监测广播台标的方式 |
2.2 广播台标音频信号特点分析 |
2.2.1 广播台标音频信号要素 |
2.2.2 广播台标音频信号的数字化储存 |
2.3 广播台标音频信号常用预处理方法 |
2.3.1 分帧 |
2.3.2 加窗 |
2.3.3 语音信号分离 |
2.4 广播台标识别技术难点 |
2.5 本章小结 |
第三章 基于音频检索的广播台标识别 |
3.1 音频检索技术 |
3.1.1 基于内容的音频检索 |
3.1.2 基于内容的音频检索框架 |
3.2 音频的统计特征 |
3.2.1 时域中的音频信号特征 |
3.2.2 频域中的音频信号特征 |
3.2.3 倒频域中的音频信号特征 |
3.3 Shazam音频检索算法 |
3.3.1 提取音频指纹 |
3.3.2 样本音频检索 |
3.4 广播台标识别评价指标 |
3.5 基于MFCC的广播台标识别 |
3.6 基于Shazam的广播台标识别 |
3.7 实验结果及分析 |
3.7.1 基于MFCC的广播台标识别实验 |
3.7.2 基于Shazam的广播台标识别实验 |
3.8 本章小结 |
第四章 基于音频检索的倒谱分析广播台标识别算法 |
4.1 倒谱 |
4.2 通过倒谱分析学习和识别广播台标 |
4.2.1 整体结构 |
4.2.2 倒谱分析音频信号相似度的原理 |
4.2.3 基于倒谱分析的广播台标学习 |
4.2.4 基于倒谱分析的广播台标识别 |
4.3 大样本广播台标识别算法对比实验及分析 |
4.3.1 广播台标学习实验 |
4.3.2 广播台标识别实验 |
4.4 本章小结 |
第五章 广播台标识别算法的嵌入式实现 |
5.1 嵌入式采集广播音频 |
5.1.1 设置音频采集卡别名 |
5.1.2 Linux高级声音架构ALSA |
5.1.3 树莓派采集实时音频 |
5.2 音频文件处理 |
5.2.1 音频文件声道分离 |
5.2.2 音频文件读取 |
5.3 树莓派实现广播台标识别 |
5.3.1 树莓派实现基于倒谱分析的广播台标学习算法 |
5.3.2 树莓派实现基于Shazam的广播台标识别算法 |
5.3.3 树莓派实现基于倒谱分析的广播台标识别算法 |
5.3.4 广播台标识别算法融合 |
5.4 嵌入式广播台标识别实际运行测试 |
5.4.1 广播台标学习实验 |
5.4.2 广播台标识别融合算法实验 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 本文总结 |
6.2 未来展望 |
致谢 |
参考文献 |
附录A:攻读硕士学位期间参与项目及科研成果 |
四、关于MP3和Real Audio(论文参考文献)
- [1]基于GAN的多模态信息隐藏研究[D]. 董浩. 北京邮电大学, 2021(01)
- [2]高信噪比环境下的高隐蔽性音频信息隐藏算法研究[D]. 刘钊宏. 北京邮电大学, 2021(01)
- [3]基于媒体特征分析的自适应音视频水印关键技术研究[D]. 罗一帆. 四川大学, 2021(01)
- [4]生物特征模板在语音认证与检索算法中的研究[D]. 王勇. 西北师范大学, 2021(12)
- [5]基于多特征融合的长序列语音感知哈希认证方法研究[D]. 侯贺祥. 西北师范大学, 2021(12)
- [6]基于音频合成模型的隐写算法与协议研究[D]. 李梦涵. 中国科学技术大学, 2021(09)
- [7]基于神经网络的图像字幕和图像生成技术[D]. Syeda Nuzhat Subi Naqvi. 中国科学技术大学, 2021(09)
- [8]基于深度哈希的密文语音检索方法及索引方案研究[D]. 赵雪娇. 兰州理工大学, 2021(01)
- [9]基于卷积递归神经网络和残差学习的音乐分类算法研究[D]. Mohsin Ashraf. 西北大学, 2021(11)
- [10]广播台标识别技术研究及工程实现[D]. 杨贵安. 昆明理工大学, 2021(01)