一、汉字字形向量轮廓压缩算法的设计与实现(论文文献综述)
肖雪,李成城[1](2022)在《手写汉字评价方法研究进展》文中进行了进一步梳理手写汉字评价推动了计算机辅助教学的快速发展,如何通过手写汉字评价技术,在无教师帮助的情况下实现手写汉字的等级/规范性评价是当前研究的重点。对手写汉字评价相关概念以及发展趋势进行阐述;对手写汉字评价的不同研究方法进行详细介绍,包括基于规则、特征相似度计算、模糊矩阵以及机器学习等方面,并对各种方法的优缺点进行总结归纳;对手写汉字评价的反馈形式进行介绍,包括数据到文本生成、字形匹配与图形辅助等方面;分析手写汉字评价面临的多个问题,进一步思考其未来的发展。
田学东,杨琼,杨芳[2](2021)在《融合空间及通道注意网络的古籍汉字图像检索》文中提出古籍汉字图像检索是古籍汉字研究的有效工具.然而,古籍汉字字形复杂、书写风格多变的特点导致传统文字图像检索技术在应用于古籍汉字图像时效果欠佳.针对现有方法在古籍汉字图像特征提取时存在的字形结构细节信息和低层视觉特征提取问题,设计了一种融合空间注意力和通道注意力网络高低层特征的古籍汉字图像检索模型.首先,融合空间注意力的低维特征和通道注意力的高维特征,捕捉古籍汉字空间结构间的依赖关系,提取更丰富的古籍汉字语义特征信息;其次,构建inception残差结构模块,丰富古籍汉字图像特征的感受野,使网络模型更易优化,保留足够的古籍汉字细节信息;最后,运用加权交叉熵损失函数,解决数据集中存在的正负样本不平衡问题,增强检索模型的鲁棒性.在上下、左右、包围和独体结构古籍汉字图像数据集上检索实验的MAP(mean average precision)值分别为77.89%、79.89%、78.21%、80.75%,表明了方法的有效性.
吴湘平[3](2021)在《图像文本识别的关键技术研究》文中提出图像文本识别主要利用机器学习算法对图像上出现的印刷体或者手写体进行识别,然后转录为计算机能读取识别的文字。图像文本识别在机器自动化、人机交互、自动驾驶等领域具有广泛的应用,一直是计算机视觉领域的研究热点。近年来,随着深度学习的发展,深度神经网络在场景文本识别和手写识别等方面取得了巨大的成功。然而,图像文本识别仍是一个棘手的问题,主要面临以下挑战:1)对于复杂场景的字符识别,现有方法容易丢失字符结构信息和引入背景噪声;2)对于词识别,现有模型大多依赖词典驱动,难以应用到资源匮乏的语言上;3)对于文本行识别,存在序列过长导致识别性能下降的问题;4)对于具有大字符集的语言,模型复杂、参数庞大,难以应用到存储和计算受限的设备中。本文针对以上问题,主要从图像文本识别的关键技术:识别技术和压缩技术开展研究,其中识别技术包括图像中不同粒度的文本即字、词、句子的识别,最后使用压缩技术对识别模型进行优化,主要研究内容包括以下几个方面:第一,针对复杂场景字符识别中,容易丢失字符结构信息和引入背景噪声等问题,提出了基于语义分割的复杂场景字符识别方法。为了减少字符类标数量,该方法首先设计了一种基于五笔汉字编码的新类标编码方法,将汉字的字形和结构信息编码为140位类标,从而大大减轻了对大字符集类别进行识别的计算和存储需求。其次,采用有效的语义分割模型进行逐像素预测,并利用条件随机场模块来学习类五笔编码的约束规则。最后,在三个公开评测数据集上的实验结果表明,该方法在复杂场景字符识别任务达到了最新水平,并且对于遮挡、超低分辨率、超低对比度等复杂的场景具有鲁棒性。第二,针对词识别模型依赖词典驱动和外部语言资源的问题,提出了基于位置向量的无约束手写单词识别方法。该方法首先生成位置向量,并将位置向量作为单词相对应的字符序列的索引;接着,将提取到图像特征与每个位置向量相结合,送入序列识别网络用于识别相应的字符。最后,在两个国际公共语料库上均取得了最佳结果。实验结果表明,在没有任何语言资源的情况下,该方法的性能与集成丰富语言资源的模型相近,证明了该方法对其他资源匮乏语言识别的有效性和潜在能力。第三,针对文本行识别模型存在序列过长导致识别性能下降的问题,提出了基于自适应超图神经网络的手写文本行识别方法。该方法通过一种基于标签向量的自动超图学习机制来自动建模字符间的关系。首先,将字符标签当做超图的节点,一条超边连接两个或多个节点,表示字符之间的某种关系,使用标签向量来构造自适应超图。其次,使用语义解耦模块和超图神经网络来探索特征与语义之间的相互作用,以提高文本行识别性能。最后,为了验证模型的泛化性,将自适应超图神经网络扩展到多标签图像分类任务上。结果证明,提出的自适应超图神经网络具有建模语义依赖关系的能力。第四,针对大字符集的识别模型参数庞大,难以应用到资源有限设备上的问题,提出了图像文本识别模型的全连接层压缩方法。该方法引入压缩因子来压缩全连接层的神经元,这不仅可以消除特征冗余,而且可以共享分类神经元。它打破了输出神经元数量必须与分类网络中类别数量相一致的局限性,在一定程度上缓解了大类别分类的问题。与其他需要预训练模型和微调的方法相比,该方法可以直接在基线模型上构造和压缩网络以实现端到端的训练。最后,在手写汉字识别,复杂场景字符识别和图像分类等多个任务的实验结果表明,所提出的方法可以大大减少模型参数,同时保持最新的识别性能,特别是对于大类别分类任务。综上所述,本文围绕图像文本识别的关键技术进行深入研究和讨论。针对图像中不同粒度的文本即字、词、句子存在的问题,分别提出基于语义分割的复杂场景字符识别方法,基于位置向量的无约束手写单词识别方法和基于自适应超图神经网络的文本行识别方法。最后针对共同存在的大字符集识别问题,提出基于全连接层的参数共享方法对图像文本识别模型进行参数压缩。本文将所提出的方法在多个国际公开数据集上进行实验,最终均取得优异的性能。
杨琼[4](2021)在《基于注意力学习网络的古籍汉字图像检索模型》文中指出
高仕锦[5](2021)在《智能商标检测方法研究》文中指出
张法鑫[6](2021)在《垃圾评论过滤技术的研究及在Scratch作品评论管理系统中的应用》文中指出随着互联网的快速发展,社交平台的出现在便利了用户沟通与交流的同时也造成了广告、脏话等不良信息的产生与传播。传统的机器学习方法或神经网络对于检测具有显着敏感词汇的垃圾评论文本具有一定的成效,但是由于中文汉字的复杂性以及网络书写的随意性,用户会使用相对不规范不敏感的变体词汇来代替敏感词汇以逃避对垃圾评论的检测。由于变体词通常是某种隐喻,不再具有汉字表面的字词含义,会导致常规检测方法的失效,所以如何准确地识别变体词汇,做到对垃圾评论的有效检测与过滤就变得尤为重要。针对以上问题和挑战,本文在深入研究与分析中文文本表示方法、垃圾评论过滤方法与联合上下文信息文本分类方法的基础上,围绕中文短文本垃圾评论过滤的方法进行研究。首先针对垃圾评论中常见的变体字特征,提出了多文本特征联合嵌入的垃圾评论过滤模型,该模型从读音与字形的角度去捕捉敏感词的主体特征从而应对变体词多种多样的变体形式,在保证模型正确识别垃圾评论的同时减少对正常评论的误判。之后为了进一步提升垃圾评论的过滤效果,提出了联合用户历史评论与多文本特征的垃圾评论过滤模型,将评论文本上下文信息作为额外信息进行补充利用,增加了特征信息的多样性。为了验证两种算法的有效性,本文在Scratch作品评论数据集与商品评论数据集上进行了多组对比实验,实验的结果充分证明了本文所提模型的有效性。最后,基于上述模型和方法设计实现了 Scratch作品评论管理系统,配合评论管理机制,有效的遏制了垃圾评论的出现,为平台用户提供了 一个积极健康的学习氛围。
杜松波[7](2021)在《基于DHFS和DWFnet融合特征的古籍汉字图像检索》文中进行了进一步梳理古籍汉字图像检索能够辅助古籍汉字研究人员在研究过程中高效追溯相似字形,是古籍汉字相关研究的有效工具。然而,古籍文献年代久远导致版面退化以及古籍汉字字形结构复杂、字体种类繁多等特点影响了古籍汉字图像检索的准确性,现有的文字图像检索与识别技术对古籍汉字图像难以达到理想的检索效果。因此,针对古籍汉字图像特点以及传统文字图像检索技术的不足,提出基于DHFS(Dual Hesitant Fuzzy sets,对偶犹豫模糊集)和DWFnet(Discrete Wavelet Fusion network,离散小波融合网络)融合特征的古籍汉字图像检索方法。通过引入对偶犹豫模糊集、离散小波融合网络和典型相关分析,提取融合结构特征和深度特征的古籍汉字图像检索特征,构建古籍汉字图像检索模型。主要工作有:(1)古籍汉字图像结构特征提取利用对偶犹豫模糊集能够更全面表达不确定信息的优势,将其引入古籍汉字方向线素网格特征提取过程,建立相邻网格对于当前网格的多属性评价指标及其相应的隶属度和非隶属度函数,并利用对偶犹豫模糊熵计算各属性的权重,使所提取的对偶犹豫模糊方向线素特征更充分体现了古籍汉字结构属性。实验结果表明,对偶犹豫模糊方向线素特征比其他人工特征更能表述古籍汉字的结构特征。(2)古籍汉字图像深度特征提取提出了基于离散小波融合网络的古籍汉字图像特征提取方法,利用离散小波变换将卷积神经网络的低层特征和高层特征有效融合,并通过金字塔弹性池化将融合特征图压缩为古籍汉字图像的特征向量,避免了传统的卷积神经网络仅利用高层特征进行分类,忽视了低层网络细节特征的问题。实验表明,DWFnet可以提取更具判别信息的多层融合特征,提高古籍汉字图像的检索性能。(3)基于DHFS和DWFnet融合特征的古籍汉字图像检索模型提出基于DHFS和DWFnet融合特征的古籍汉字图像检索模型。根据主成分分析法将DWFnet特征进行降维处理,利用典型相关分析将对偶犹豫模糊方向线素特征和DWFnet特征进行融合,建立基于多融合特征的古籍汉字图像检索模型。实验表明,融合特征比单一特征具有更强的表征能力,更适用于古籍汉字图像检索。
王瀚博[8](2021)在《融合字形字义的命名实体识别方法研究》文中进行了进一步梳理命名实体识别是自然语言处理领域的基础技术。现有方法存在以下问题:在汉字表征层面,存在字结构语义利用不充分及罕见字表征能力差的问题;在命名实体识别模型层面,存在未充分利用汉字的字形字义特征、识别准确率低的问题。本文主要工作如下:(1)构建了汉字字形图像数据集和汉字字义数据集,为字形向量表征以及命名实体识别提供数据支持。利用爬虫、汉字图像自动生成技术获取汉字图像、拼音、基本释义、例词例句、相关词等数据,其中包含13000张汉字图像及10271条常用字基本释义。(2)提出了利用汉字结构特征的字形向量表征方法,解决了字结构语义利用不充分的问题,提升了罕见字的表征能力。首先使用字结构自编码器自动提取汉字结构特征,得到字形向量。然后通过观察法和量化分析验证了字形向量的有效性和完备性。最后进行了实验,结果表明:在中文分词实验中,字形向量与GloVe或Word2vec向量组合后,F1值分别提高了0.01%和0.09%;在短文本语义相似度计算实验中,字形向量F1值平均比GloVe和Word2vec分别提高了 0.17%和1.42%;在汉字表征实验中,字形向量的汉字表征能力优于Word2vec和GloVe,能够多表征13%的罕见字。(3)提出了融合字形字义的命名实体识别方法,提升了识别准确率。首先在对字形、字义以及上下文语义进行有效表征的基础上提出了多特征嵌入层,融合了字形和字义特征。然后结合多特征嵌入层、BiLSTM网络、CRF提出了融合字形字义的命名实体识别模型。最后进行了粗粒度和细粒度的命名实体识别实验。结果表明:在粗粒度和细粒度命名实体识别实验中,F1值比BiLSTM-CRF模型分别提高了 1.8%和0.43%。(4)建立了信息系统自动构建平台,对命名实体识别方法进行验证及应用。首先采用提出的命名实体识别方法对用户需求进行实体识别,提取数据库表名和属性两类实体。然后自动创建数据库表,利用代码生成器生成实体类、服务类、控制器类、视图类代码。最后进行了测试,结果表明:实体识别准确率达96%,平均响应时间小于4秒。综上所述,字形向量表征方法能自动提取字结构语义特征,提升了罕见字表征能力;融合字形字义的命名实体识别方法充分利用了汉字字形和字义特征,提高了识别准确率,能够满足实际应用需求。
王华敏[9](2021)在《基于音形义的中文字符串相似度检测算法研究》文中提出去重是数据清洗的一项重要工作,在去重前,我们需要先识别重复的数据,因此,数据的相似度检测研究得到越来越多的重视。目前存在许多字符串相似度检测的算法,主要用于拉丁字符串相似度检测。拉丁字符由26个字母组成,在处理时相对简单,而汉字是象形文字,在面对中文字符的相似度检测问题时,此类算法效果往往差强人意。因此研究出专门解决中文字符相似度检测问题的算法意义重大。中文字符具有音形义三大特征,许多研究者根据汉字的音形特征将汉字统一编码,然后用处理拉丁字符的算法进行处理。由于对汉字编码存在复杂性,以及未结合词义进行考虑,存在准确度不高、检测不全、无法同时结合音形义三大特征检测中文字符串相似度的问题。本文研究改进了基于音形码的中文字符串相似度检测算法,并将其与检测词义相似度的HowNet相结合,解决了无法同时从音形义检测中文字符串相似度的问题,最后将其运用于实际项目。具体研究问题如下:(1)汉字相似度检测的准确率与音形编码强相关,现有的音形编码存在不能细致描述汉字的问题,因而,算法结果不能很好的体现出汉字的差异性。针对此问题,本文在现有的中文字符相似度检测方法的基础上,根据汉字的发音与字形特点,改进音码与形码的编码方式,使得音码对汉字发音的描述更完整,形码对汉字字形的描述更细致。其次,基于改进音形码,本文提出汉字相似度检测算法。最后,通过实验验证了其有效性。(2)在计算中文字符串相似度时,如果像处理拉丁字符一样单纯考虑其编辑距离,则结果容易偏离实际。针对此问题,在汉字相似度检测算法的基础上,考虑到有些中文字符串字序改变,而意思可能不变的情况,结合加权编辑距离,提出了一种中文字符串相似度检测算法。(3)针对现有算法无法同时结合音形义特征检测中文字符串相似度的问题,在改进基于音形码的中文字符串相似度检测算法基础上,结合HowNet词义检测,提出了一种基于音形义的中文字符串相似度检测算法。(4)对设计的算法进行实现,并通过不同的方案进行仿真实验,最后应用于实际项目。实验与实践表明,所设计算法能够有效结合音形义三大特征进行中文字符串相似度检测。
杨丽娟[10](2021)在《基于风格迁移的手写西夏文字样本生成研究》文中研究说明
二、汉字字形向量轮廓压缩算法的设计与实现(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、汉字字形向量轮廓压缩算法的设计与实现(论文提纲范文)
(1)手写汉字评价方法研究进展(论文提纲范文)
1 文献统计及相关概念 |
1.1 文献统计 |
1.2 书写质量评价相关概念和一般框架 |
1.2.1 即时评价 |
1.2.2 事后评价 |
1.3 评价指标 |
1.3.1 人工评价 |
1.3.2 自动评价 |
2 手写汉字评价方法 |
2.1 基于规则的方法 |
2.2 基于特征相似度计算的方法 |
2.3 基于模糊矩阵的方法 |
2.4 基于机器学习的方法 |
2.4.1 基于深度学习的方法 |
2.4.2 基于机器学习的其他方法 |
2.5 小结 |
3 反馈形式 |
3.1 数据到文本生成 |
3.2 字形匹配 |
3.3 图形辅助 |
4 问题与挑战 |
5 结束语 |
(2)融合空间及通道注意网络的古籍汉字图像检索(论文提纲范文)
1 古籍汉字空间结构注意力机制 |
1.1 空间注意力(spatial attention, SAt) |
1.2 通道注意力(channel attention, CAt) |
2 古籍汉字空间结构注意力检索模型 |
3 实验分析 |
3.1 数据集及参数设置 |
3.2 损失函数 |
3.3 结果及分析 |
3.3.1 不同算法的检索结果 |
3.3.2 不同模型结果分析 |
4 结论 |
(3)图像文本识别的关键技术研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题的研究背景及意义 |
1.2 图像文本识别方法研究现状 |
1.2.1 字符识别研究现状 |
1.2.2 单词识别研究现状 |
1.2.3 文本行识别研究现状 |
1.2.4 模型压缩研究现状 |
1.3 论文的研究内容及创新点 |
1.3.1 研究内容概述 |
1.3.2 主要创新点 |
1.4 论文的组织结构 |
第2章 基于语义分割的复杂场景字符识别方法 |
2.1 引言 |
2.2 相关技术简介 |
2.2.1 语义分割方法 |
2.2.2 类标编码方法 |
2.3 基于语义分割的字符识别模型 |
2.3.1 FCN-ResNet50模块 |
2.3.2 类五笔类标编码模块 |
2.3.3 CRF模块 |
2.3.4 损失函数 |
2.4 实验与分析 |
2.4.1 数据集 |
2.4.2 实验设置 |
2.4.3 对比的方法 |
2.4.4 CTW数据集的实验结果和分析 |
2.4.5 ICDAR2019-ReCTS数据集的实验结果和分析 |
2.4.6 HIT-OR3C数据集的实验结果和分析 |
2.5 本章小结 |
第3章 基于位置向量的无约束手写单词识别方法 |
3.1 引言 |
3.2 相关技术简介 |
3.2.1 长短期记忆网络 |
3.2.2 位置向量 |
3.3 基于位置向量的无约束单词识别模型 |
3.3.1 特征提取模块 |
3.3.2 位置向量 |
3.4 实验与分析 |
3.4.1 手写单词数据集 |
3.4.2 模型训练 |
3.4.3 实验结果 |
3.4.4 消融实验 |
3.4.5 识别样例分析 |
3.5 本章小结 |
第4章 基于自适应超图神经网络的手写文本行识别方法 |
4.1 引言 |
4.2 相关技术简介 |
4.2.1 图神经网络简介 |
4.2.2 超图神经网络简介 |
4.3 基于自适应超图神经网络的文本行识别模型 |
4.3.1 自适应超图的构建 |
4.3.2 通过HGNN进行特征-语义交互 |
4.3.3 序列识别 |
4.4 手写文本行识别的实验 |
4.4.1 手写文本行数据集与评价指标 |
4.4.2 实验设置 |
4.4.3 对比方法 |
4.4.4 实验结果 |
4.4.5 识别样例分析 |
4.5 多标签图像分类的扩展实验 |
4.5.1 优化 |
4.5.2 评价指标 |
4.5.3 多标签数据集 |
4.5.4 实验设置 |
4.5.5 对比方法 |
4.5.6 实验结果 |
4.5.7 消融实验 |
4.5.8 可视化与分析 |
4.6 本章小结 |
第5章 图像文本识别模型的全连接层压缩方法 |
5.1 引言 |
5.2 相关技术简介 |
5.3 基于参数共享的全连接层压缩方法 |
5.3.1 顺序分支结构 |
5.3.2 混洗分支结构 |
5.3.3 紧凑型网络参数压缩分析 |
5.4 实验与分析 |
5.4.1 模型压缩实验数据集 |
5.4.2 实验设置 |
5.4.3 实验对比方法 |
5.4.4 实验结果及分析 |
5.4.5 不同压缩模型结果对比 |
5.5 消融实验与分析 |
5.5.1 分支效果 |
5.5.2 压缩因子效果对比 |
5.5.3 训练和测试阶段的速度表现 |
5.5.4 PSFC和传统FC层的训练收敛性比较 |
5.5.5 可视化分析 |
5.6 本章小结 |
结论 |
参考文献 |
攻读博士学位期间发表的论文及其他成果 |
致谢 |
个人简历 |
(6)垃圾评论过滤技术的研究及在Scratch作品评论管理系统中的应用(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景和研究意义 |
1.2 国内外研究现状 |
1.3 本文工作与创新点 |
1.3.1 工作内容概述 |
1.3.2 创新点概述 |
1.4 论文内容安排 |
第二章 相关技术综述 |
2.1 中文文本表示方法 |
2.2 面向垃圾评论过滤的分类技术 |
2.3 联合上下文信息的分类技术 |
2.4 相关开发技术介绍 |
2.5 本章小结 |
第三章 中文变体字的垃圾评论过滤技术的研究 |
3.1 中文变体字特征分析 |
3.2 多文本特征联合嵌入的垃圾评论过滤模型 |
3.2.1 变体词文本特征的提取与转换 |
3.2.2 文本特征的向量表示 |
3.2.3 评论文本特征的分类与识别 |
3.2.4 模型训练 |
3.3 实验与分析 |
3.3.1 数据集与汉字结构对照表的构建 |
3.3.2 不同文本特征嵌入模型实验对比 |
3.3.3多文本特征联合嵌入模型与多种神经网络模型实验对比 |
3.3.4 模型效率实验 |
3.3.5 词嵌入向量维度的影响 |
3.4 本章小结 |
第四章 联合用户历史评论的垃圾评论过滤技术的研究 |
4.1 文本语义特征分析 |
4.2 联合用户历史评论的垃圾评论过滤模型 |
4.2.1 历史评论文本序列的构建与表达 |
4.2.2 评论文本高阶特征提取 |
4.2.3 文本上下文特征提取 |
4.2.4 特征融合层 |
4.2.5 模型训练 |
4.3 实验与分析 |
4.3.1 数据集构造 |
4.3.2 历史评论序列有效验证 |
4.3.3 历史评论序列模型与多种神经网络模型的实验对比 |
4.3.4 历史评论序列长度的影响 |
4.4 本章小结 |
第五章 Scratch作品评论管理系统设计与实现 |
5.1 系统设计 |
5.1.1 系统需求分析 |
5.1.2 功能设计 |
5.1.3 系统架构设计 |
5.1.4 系统数据库设计 |
5.2 系统实现 |
5.2.1 系统实现框架 |
5.2.2 用户评论模块的实现 |
5.2.3 用户评论管理模块的实现 |
5.2.4 管理员评论管理模块的实现 |
5.2.5 垃圾评论过滤模块的实现 |
5.3 系统测试 |
5.3.1 功能测试 |
5.3.2 性能测试 |
5.4 本章小结 |
第六章 总结与展望 |
6.1 论文工作总结 |
6.2 展望 |
参考文献 |
致谢 |
攻读硕士期间发表的学术论文和专利 |
(7)基于DHFS和DWFnet融合特征的古籍汉字图像检索(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 国内外研究现状 |
1.2.1 图像检索技术 |
1.2.2 汉字图像特征提取技术 |
1.2.3 对偶犹豫模糊集 |
1.3 主要工作 |
1.4 组织结构 |
第二章 古籍汉字图像结构特征提取 |
2.1 古籍汉字图像预处理 |
2.1.1 古籍文献版面图像二值化 |
2.1.2 古籍文献版面图像格线去除 |
2.1.3 古籍文献版面图像切分 |
2.2 对偶犹豫模糊方向线素特征提取 |
2.2.1 相关概念 |
2.2.2 古籍汉字图像的弹性网格划分 |
2.2.3 对偶犹豫模糊属性指标设定 |
2.2.4 属性指标权重确定 |
2.2.5 对偶犹豫模糊方向线素 |
2.3 基于对偶犹豫模糊方向线素的古籍汉字图像检索模型 |
2.3.1 相似性度量 |
2.3.2 古籍汉字图像检索模型 |
2.4 实验结果与分析 |
2.4.1 实验环境与数据集 |
2.4.2 实验参数与评价指标 |
2.4.3 检索性能分析 |
2.5 本章小结 |
第三章 古籍汉字图像深度特征提取 |
3.1 离散小波融合网络 |
3.1.1 卷积神经网络基本结构 |
3.1.2 离散小波融合网络的整体框架 |
3.1.3 多层特征融合模块 |
3.1.4 金字塔弹性池化 |
3.2 基于DWFnet的古籍汉字图像检索模型 |
3.3 实验结果与分析 |
3.3.1 实验环境与数据集 |
3.3.2 实验参数 |
3.3.3 检索性能分析 |
3.4 本章小结 |
第四章 基于DHFS和 DWFnet融合特征的古籍汉字图像检索模型 |
4.1 古籍汉字图像特征降维 |
4.2 古籍汉字图像特征融合 |
4.2.1 CCA的基本思想 |
4.2.2 特征融合算法 |
4.3 基于融合特征的古籍汉字图像检索 |
4.4 实验结果与分析 |
4.4.1 实验环境与数据集 |
4.4.2 实验参数 |
4.4.3 检索性能分析 |
4.5 本章小结 |
第五章 总结与展望 |
5.1 工作总结 |
5.2 工作展望 |
参考文献 |
致谢 |
攻读学位期间取得的科研成果 |
(8)融合字形字义的命名实体识别方法研究(论文提纲范文)
摘要 |
abstract |
1 绪论 |
1.1 研究背景 |
1.2 国内外研究现状 |
1.2.1 字词向量表征方法研究现状 |
1.2.2 命名实体识别方法研究现状 |
1.3 研究内容及路线 |
1.4 论文结构安排 |
2 命名实体识别基础理论 |
2.1 自编码器 |
2.1.1 卷积自编码器 |
2.1.2 卷积变分自编码器 |
2.2 词向量 |
2.2.1 Word2vec模型 |
2.2.2 GloVe模型 |
2.3 条件随机场 |
2.4 长短期记忆网络 |
2.5 命名实体识别 |
2.5.1 任务定义 |
2.5.2 标注方式 |
2.6 本章小结 |
3 数据获取及预处理 |
3.1 汉字字形数据 |
3.2 汉字字义数据 |
3.3 本章小结 |
4 利用汉字结构特征的字形向量表征方法 |
4.1 汉字结构特征 |
4.1.1 字结构自编码器模型 |
4.1.2 汉字结构特征提取 |
4.2 汉字结构相似性 |
4.2.1 观察法 |
4.2.2 量化分析 |
4.3 实验及结果分析 |
4.3.1 字向量的获取 |
4.3.2 实验环境与参数设置 |
4.3.3 中文分词实验 |
4.3.4 短文本相似度计算实验 |
4.3.5 汉字表征实验 |
4.4 本章小结 |
5 融合字形字义的命名实体识别方法 |
5.1 融合字形字义的命名实体识别模型 |
5.1.1 模型结构 |
5.1.2 多特征嵌入层 |
5.1.3 BiLSTM层 |
5.1.4 CRF层 |
5.2 实验数据与评价指标 |
5.2.1 公开数据集 |
5.2.2 命名实体识别评价指标 |
5.3 粗粒度命名实体识别实验 |
5.3.1 基于单特征字向量的命名实体识别实验 |
5.3.2 基于组合特征字向量的命名实体识别实验 |
5.3.3 融合字形字义的命名实体识别实验 |
5.4 细粒度命名实体识别实验 |
5.4.1 基于单特征字向量的命名实体识别实验 |
5.4.2 基于组合特征字向量的命名实体识别实验 |
5.4.3 融合字形字义的命名实体识别实验 |
5.5 本章小结 |
6 信息系统自动构建平台设计与实现 |
6.1 系统需求分析 |
6.1.1 参与者 |
6.1.2 用例图 |
6.1.3 实体类 |
6.1.4 非功能性需求 |
6.2 系统设计 |
6.2.1 系统分解 |
6.2.2 系统部署设计 |
6.2.3 数据存储设计 |
6.2.4 系统自动构建功能设计 |
6.3 融合字形字义的命名实体识别方法在系统自动构建功能中的应用 |
6.3.1 数据集介绍 |
6.3.2 数据预处理 |
6.3.3 信息系统领域命名实体识别 |
6.4 系统实现 |
6.4.1 登录与注册 |
6.4.2 用户端 |
6.4.3 管理员端 |
6.5 系统测试 |
6.5.1 系统自建功能测试 |
6.5.2 非功能性测试 |
6.6 本章小结 |
7 总结与展望 |
7.1 总结 |
7.2 研究展望 |
致谢 |
参考文献 |
附录 |
(9)基于音形义的中文字符串相似度检测算法研究(论文提纲范文)
摘要 |
abstract |
1 绪论 |
1.1 研究现状 |
1.2 研究背景及意义 |
1.3 工作内容 |
1.4 论文组织结构 |
1.5 本章小结 |
2 相似度检测方法 |
2.1 编辑距离 |
2.2 汉明距离 |
2.3 汉字相似度 |
2.3.1 基于拼音 |
2.3.2 基于字形 |
2.3.3 基于音形码的汉字相似度检测算法 |
2.4 基于词义的中文字符串相似度检测 |
2.5 本章小节 |
3 基于改进音形码的汉字相似度检测算法 |
3.1 音形码的改进 |
3.1.1 汉字音码的改进 |
3.1.2 汉字形码的改进 |
3.2 汉字相似度检测算法 |
3.2.1 基于改进音码的汉字相似度检测算法 |
3.2.2 基于改进形码的汉字相似度检测算法 |
3.2.3 实验与结果分析 |
3.3 本章小节 |
4 基于音形义的中文字符串相似度检测算法 |
4.1 基于改进音形码的中文字符串相似度检测算法 |
4.2 基于HowNet的中文字符串相似度检测算法 |
4.3 本章小节 |
5 算法设计及仿真对比实验 |
5.1 实验开发环境 |
5.2 算法设计与实现 |
5.2.1 总体设计 |
5.2.2 音码相似度计算模块 |
5.2.3 形码相似度计算模块 |
5.3 算法仿真 |
5.3.1 实验方案 |
5.3.2 评判标准 |
5.3.3 结果分析 |
5.4 算法应用 |
5.4.1 算法应用场景介绍 |
5.4.2 算法贡献值的设置 |
5.5 本章小节 |
6 工作总结以及展望 |
6.1 结论 |
6.2 未来研究展望 |
参考文献 |
硕士期间的相关成果 |
致谢 |
四、汉字字形向量轮廓压缩算法的设计与实现(论文参考文献)
- [1]手写汉字评价方法研究进展[J]. 肖雪,李成城. 计算机工程与应用, 2022(02)
- [2]融合空间及通道注意网络的古籍汉字图像检索[J]. 田学东,杨琼,杨芳. 河北大学学报(自然科学版), 2021(05)
- [3]图像文本识别的关键技术研究[D]. 吴湘平. 哈尔滨工业大学, 2021
- [4]基于注意力学习网络的古籍汉字图像检索模型[D]. 杨琼. 河北大学, 2021
- [5]智能商标检测方法研究[D]. 高仕锦. 安徽大学, 2021
- [6]垃圾评论过滤技术的研究及在Scratch作品评论管理系统中的应用[D]. 张法鑫. 北京邮电大学, 2021(01)
- [7]基于DHFS和DWFnet融合特征的古籍汉字图像检索[D]. 杜松波. 河北大学, 2021(09)
- [8]融合字形字义的命名实体识别方法研究[D]. 王瀚博. 西安科技大学, 2021
- [9]基于音形义的中文字符串相似度检测算法研究[D]. 王华敏. 海南大学, 2021(09)
- [10]基于风格迁移的手写西夏文字样本生成研究[D]. 杨丽娟. 宁夏大学, 2021