一、一种生成复杂特征集句法树的汉语句法分析方法与系统实现(论文文献综述)
庞蕊[1](2021)在《融合先验知识的蒙汉神经机器翻译研究》文中认为机器翻译是自然语言处理领域中的一项关键技术。随着近些年深度学习的飞速发展,神经机器翻译研究取得了显着进步。然而作为一项数据驱动的技术,神经机器翻译方法应用在语料资源稀缺的蒙汉翻译任务中时效果并不理想。资源稀缺语言的机器翻译可通过数据增强或迁移学习等方式提高翻译效果,本文则采用融合先验知识的方法缓解蒙汉平行语料资源稀缺的问题,提高神经机器翻译模型对不同类型语言学信息的建模能力。分别对三种不同类型先验知识的融合进行了研究。一、选择目标语言端丰富的句法结构信息作为先验知识。首先对目标端的汉语语料进行句法结构分析,之后将句法结构树转换为序列数据类型的线性句法树,作为解码器的输入融合到神经机器翻译模型中。最后采用重排序分数作为衡量翻译模型对语法结构学习程度的指标。实验表明,该方法生成的译文具有更强的语法结构。二、选择蒙汉平行短语对作为先验知识。短语对由外部语言资源与从蒙汉平行语料库中抽取而得,之后对句子中的短语进行标记。该模型的解码器有单词模式和短语模式,对于源句中被标记为短语的单词片段,可逐词翻译或作为一个整体翻译为对应的目标短语。该方法不仅将外部的短语知识引入神经机器翻译,还对循环神经网络的逐词生成机制进行了扩展。三、选择训练好的统计机器翻译模型作为先验知识。首先使用蒙汉平行语料库分别独立训练统计机器翻译模型与神经机器翻译模型,之后在神经机器翻译的每个解码时间步,统计机器翻译模型根据源句与神经机器翻译在先前时刻生成的所有预测单词,给出当前时刻单词的翻译建议,最后由门控机制决定是否采纳统计机器翻译的建议。实验表明,融合统计机器翻译建议可以有效地提高翻译质量。本文在50万句对的蒙汉平行语料库上开展实验,实验结果显示三种类型先验知识的融合均可提高神经机器翻译模型的性能。其中融合句法结构信息的模型BLEU值提高0.28,融合外部短语信息的模型BLEU值提高1.27,融合统计机器翻译建议的模型BLEU值提高1.64,而进一步使用统计建议替换未登录词的模型BLEU值提高2.18。
陈鸿彬[2](2021)在《汉语句法分析中数据增强方法研究》文中研究指明句法分析是自然语言处理中的一项基础核心技术,其目标是根据给定的语法理论,自动识别分析句子中各种成分之间的关系,最终得到句法树,在机器翻译等自然语言处理任务中有着广泛的应用。当前主流的神经网络句法分析模型依赖大规模标注数据,但是由于汉语不像英语有丰富的词性变化等表层信息来表示句法结构,导致汉语树库规模较小,人工标注成本高,短期内难以扩大。因此,如何利用现有的标注树库自动进行数据增强成为研究的焦点。在汉语句法分析的数据增强任务中,对于给定的标注树库,要求数据增强所生成的句子满足如下条件:第一,要求生成句具有多样化的句法结构,并保证其句法树结构的完整性;第二,要求生成句具有正确的句法结构标注;第三,生成句的语义要合理,即保证生成句符合语言表达的习惯。针对汉语句法分析中数据增强的这三个需求,本文工作和贡献总结如下:(1)提出基于词汇化树邻接语法的数据增强方法。词汇化树邻接语法是计算语言学中的一种重要形式语法,基于该语法可以在句法树之间进行“接插”和“替换”的操作,从而推导生成新的句法树,并且有语言学的知识保证其生成的句法树符合语法规则且具有正确的句法结构标注,能够很好地满足句法分析中数据增强的前两个需求。因此我们基于词汇化树邻接语法,设计实现词汇化树抽取算法与句法树合成算法。同时,我们分析总结汉语树库中相对英文树库所特有的一些表达方式和句法标注体系,在算法层面对词汇化树邻接语法进行“剪枝”优化,避免生成句引入过多的噪声。我们基于公开的数据集CTB5.1进行数据增强,并通过该方法基于原训练集的18k数据构建了338k的增强数据,最后进行小样本和鲁棒性的实验。在小样本的数据增强实验中,使用该方法得到的增强数据使依存句法分析模型和成分句法分析模型的精度分别提高1.4%和2.12%。在鲁棒性的实验中,我们人工挑选出86个生成句构建扩展测试集并进行实验。实验结果显示,使用数据增强后,依存句法分析模型和成分句法分析模型的精度分别提高1.02%和0.38%,说明该数据增强方法能够有效提高句法分析模型的鲁棒性。(2)提出基于语言模型的语义合理性评估方法。语言模型是一种基于概率的判别模型,即通过概率判断一个句子的语义合理性。因此针对句法分析中数据增强的第三个需求,本文提出利用语言模型对生成句进行语义合理性评估,从而筛选出语义合理的句子作为最终的增强数据。本文分别设计实现了n-gram语言模型与RNN神经网络语言模型,将词汇化树邻接语法所获得的338k个生成句筛选为105k和94k的数据规模,最后进行小样本和鲁棒性的实验。在小样本实验中,使用该方法得到的增强数据使依存句法分析模型和成分句法分析模型的精度提高1.6%和2.14%。同时,在鲁棒性实验中,依存句法分析模型和成分句法分析模型在扩展测试集中的精度分别提高1.43%和0.44%,表现出更好的鲁棒性。综上所述,针对当前汉语标注树库不足的现状和句法分析中数据增强的需求,我们提出基于词汇化树邻接语法的数据增强方法,并结合语言模型,基于当前18k的训练集分别构建了338k、105k和94k的增强数据,最后在公开的数据集上进行实验对比分析,实验结果表明,该方法能够有效提高当前神经网络汉语句法分析模型的性能和鲁棒性。
杨陈菊[3](2021)在《基于短语结构的汉语层次句法边界研究》文中进行了进一步梳理近几年,随着人工智能技术的广泛应用,句法分析等深层自然语言分析的关注度越来越高。句法分析的主要任务是分析一个句子的构成,并使其可以转化成句法树。通过句法分析,可以解析一个句子的构成词块,词与词之间的关系,从而帮助机器理解自然语言,并运用于机器翻译、自动问答、文摘生成等语义理解领域中。句法分析是自然语言处理的一个经典任务,本文主要研究汉语层次句法分析中的边界问题。首先通过剖析短语结构的层次句法分析的层次性和汉语的结构特点,提出了一种把核心词作为词块的形式替换、层层进行词块组合的句法结构树。在句法边界分析的过程中,将词块识别和核心词提取分开进行,并对词块识别和词块的核心词提取方法分别进行探讨,并利用不同的模型进行了实验。具体如下:1.核心词提取。本文将词块核心词提取问题看作求词块中每个核心词的重要度的问题,然后取出重要度最高的词作为该词块的核心词。首先结合Word2Vec词向量改进Text Rank重要度排序算法,然后加入词语的相似度信息、位置信息、词性信息来提高识别准确度。2.词块识别。首先将词块识别看作一个标记序列识别的问题,然后分别使用双向长短期记忆模型(Bi-directional Long Short-Term Memory,Bi LSTM)、条件随机场(Conditional Random Field,CRF)、二者结合的模型(Bi LSTM+CRF)进行词块边界标记的识别。其中CRF能够学习输出标记序列结果的转移特征,学习预测序列相邻的标记搭配关系,达到预测标记序列联合解码的效果;Bi LSTM能够学习上下文特征,解决序列预测中的长依赖问题。Bi LSTM+CRF模型充分发挥了各自的优势,提高了序列的识别效果。在宾州中文树库(CTB8.0)语料上进行了所提出方法与基线方法的对比实验,并且对比了CRF、Bi LSTM、Bi LSTM+CRF词块识别分别与改进的Text Rank核心词提取方法组合的句法边界分析效果,以及各句长下每种模型的识别情况。结果表明,使用Bi LSTM+CRF联合改进的Text Rank识别效果最好,相比于基线LR方法F1值提升了6.58个百分点,整句正确率提升了3.68个百分点,验证了模型的有效性和稳定性。
彭雪[4](2020)在《半监督汉语依存句法分析领域移植研究》文中提出近年来,得益于深度学习技术的发展,依存句法分析在精度和效率上均取得了很大的进步。目前依存句法分析面临的主要挑战是领域移植问题,即当测试文本和训练数据文本在风格、类型、主题上差异较大时,分析准确率会显着下降。尤其是互联网上用户生成内容(User Generated Content)的比例越来越大,这些数据与规范新闻文本差异很大,句法分析的准确率非常低,严重阻碍了句法分析技术在实际系统中的应用。由于缺乏较大规模的多领域标注数据,现有的依存句法分析领域移植工作多集中在无监督方法的研究,即训练数据中不包括目标领域(测试文本所属领域)标注数据,无监督领域移植非常困难,多年来进展缓慢。本文在训练时使用源领域和目标领域标注数据,重点研究半监督依存句法分析领域移植方法。首先,构建了一个大规模多领域汉语开放依存句法树库;进而,基于该树库,提出并比较了几种半监督领域移植方法;最后,探讨了如何利用大规模的无标注数据提升领域移植性能。(1)汉语依存句法数据标注规范制定以及树库构建构建依存句法树库需要依存句法数据标注规范作为理论基础。现有的依存句法数据标注规范仅考虑到通用文本的标注,对非规范文本中的一些语言现象却覆盖较少。因此,本文首先制定了一个覆盖不同语言现象的汉语依存句法数据标注规范,以指导树库构建工作。在构建树库时,为了控制数据的标注质量,本文制定了严格的双人标注流程,并从准确率、一致性两方面详细分析标注完成的数据,及时改进标注工作中存在的不足。另外,为了节省数据标注成本,同时保证树库的质量,本文采取了局部标注方法,仅选取句子中标注难度最高的一部分词语进行人工标注。我们将该树库命名为汉语开放依存句法树库(Chinese Open Dependency Treebank,CODT),日前的树库覆盖了 11个领域的文本,共包含约13万个句子。(2)基于领域嵌入的依存句法分析领域移植本文基于构建的汉语开放依存句法树库,重点研究半监督领域移植方法。半监督方法的关键任务是如何充分从源领域与目标领域训练数据中提取特征。本文提出了领域嵌入方法,该方法为每个输入词语添加了额外的领域信息,使模型既可以学习两个领域的通用特征,同时又可以区分领域之间的差异。进一步,本文将所提领域嵌入方法应用到多源依存句法领域移植分析问题,即额外利用其它目标领域的训练数据提升特定目标领域的分析性能。实验结果表明:1)本文提出的领域嵌入方法比其他基准方法更有效;2)当目标领域与特定源领域之间的差异较小时,增加该源领域的数据可以提高模型性能,反之则会对模型产生干扰。此外,由于源领域与目标领域的训练数据规模差异较大,本文在实验过程中使用了语料库加权策略。在每次迭代时,控制源领域与目标领域训练数据的比例,防止目标领域被源领域淹没。实验结果表明,选择不同的训练数据比例对分析性能影响较大。(3)基于语言模型微调的依存句法分析领域移植上一章内容仅通过标注数据研究半监督领域移植方法,但由于数据标注工作非常复杂且成本较高,如何利用大规模无标注数据也是领域移植研究的重要方向之一。近年来,上下文相关语言模型迅速发展,已经帮助了很多数据驱动的自然语言处理任务。本文通过直接训练和微调上下文相关语言模型(ELMo和BERT)从大规模无标注数据中提取特征,实验结果表明:1)利用通用ELMo和BERT模型可以帮助依存句法分析领域移植性能取得大幅度的提升;2)与传统的通过自训练方法使用无标注数据相比,利用ELMo、BERT从大规模无标注数据中提取特征更加有效。我们在分析实验结果时发现不同的目标领域训练数据规模对模型分析性能有较大的影响,本文通过实验讨论了在领域移植工作中,使用多少目标领域训练数据最为合适,对以后的数据标注和领域移植工作均有借鉴意义。另外,为了将构建的汉语开放依存句法树库提供给更多的研究者使用,我们举办了依存句法分析领域移植评测。本文汇报了参赛者的实验结果,并总结了参赛者使用的实验方法。综上,本文首先构建了一个高质量的汉语依存句法树库,进而,基于该树库,研究半监督依存句法分析领域移植方法。我们希望这些初步的成果能够为依存句法分析领域移植任务的发展提供帮助。
乔秀明[5](2020)在《基于词粒度知识迁移的依存句法分析研究》文中研究表明随着自然语言处理的发展,依存句法分析作为一个重要的基础任务一直备受关注。依存句法分析旨在获取句子中词语之间的修饰关系,为机器翻译、信息抽取、问答等下游自然语言处理任务提供丰富的句法指导,其准确率严重影响下游任务的性能。基于统计和基于神经网络的依存句法分析器依赖于大量的已标注数据,否则容易出现过拟合问题,导致依存句法分析在低资源领域的性能较低。标注依存句法数据需要丰富的语言学知识,是一个耗时耗力的工作。因此,如何将自然标注数据以及现有的已标注数据有效地迁移到低资源领域成为非常有价值的研究问题。在句法数据迁移的过程中,存在一些障碍,比如句法知识形态不同、领域之间词汇差异较大等,影响了迁移性能。本文提出通过四种不同的词粒度知识,构建不同数据之间信息交互的桥梁,提高句法数据的迁移性能。具体包括利用词共现将查询日志中蕴含的句法知识迁移到无监督依存句法分析中,利用句法类、领域一致的词表示以及词的领域属性来跨越领域之间的词汇鸿沟,从而更好地迁移句法结构。1.基于词共现知识的无监督依存句法分析。近年来,无监督依存句法分析因其不需要昂贵的已标注树库越来越流行,但准确率仍然离实际应用有较大的距离,部分原因是模型并没有充分捕获各类语言现象,且存在严重的知识匮乏问题。从无标记文本中挖掘句法知识并注入无监督依存句法分析模型中可提高其性能,且无人工成本。本文提出利用词共现从查询日志中挖掘句法知识,通过打分函数衡量词语之间的依存关系,并用于辅助估计基于配价依存句法模型DMV中的选择概率,构建了查询知识增强的配价模型QA-DMV。该方法不限语言种类,实验证明加入查询日志中蕴含的句法知识后,中英文数据上的无监督依存分析性能均有大幅度提升。并验证了查询日志的规模越大,对无监督依存模型性能的提升幅度越大。2.基于句法类的依存句法分析。一些领域树库的多样性和规模,对有监督依存句法分析来说都是不充足的,导致生物医学等低资源领域文本依存句法分析存在数据稀疏问题。离散符号的形式的特征表示,在基于统计的机器学习中比较常见,是解决数据稀疏的关键技术。本文提出依据依存上下文学习的词嵌入,对词进行聚类,具有相似句法角色的词归到同一类。本文将句法类以特征的方式应用到基于统计的依存句法分析中,并将基于依存上下文的词表示直接作为基于神经网络依存句法分析系统的输入。实验证明了句法类可以捕获句法相似性,并且可与布朗聚类一起使用,进一步缓解数据稀疏问题;另外,实验证明了将根据依存上下文获取的词表示应用在基于深度神经网络的依存句法分析中,比基于一般上下文的词表示的迁移性能好。3.利用领域一致的词表示提高依存句法分析的领域迁移性能。将资源丰富领域的依存数据迁移到资源匮乏的领域,主流的方法是获取领域之间共享的特征集合。对于基于深度神经网络的模型,词嵌入是一种基础的初始特征,简单有效,但很少相关工作探索领域一致的词嵌入。预训练的词嵌入往往在广泛的领域上进行训练,对于特定领域之间的迁移,效果不是很好。因此,本文提出对预训练的词嵌入,利用将要迁移的源和目标领域数据,进行对抗性调优,从而获取针对当前领域一致的词嵌入,促进两个领域数据之间的信息交互。新闻领域和生物领域数据之间的迁移实验,证明了领域一致的词表示减轻了源领域和目标领域数据之间的词汇差异,可提高依存句法分析的领域迁移性能。4.基于词汇领域属性的部分去词汇化依存句法分析。经过分析大量的数据发现,不同的领域之间存在较大的词汇鸿沟,尤其是在名词、形容词上更明显,导致难以充分迁移句法数据。本文提出利用生成式对抗网络识别语境化的词汇领域属性,为句子生成掩码序列,并提出隐式和显式两种应用方法。隐式即保留领域通用词,并将原始词的向量表示与[MASK]词向量进行拼接,构成领域特有词的表示。显式应用是对领域特有词根据不同策略进行词替换,作为增广数据进行应用。实验证明这两种方法均有利于提高新闻到生物数据的迁移性能。
陈圆梦[6](2020)在《联合依存分析的汉语语义组合计算》文中认为语义组合计算是将词语语义组合成句子语义的过程,是获取句子语义表示的主要技术之一,广泛应用于情感分析、机器翻译、句子匹配等自然语言处理任务。语义组合性原理表明句子语义是由词汇语义根据句法结构组合得来的,因此语义组合计算与词义和句法紧密关联。目前,大多数研究主要关注对词汇语义表示的改进,少数研究开始关注对句法结构信息的利用。但这些结构化方法仍存在如下问题:(1)目前汉语依存分析在长距离依存关系上的分析精度还需要提升,以支持语义组合计算;(2)使用外部分析器,只能利用其提供的句法结构树的信息;同时,由于句法分析模型与语义组合模型的训练数据领域通常不同,会导致句法分析模型在应用于语义组合计算时精度的下降。针对上述问题,我们提出联合依存分析的汉语语义组合计算。本文首先提出自顶向下的汉语一体化依存分析模型,强化全局信息的利用,提升汉语依存分析的精度。然后在此基础上,本文构建联合依存分析的语义组合计算模型,提出依存分析中间信息的利用方法,提升语义组合模型的鲁棒性;并对依存分析和语义组合模型进行协同优化,降低数据领域不一致带来的影响。本文的主要工作和贡献总结如下:(1)构建自顶向下的汉语一体化依存模型。现有一体化依存分析模型主要采用Shift-Reduce分析算法,每一步仅对相邻节点进行转移动作的决策,难以充分利用句子的全局信息,在长距离依存分析上尚有提升空间。针对这一问题,本文提出自顶向下的依存分析模型,以Encoder-Decoder模型为框架,使用注意力机制进行依存节点的预测,在所有候选节点中选择最优节点进行依存关系的构建,提升了全局信息的利用效率。在公开数据集CTB5(Penn Chinese Treebank 5.0)上的实验结果显示,本文所提方法在汉语分词、词性标注和依存分析任务上的性能明显超过现有使用Shift-Reduce算法的模型,F1值分别达到了98.25%(+0.01%)、95.13%(+0.64%)和85.44%(+3.79%)。我们设计实验验证了在长距离依存分析上的有效性。(2)提出联合依存分析的汉语语义组合计算模型。针对现有结构化语义组合方法存在的问题,我们在(1)的基础上,提出联合依存分析的语义组合计算模型。本文首先提出基于注意力的语义组合模型,以依存句法树作为图注意力计算中的图,对每个节点的语义根据其孩子节点进行组合计算;然后提出依存分析中间信息的利用方法,将依存关系中作为头节点的语义信息引入语义组合模型,以降低依存分析的预测错误对语义组合模型带来的影响,提升语义组合模型的鲁棒性;最后通过依存分析与语义组合的联合学习,对依存分析模型进行领域自适应,提升依存分析模型的鲁棒性。我们将语义组合模型用于复述识别任务,在汉语复述识别数据集LCQMC上的实验结果显示,本文所提方法在复述识别任务上的预测正确率和F1值上分别达到76.81%和78.03%;我们进一步设计实验对联合学习和中间信息利用的有效性进行验证,并与代表性工作进行对比和分析。综上所述,本文针对现有汉语一体化依存分析和语义组合计算方法存在的问题,提出了自顶向下的汉语一体化依存分析算法,构建了联合依存分析的汉语语义组合模型,并在公开数据集上进行实验对比和分析,验证了所提方法的有效性。
禹盼[7](2020)在《融合降噪门的图注意力网络实体关系抽取模型》文中研究表明实体关系抽取在自然语言处理中扮演着至关重要的角色,旨在从纯文本中挖掘出实体对之间潜在的语义关系,并在知识库构建和问答系统等任务中有着广泛应用。作为该领域的研究热点,基于远程监督的关系抽取结合知识库中的关系实例作为辅助信息,通过与非结构化文本对齐的方式自动标注数据。远程监督方法虽然能够有效缓解训练语料不足的问题,但同时也因错误标注而引入了数据噪声。现有工作大多采用多示例学习的方式,将提及同一实体对的所有语句视为一个包,并利用注意力机制筛选出包内重要的语句,从而降低数据噪声对关系抽取的影响。然而,当包内数据过于稀疏时(例如,NYT数据集中80%的包只有一条句子),注意力机制便难以发挥功效。此外,目前基于依存句法树的方法虽然能够有效捕捉单词间的长距离依赖,但忽略了不同单词对于表达实体关系的重要性差异,无法选择性关注依存树中与关系抽取最为相关的句法结构,导致模型难以准确、有效地抽取实体间的语义关系。针对以上不足,本文提出了融合降噪门的图注意力网络(Graph Attention Network with Denoising Gate,GAT_DGATE)实体关系抽取模型。具体而言,该模型使用图注意力网络将依存树转换为加权有向图,并通过节点相关度筛选出对关系表达更为关键的子结构,有效消除句子中冗余信息的干扰,从而更准确地表达实体间的语义关系。其次,本文还提出了一种新颖的降噪门机制,根据包内各个句子与标注的相似度计算门控值,把对注意力的归一化操作改进为对门控值的均值池化操作,避免了包内只有一个句子时注意力机制难以生效的情况,进一步增强了模型的鲁棒性。此外,出于对远程监督生成的负例数据通常远多于正例数据这一客观事实的考虑,本文还结合单边梯度采样法以解决样本类别不均衡的问题。本文基于远程监督实体关系抽取任务中广泛应用的NYT数据集,设计并进行对比实验。实验结果表明,相较于业界主流的方法,本文提出的GAT_DGATE模型在PR曲线与AUC值、Precision@N等评估指标上表现更佳,验证了该算法的有效性。此外,本文还通过可视化分析和案例分析对图注意力网络和降噪门的功效进行定性评估,分析结果表明本文方法具备良好的可解释性。
戴茹冰[8](2020)在《汉语抽象语义表示体系、资源构建及其应用研究》文中研究指明语义表示作为自然语言处理的重难点,一直是学界研究的热点问题。面对语言计算从句法向语义层面转型的大趋势,现有的语言资源包括概念语义、框架语义和情境语义方面都有不同程度的发展,将多层次多类型的语义资源融合,构建一个深层语义表示的语言知识库成为现阶段亟待解决的问题之一。目前对于语义表示的研究不论是从语言理论还是自动分析领域,研究方向都逐渐从句法走向了语义,句法结构的表示方法也由最初树形(tree)结构,到非投影树(non-project tree)结构,再到初步尝试和应用图(graph)结构,经历了由树到图的发展进程。而抽象语义表示AMR(Abstract Meaning Representation,AMR)作为一种全新的语义表示方法,将句子的语义抽象为一个单根有向无环图。这种抽象语义表示方法将句法和语义信息相结合,以图结构来表示语义,揭示树结构所无法表征的论元共享现象,给句子语义以更加清晰的表达。然而句子中的词语和AMR图的概念对齐信息缺失,一定程度上影响自动分析效果和语料标注质量,同时中文还未有较大规模的AMR语料库。本文借鉴英文AMR语义表示理念,结合汉语自身特点并融合概念对齐信息,提出一套适用于汉语的句法语义一体化的表示方法,即概念对齐汉语抽象语义表示CA-CAMR(Concept-to-word Alignment Chinese Abstract Meaning Representation,CA-CAMR)体系。具体内容包括以图结构处理论元共享问题,融合句子词语到AMR图的概念对齐信息以提升语义表示能力,并在CA-CAMR标注体系中规定汉语特殊结构及复句关系标注方法。通过英汉AMR在语义表示的对比,总结CA-CAMR对AMR的继承及在此基础上的发展,证明本文提出的CA-CAMR表示体系在描写汉语语义的优势,并且融合概念对齐信息对于语言学研究和自动分析算法设计都具有一定价值。CA-CAMR表示体系的建立为进一步开展概念对齐的汉语抽象语义表示语料库奠定基础。在此基础上,本文进行了CA-CAMR语料库构建。以CA-CAMR标注规范为指导,采用人机结合的语料库标注方式,通过CAMR语料标注平台CAMR Anno Kit构建汉语抽象语义标注语料库。CA-CAMR语料库目前包含来自《小王子》、宾州中文树库CTB8.0(the Penn Chinese Treebank,CTB)的网络媒体语料和小学语文教材(人教版)共20149句语料。本文详细展示语料标注情况,针对试标语料的不一致现象给出消解策略,并对语料库数据进行系统地统计与分析,包括图结构、论元共享现象及汉语特殊句法结构的标注情况。统计结果表明所标CA-CAMR语料库达到一定规模,并在深层语义表示及特殊句法结构上具有优势,实现句法语义一体化标注,可以为相关研究提供语料资源支持。最后探索构建CA-CAMR表示体系及语料库在语言本体及自然语言处理两个方面的应用价值。省略是汉语中常见的语言现象,在传统的句法语义表示方式中,含有省略信息的语言结构往往被忽视。本文利用CA-CAMR语料库考察汉语语义省略结构在大规模真实文本中的分布情况,大致描写出汉语省略现象的概貌。然后以省略现象中所占比例最高(47.3%)的省略“的”字结构为研究对象,构建一套自动识别与自动补全省略中心语的实验方案,实验结果表明该方法能够在CA-CAMR语料中有效识别及补全省略的“的”字结构,证明CACAMR表示体系及语料库对汉语深层语义关系表达的研究价值。
皮乾东[9](2020)在《基于规则与条件随机场的汉语句法研究》文中认为在中文信息处理领域中,相比分词、命名实体识别、词性标注等一些浅层自然语言处理任务来说,句法分析、机器翻译、自然语言理解、自然语言生成等深层次自然语言处理任务也越来越受研究者关注。句法分析是自然语言处理技术中的重要一环,它判断输入的词语序列的构成是否满足给定语法,分析出合乎语法的句子结构,并将分析结果转换成一棵句法树。根据句法分析结果,计算机可以深刻地理解语句结构、词语间的关系等。这样更便于计算机自动化处理很多任务。在机器翻译、信息检索、自动摘要等深层次自然语言处理任务中广泛使用着句法分析技术,所以提高句法分析的性能及准确率,对自然语言处理中的很多深层次或上层任务有着很大的意义。句法分析主要分为结构句法分析和依存句法分析。结构句法分析结果信息丰富,可以根据依存树与结构树转换规则,把结构句法分析结果转化为依存树,然而依存树却很难被转化为结构句法树。汉语依存句法分析从国外引入,汉语与其他语言也有着很多不同,依存句法分析也不能很好地适用于汉语的句法分析。当前汉语句法分析具有多种数学模型,但是却没有公认较好的数学模型。本文结合个人在研究中对汉语的了解和发现,认识到汉语有众多独特的语言特征,如汉语语序、汉语句法分析中涉及多元规则、“前修饰后”规则、汉语句法规则具有一定优先级等,构建了一个算式化汉语融合句法分析模型。该模型算式化运算规则是根据个人总结和语料统计得到的句法分析规则的一种数学化映射。本文根据基于规则的句法分析的缺点,引入了改进的条件随机场组块识别算法,结合了具有不同优先级的多元句法规则。通过对语料分析,设定特征函数,选取符合模型的语料进行训练,得出一个组块识别模型。接着对分词后的语句进行组块识别,然后结合汉语众多特征,采用逆向扫描的方式,使用具有不同优先级的多元规则进行下一步的层次化句法分析,最后得出句法分析结果。本文将句法分析结果使用XML格式保存,便于计算机进行下一步处理,使用LATEX展示成一棵类句法树,便于自动化操作以及查看句法分析结果。本文提出的模型使用了人民日报语料和CTB8.0语料进行实验。在综合实验中使用5-折交叉验证方式比较二元规则的算式化句法分析方法、多元规则的算式化句法分析方法、结合条件随机场组块识别与二元规则的算式化句法分析方法以及结合条件随机场组块识别与多元规则的算式化句法分析方法。综合实验表明使用结合条件随机场组块识别与多元规则的算式化句法分析结果表现最好,在实验语料中平均正确率达到85%左右。
班玛宝[10](2020)在《藏文疑问句句法分析关键技术研究》文中提出句法分析是自然语言理解的一项基础技术,是迈向深层语言理解的基石,在语义分析、问答系统、搜索引擎、信息抽取和检索等许多自然语言处理任务中不可或缺。随着信息技术的不断进步和发展,对句法分析技术的要求也越来越高,越来越多的人工智能应用程序依靠句法信息来处理和提取文本或语音中的含义。但是由于研究力度不足、数据资源匮乏和技术水平欠佳等原因,藏文句法分析的研究还未取得重大突破。研究藏文句法分析时,很多研究者对所有藏文句型展开了研究。然而不同藏文句型的语法结构及句法特征存在明显差异,从而影响了藏文句法分析的整体效果。如果针对某类句型,根据其特性研究句法分析,可以提高藏文句法分析的性能。疑问句是一种常见的藏文句型,也是藏文问答系统、搜索引擎、信息抽取和检索等问题中的主要句型。因此,本文针对藏文疑问句,从以下几个方面研究藏文疑问句句法分析的相关技术。(1)藏文句法分析语料库构建通过研究网络爬虫技术,结合藏文自身的特点,设计了一种藏文网页文本的爬虫算法,完成了藏语语料的采集,并对其进行了预处理。在此基础上,通过分词、词性标注、句子抽取、短语标记和句法标记等环节构建了规模为2500句藏文句法分析语料库,为藏文疑问句的识别及句法分析奠定了基础。(2)藏文疑问句识别通过对藏文疑问句进行分类和归纳各类疑问句的结构特征,设计了一种基于句法树的藏文疑问句识别算法。根据设计的算法开发了基于句法树的藏文疑问句识别系统。最后通过设计不同的实验,分别考查了算法的分类和识别效果。实验表明,算法取得了较好的分类和识别效果,分类的平均准确率、召回率和F值分别达到96.98%、100%和98.39%,识别准确率、召回率和F值分别达到98.21%、100.00%和99.10%。(3)藏文疑问句句法分析根据藏文疑问句的分类和归纳的结构特征,训练了基于PCFG(Probabilistic Context-Free Grammar,PCFG)的藏文疑问句句法分析模型,完成了藏文疑问句句法分析,并开发了基于PCFG的藏文疑问句句法分析系统。最后通过设计不同的实验,分别考查了不同规模训练语料的句法分析效果。经实验测试,在开放测试集上的最高准确率、召回率和F值分别达到96.0%、96.1%和96.1%,句法分析效果相比基准实验的F值提高了5.40个百分点,表明根据具体句型(本文选择的是藏文疑问句)及其特征,对其进行句法分析可以取得更好的实验效果。
二、一种生成复杂特征集句法树的汉语句法分析方法与系统实现(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、一种生成复杂特征集句法树的汉语句法分析方法与系统实现(论文提纲范文)
(1)融合先验知识的蒙汉神经机器翻译研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 神经机器翻译研究现状 |
1.2.2 融合先验知识的机器翻译研究现状 |
1.2.3 蒙汉机器翻译研究现状 |
1.3 论文的主要内容 |
1.4 论文的组织结构 |
第二章 相关技术和理论分析 |
2.1 统计机器翻译相关模型 |
2.1.1 句法结构分析 |
2.1.2 统计机器翻译特征 |
2.1.3 统计机器翻译的对数线性模型 |
2.2 神经机器翻译相关模型 |
2.2.1 循环神经网络 |
2.2.2 循环神经网络变体 |
2.2.3 序列到序列模型 |
2.2.4 循环神经网络的注意力机制 |
2.3 机器翻译质量评估方法 |
2.4 本章小结 |
第三章 融合句法结构信息的蒙汉神经机器翻译研究 |
3.1 基于注意力机制的蒙汉翻译基线模型 |
3.1.1 蒙汉平行语料库的预处理 |
3.1.2 蒙汉神经机器翻译中的词嵌入 |
3.1.3 基于注意力机制的蒙汉神经机器翻译模型 |
3.2 融合句法结构信息的蒙汉翻译模型 |
3.2.1 汉语句法结构信息的获取 |
3.2.2 融合句法结构信息的蒙汉翻译模型 |
3.3 基线模型与融合句法结构信息模型的实验 |
3.3.1 数据集划分及训练参数设置 |
3.3.2 实验结果与分析 |
3.4 本章小结 |
第四章 融合外部短语信息的蒙汉神经机器翻译研究 |
4.1 蒙汉双语短语表的获取 |
4.1.1 额日和木翻译词库 |
4.1.2 蒙汉短语对的抽取与概率估计 |
4.1.3 蒙汉双语短语表预处理 |
4.2 融合外部短语信息的蒙汉翻译模型 |
4.2.1 编码器结构 |
4.2.2 解码器结构 |
4.2.3 融合外部短语信息的蒙汉翻译模型 |
4.2.4 多单词短语的空闲运行 |
4.2.5 短语的概率模型 |
4.3 融合外部短语信息模型的实验 |
4.3.1 实验数据及设置 |
4.3.2 实验结果与分析 |
4.4 本章小结 |
第五章 融合统计机器翻译建议的蒙汉神经机器翻译研究 |
5.1 蒙汉统计机器翻译模型研究 |
5.1.1 基于短语的统计机器翻译模型 |
5.1.2 统计机器翻译的对数线性模型 |
5.2 融合统计机器翻译建议的蒙汉翻译模型 |
5.2.1 统计机器翻译建议单词的生成 |
5.2.2 估计建议单词概率的SMT分类器 |
5.2.3 融合统计机器翻译建议词的门控机制 |
5.2.4 利用SMT建议替换UNK词 |
5.3 融合统计机器翻译模型的实验 |
5.3.1 模型训练与实验数据设置 |
5.3.2 实验结果与分析 |
5.3.3 实验对比与总结 |
5.4 本章小结 |
结论 |
参考文献 |
致谢 |
攻读学位期间发表的学术论文及取得的科研成果 |
(2)汉语句法分析中数据增强方法研究(论文提纲范文)
致谢 |
摘要 |
ABSTRACT |
1 引言 |
1.1 研究背景及意义 |
1.2 国内外相关研究 |
1.2.1 依存句法分析研究现状 |
1.2.2 成分句法分析研究现状 |
1.2.3 自然语言处理数据增强研究现状 |
1.3 研究内容和论文结构安排 |
2 相关理论与技术 |
2.1 句法分析概述 |
2.1.1 依存句法分析理论及评测方法 |
2.1.2 成分句法分析理论及评测方法 |
2.2 自然语言处理数据增强概述 |
2.3 基于编码-解码框架的神经网络模型概述 |
2.4 词汇化树邻接语法概述 |
2.5 本章小结 |
3 基于词汇化树邻接语法的数据增强方法 |
3.1 基于词汇化树邻接语法数据增强框架 |
3.2 词汇化树抽取算法 |
3.3 句法树合成算法 |
3.4 汉语词汇化树邻接语法优化 |
3.5 实验设计与设置 |
3.5.1 实验设计 |
3.5.2 实验数据 |
3.5.3 评测指标 |
3.5.4 模型训练细节 |
3.6 实验结果与分析 |
3.6.1 依存句法分析评测实验与结果分析 |
3.6.2 成分句法分析评测实验与结果分析 |
3.7 本章小结 |
4 基于语言模型的语义合理性评估方法 |
4.1 结合语言模型的数据增强方法 |
4.2 语言模型和评估指标 |
4.2.1 n-gram语言模型 |
4.2.2 RNN语言模型 |
4.2.3 语义合理性评估的指标 |
4.2.4 语义合理性评估方法 |
4.3 实验结果与分析 |
4.3.1 依存句法分析评测实验与结果分析 |
4.3.2 成分句法分析评测实验与结果分析 |
4.3.3 不同数据增强方法实验对比结果与分析 |
4.4 本章小结 |
5 结论与展望 |
参考文献 |
作者简历及攻读硕士学位期间取得的研究成果 |
学位论文数据集 |
(3)基于短语结构的汉语层次句法边界研究(论文提纲范文)
摘要 |
Abstract |
符号说明 |
第一章 绪论 |
1.1 研究背景与意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 国内外研究现状 |
1.2.1 句法分析的研究现状 |
1.2.2 词块分析研究现状 |
1.2.3 核心词提取研究现状 |
1.3 主要工作及创新点 |
1.3.1 主要研究内容 |
1.3.2 主要创新点 |
1.4 本文主要结构 |
1.5 本章小结 |
第二章 汉语层次句法边界分析技术研究 |
2.1 汉语结构特征 |
2.2 句法分析分类 |
2.3 层次句法边界分析方法 |
2.4 词块识别技术 |
2.5 词块核心词提取技术 |
2.6 本章小结 |
第三章 词块核心词提取 |
3.1 传统TextRank提取方法 |
3.2 TextRank方法的改进 |
3.2.1 迭代式 |
3.2.2 特征点 |
3.3 模型算法描述 |
3.4 实验分析 |
3.4.1 数据集 |
3.4.2 实验设计 |
3.4.3 评价指标 |
3.4.4 实验结果及分析 |
3.5 本章小结 |
第四章 句法边界识别研究 |
4.1 词块识别研究 |
4.1.1 CRF词块识别模型 |
4.1.2 BiLSTM词块识别模型 |
4.1.3 BiLSTM+CRF词块识别模型 |
4.2 层次句法边界识别流程 |
4.3 实验分析 |
4.3.1 数据集 |
4.3.2 实验设置 |
4.3.3 评价指标 |
4.3.4 实验结果及分析 |
4.3.5 性能对比 |
4.4 本章小结 |
第五章 总结与展望 |
5.1 本文总结 |
5.2 展望 |
致谢 |
参考文献 |
附录A(攻读学位其间发表论文目录) |
(4)半监督汉语依存句法分析领域移植研究(论文提纲范文)
摘要 |
Abstract |
第一章 引言 |
1.1 任务定义 |
1.2 研究背景和意义 |
1.3 相关工作 |
1.3.1 依存句法分析方法 |
1.3.2 汉语句法树库 |
1.3.3 领域移植方法 |
1.3.4 依存句法分析领域移植评测 |
1.4 研究内容 |
1.5 论文结构 |
第二章 基于图的双仿射神经网络依存句法分析器 |
2.1 神经网络介绍 |
2.1.1 循环神经网络 |
2.1.2 长短时记忆网络 |
2.1.3 双向长短时记忆网络 |
2.2 基于图的双仿射神经网络依存句法分析器 |
2.3 本章小结 |
第三章 汉语依存句法数据标注规范制定及树库构建 |
3.1 动机 |
3.2 数据标注规范制定 |
3.2.1 规范制定原则 |
3.2.2 依存关系标签介绍 |
3.3 汉语依存句法树库构建 |
3.3.1 局部标注数据选取过程 |
3.3.2 数据标注流程 |
3.3.3 数据标注质量分析 |
3.4 本章小结 |
第四章 基于领域嵌入的依存句法分析领域移植 |
4.1 动机 |
4.2 方法介绍 |
4.2.1 直接合并(CONCAT) |
4.2.2 多任务学习(Multi-task Learning,MTL) |
4.2.3 领域嵌入(Domain Embedding,DOEMB) |
4.2.4 语料库加权(Corpus Weighting,CW)策略 |
4.3 实验与分析 |
4.3.1 实验数据 |
4.3.2 参数设置与评价指标 |
4.3.3 实验结果 |
4.4 本章小结 |
第五章 基于语言模型微调的依存句法分析领域移植 |
5.1 动机 |
5.2 语言模型介绍 |
5.2.1 ELMo介绍 |
5.2.2 BERT介绍 |
5.3 语言模型使用 |
5.3.1 ELMo使用 |
5.3.2 BERT使用 |
5.4 源领域与目标领域训练数据规模对模型性能影响 |
5.5 依存句法分析领域移植评测 |
5.5.1 任务设置 |
5.5.2 方法介绍 |
5.5.3 实验及分析 |
5.6 本章小结 |
第六章 总结和展望 |
6.1 工作总结 |
6.2 工作展望 |
参考文献 |
攻读学位期间的研究成果 |
致谢 |
(5)基于词粒度知识迁移的依存句法分析研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题背景及研究意义 |
1.1.1 课题背景 |
1.1.2 研究意义 |
1.2 研究现状及分析 |
1.2.1 依存句法分析 |
1.2.2 无监督依存句法分析 |
1.2.3 依存句法分析的迁移学习 |
1.2.4 基于词粒度知识的自然语言处理 |
1.3 本文的研究内容及组织结构 |
1.3.1 研究内容 |
1.3.2 组织结构 |
第2章 基于词共现知识的无监督依存句法分析 |
2.1 引言 |
2.2 相关工作 |
2.3 基于配价的依存句法模型 |
2.4 查询日志中蕴含的句法知识 |
2.4.1 查询日志的语言学分析 |
2.4.2 基于词共现句法知识的表示 |
2.5 基于query知识增强的无监督依存模型结构及推理 |
2.5.1 基于query知识增强的无监督依存模型 |
2.5.2 基于query知识增强的无监督依存模型的推理 |
2.6 实验及结果分析 |
2.6.1 实验数据 |
2.6.2 基线系统及参数设置 |
2.6.3 中文无监督依存句法分析的实验结果 |
2.6.4 英文无监督依存句法分析的实验结果 |
2.6.5 中文数据的案例分析 |
2.6.6 查询日志数据规模的影响 |
2.7 本章小结 |
第3章 基于句法类的依存句法分析 |
3.1 引言 |
3.2 相关工作 |
3.3 基于图的依存句法分析模型 |
3.4 句法类 |
3.4.1 句法类的定义 |
3.4.2 基于依存上下文学习词嵌入 |
3.4.3 依据词嵌入获取句法类 |
3.4.4 句法类在依存句法分析中的应用 |
3.5 实验及结果分析 |
3.5.1 实验设置 |
3.5.2 基于统计和基于神经网络的依存句法分析实验 |
3.5.3 词汇句法类的案例分析 |
3.6 本章小结 |
第4章 基于领域一致词嵌入的依存句法分析领域迁移 |
4.1 引言 |
4.2 相关工作 |
4.3 基于双仿射的深度依存句法分析模型 |
4.4 利用WGAN学习领域一致的词表示 |
4.4.1 面向领域一致词表示的生成器 |
4.4.2 基于深度卷积网络的判别器 |
4.4.3 损失函数设置 |
4.4.4 生成器与判别器的训练过程 |
4.5 学习领域一致词表示实验及分析 |
4.5.1 数据及参数设置 |
4.5.2 WGAN的稳定性及收敛性分析 |
4.5.3 依据词相似度分析领域一致词表示 |
4.6 依存句法分析领域自适应实验及分析 |
4.6.1 数据及参数设置 |
4.6.2 新闻领域迁移到生物领域的依存句法分析结果 |
4.6.3 生物领域迁移到新闻领域的依存句法分析结果 |
4.6.4 不同依存关系上的实验结果分析 |
4.6.5 依存句法分析案例分析 |
4.7 本章小结 |
第5章 基于词汇领域属性的部分去词汇化依存句法分析 |
5.1 引言 |
5.2 相关工作 |
5.3 利用生成式对抗网络识别词汇的语境化领域属性 |
5.3.1 词汇语境化领域属性的识别 |
5.3.2 面向部分去词汇化句子的分类器 |
5.3.3 损失函数设置 |
5.3.4 生成式对抗网络的的博弈训练 |
5.4 掩码在依存句法分析领域迁移中的应用 |
5.4.1 依存句法分析模型 |
5.4.2 隐式向量拼接 |
5.4.3 显式元素替换 |
5.5 实验及结果分析 |
5.5.1 数据及参数设置 |
5.5.2 掩码的隐式应用实验结果 |
5.5.3 Token级掩码的案例分析 |
5.5.4 Token级掩码的显式应用 |
5.6 本章小结 |
结论 |
参考文献 |
攻读博士学位期间发表的论文及其他成果 |
致谢 |
个人简历 |
(6)联合依存分析的汉语语义组合计算(论文提纲范文)
致谢 |
摘要 |
ABSTRACT |
1 引言 |
1.1 研究背景及意义 |
1.2 国内外相关研究 |
1.2.1 依存句法分析研究现状 |
1.2.2 语义组合计算方法研究现状 |
1.3 研究内容与结构安排 |
2 相关理论与技术 |
2.1 依存句法分析概述 |
2.1.1 依存语法理论 |
2.1.2 依存分析算法 |
2.1.3 依存句法分析评测方法 |
2.2 语义组合计算概述 |
2.2.1 语义组合计算理论 |
2.2.2 语义组合计算方法 |
2.2.3 语义组合计算评测方法 |
2.3 神经网络模型概述 |
2.3.1 LSTM概述 |
2.3.2 注意力机制 |
2.3.3 Encoder-Decoder模型 |
2.4 本章小结 |
3 自顶向下的汉语一体化依存分析模型 |
3.1 词内依存结构与一体化依存句法树 |
3.2 自顶向下的转移分析算法 |
3.3 自顶向下的汉语一体化依存分析模型 |
3.3.1 信息提取与分析状态初始化 |
3.3.2 转移动作与依存关系预测 |
3.3.3 模型训练 |
3.4 评测实验与结果分析 |
3.4.1 实验设计 |
3.4.2 实验准备 |
3.4.3 实验结果与分析 |
3.5 本章小结 |
4 联合依存分析的语义组合计算模型 |
4.1 联合依存分析的汉语语义组合计算模型 |
4.2 依存分析的中间信息利用 |
4.3 基于注意力的语义组合模型 |
4.3.1 字义编码层 |
4.3.2 字义组合层 |
4.3.3 句义输出层 |
4.4 模型训练 |
4.4.1 复述识别任务 |
4.4.2 联合模型训练方式 |
4.5 评测实验与结果分析 |
4.5.1 实验设计 |
4.5.2 实验准备 |
4.5.3 实验结果与分析 |
4.6 本章小结 |
5 结论与展望 |
参考文献 |
作者简历及攻读硕士学位期间取得的研究成果 |
学位论文数据集 |
(7)融合降噪门的图注意力网络实体关系抽取模型(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景和意义 |
1.2 相关研究现状 |
1.2.1 基于有监督的实体关系抽取 |
1.2.2 基于半监督的实体关系抽取 |
1.2.3 基于无监督的实体关系抽取 |
1.2.4 基于远程监督的实体关系抽取 |
1.3 本文研究内容 |
1.4 论文结构 |
第二章 相关技术 |
2.1 远程监督关系抽取基础知识 |
2.1.1 远程监督策略 |
2.1.2 多示例学习 |
2.2 注意力机制 |
2.2.1 常规的注意力机制 |
2.2.2 自注意力机制 |
2.3 词向量 |
2.4 长短期记忆网络 |
2.5 依存句法树 |
2.6 图注意力网络 |
2.7 本章小结 |
第三章 融合降噪门的图注意力网络实体关系抽取模型 |
3.1 问题定义 |
3.2 GAT_DGATE模型提出的动机 |
3.2.1 关注句中最重要的依存结构 |
3.2.2 有效降低错误标注的噪音影响 |
3.3 GAT_DGATE模型结构 |
3.3.1 输入层 |
3.3.2 双向LSTM层 |
3.3.3 双向GAT层 |
3.3.4 降噪门机制 |
3.3.5 输出层 |
3.3.6 损失函数 |
3.4 本章小结 |
第四章 实验与分析 |
4.1 数据集介绍 |
4.2 评价指标 |
4.2.1 PR曲线与AUC值 |
4.2.2 Precision@N |
4.3 模型实现细节 |
4.3.1 数据预处理 |
4.3.2 数据采样 |
4.3.3 过拟合处理 |
4.3.4 超参设置 |
4.4 实验结果分析 |
4.4.1 基准模型 |
4.4.2 GAT_DGATE模型中降噪门机制与单边梯度采样技术的有效性 |
4.5 GAT_DGATE模型的可解释性分析 |
4.5.1 图注意力权重可视化分析 |
4.5.2 降噪门机制案例分析 |
4.6 本章小结 |
总结与展望 |
参考文献 |
攻读硕士学位期间取得的研究成果 |
致谢 |
附件 |
(8)汉语抽象语义表示体系、资源构建及其应用研究(论文提纲范文)
摘要 |
Abstract |
引言 |
第一章 句法语义的理论发展及应用探索 |
第一节 句法语义理论研究综述 |
第二节 句法结构表示方法及资源建设概述 |
第三节 英文AMR发展现状及应用研究 |
本章小结 |
第二章 CA-CAMR表示体系 |
第一节 英汉AMR表示体系 |
第二节 CA-CAMR表示方法 |
第三节 CA-CAMR标注体系 |
第四节 CA-CAMR的特点 |
本章小结 |
第三章 CA-CAMR语料库构建 |
第一节 人机结合的CAMR语料标注方法 |
第二节 语料标注一致性统计与问题分析 |
第三节 语料标注不一致现象消解策略 |
第四节 CA-CAMR语料标注规范完善 |
本章小结 |
第四章 CA-CAMR语料库标注结果统计及分析 |
第一节 CA-CAMR基本数据及图结构统计分析 |
第二节 CA-CAMR论元共享统计分析 |
第三节 CA-CAMR特殊句法结构表示及统计分析 |
本章小结 |
第五章 CA-CAMR应用:语义省略研究 |
第一节 相关研究 |
第二节 基于CA-CAMR汉语语义省略研究 |
第三节 基于CA-CAMR省略“的”字结构自动识别与补全 |
本章小结 |
结语 |
附录 A |
参考文献 |
在读期间相关成果发表情况 |
致谢 |
(9)基于规则与条件随机场的汉语句法研究(论文提纲范文)
摘要 |
Abstract |
符号说明 |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 句法分析的研究现状 |
1.2.2 国外组块句法分析发展情况 |
1.2.3 国内组块句法分析发展情况 |
1.3 本文的主要工作及创新点 |
1.3.1 主要研究内容 |
1.3.2 主要创新点 |
1.4 本文主要结构 |
1.5 本章小结 |
第二章 结构句法研究 |
2.1 结构句法分析 |
2.1.1 概述 |
2.1.2 结构句法分析与依存句法分析 |
2.1.3 传统的句法分析类型 |
2.1.4 汉语的结构句法 |
2.2 汉语特征 |
2.2.1 汉语语序特征 |
2.2.2 多元规则 |
2.3 组块识别 |
2.3.1 基于支持向量机的组块识别方法 |
2.3.2 基于条件随机场的组块识别方法 |
2.4 本章小结 |
第三章 基于汉语算式化句法分析研究 |
3.1 句法修饰等级特征 |
3.2 概念定义 |
3.3 算式化融合模型 |
3.4 模型算法描述 |
3.4.1 模型算法复杂度分析 |
3.4.2 模型算法流程 |
3.5 实验分析 |
3.5.1 语料选择与预处理 |
3.5.2 实验结果与分析 |
3.6 本章小结 |
第四章 结合CRF组块识别与多元规则的句法分析研究 |
4.1 提出背景 |
4.2 结合CRF组块识别与多元规则句法分析模型 |
4.2.1 组块定义与处理 |
4.2.2 基于条件随机场的组块识别模型 |
4.2.3 汉语多元规则选择 |
4.2.4 模型实现 |
4.3 实验分析 |
4.3.1 语料选取与实验设计 |
4.3.2 实验结果与分析 |
4.4 本章小结 |
第五章 综合实验分析 |
5.1 实验背景 |
5.1.1 语料选择 |
5.1.2 算法实现 |
5.2 数据预处理与实验设计 |
5.2.1 数据预处理 |
5.2.2 实验设计 |
5.2.3 评测指标 |
5.2.4 实验结果保存与展示 |
5.3 实验结果 |
5.4 本章总结 |
第六章 总结与展望 |
6.1 本文总结 |
6.2 展望 |
致谢 |
参考文献 |
附录 A(攻读学位其间发表论文目录) |
附录 B(核心程序源代码) |
(10)藏文疑问句句法分析关键技术研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状分析 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.3 主要研究内容和目标 |
1.4 论文的主要组织结构 |
第二章 藏文句法分析语料库的构建 |
2.1 藏语语料采集 |
2.2 藏文句法树库构建 |
2.2.1 藏文分词及词性标注 |
2.2.2 藏文句子抽取 |
2.2.3 藏文短语标记 |
2.3 本章小结 |
第三章 基于句法树的藏文疑问句识别 |
3.1 句子识别研究概况 |
3.2 藏文疑问句的特征 |
3.2.1 藏文句子的概述 |
3.2.2 藏文疑问句的分类 |
3.2.3 藏文疑问句的结构特征 |
3.3 藏文疑问句识别 |
3.3.1 基于句法树的藏文疑问句识别算法 |
3.3.2 基于句法树的藏文疑问句识别系统 |
3.4 实验 |
3.4.1 实验数据描述 |
3.4.2 实验设计及评价指标 |
3.4.3 实验结果分析 |
3.5 本章小结 |
第四章 基于PCFG的藏文疑问句句法分析 |
4.1 句法分析概述 |
4.2 藏文疑问句句法分析 |
4.2.1 PCFG模型 |
4.2.2 CYK算法 |
4.2.3 藏文疑问句句法分析 |
4.2.4 藏文疑问句句法分析系统 |
4.3 实验 |
4.3.1 实验数据及步骤 |
4.3.2 实验设计及评价指标 |
4.3.3 实验结果分析 |
4.4 本章小结 |
第五章 总结与展望 |
5.1 工作总结 |
5.2 研究展望 |
参考文献 |
致谢 |
个人简历 |
攻读硕士学位期间的研究成果 |
四、一种生成复杂特征集句法树的汉语句法分析方法与系统实现(论文参考文献)
- [1]融合先验知识的蒙汉神经机器翻译研究[D]. 庞蕊. 内蒙古工业大学, 2021(01)
- [2]汉语句法分析中数据增强方法研究[D]. 陈鸿彬. 北京交通大学, 2021
- [3]基于短语结构的汉语层次句法边界研究[D]. 杨陈菊. 昆明理工大学, 2021(01)
- [4]半监督汉语依存句法分析领域移植研究[D]. 彭雪. 苏州大学, 2020(02)
- [5]基于词粒度知识迁移的依存句法分析研究[D]. 乔秀明. 哈尔滨工业大学, 2020(01)
- [6]联合依存分析的汉语语义组合计算[D]. 陈圆梦. 北京交通大学, 2020(03)
- [7]融合降噪门的图注意力网络实体关系抽取模型[D]. 禹盼. 华南理工大学, 2020(02)
- [8]汉语抽象语义表示体系、资源构建及其应用研究[D]. 戴茹冰. 南京师范大学, 2020(02)
- [9]基于规则与条件随机场的汉语句法研究[D]. 皮乾东. 昆明理工大学, 2020(05)
- [10]藏文疑问句句法分析关键技术研究[D]. 班玛宝. 青海师范大学, 2020(02)