一、可分隔动词及其在拼音-汉字输入中同音词识别的应用(论文文献综述)
戴石麟[1](2005)在《汉字编码输入法研究》文中进行了进一步梳理汉字编码输入一直是汉字信息处理领域中参与人数最多、研究得最多、讨论得最热烈、产品竞争最激烈的领域。虽然目前的汉字编码输入法已有成千上万,然而对它的研究热潮仍然一浪高过一浪。纵观为数众多的汉字编码输入法,大多为低水平的重复设计和开发,技术上的突破很少,理论上的创新就更为罕见了,造成了巨大的人力、物力和财力的浪费。本文在全面分析汉字编码键盘输入法的历史和现状的基础上,以信息论和软件工程为指导,结合认知心理学和人体工程学原理,根据用户的实际需要,从理论和实践两方面着手来研究汉字编码输入法,建立了一个科学的汉字编码输入系统模型,阐述了汉字编码输入法的几项重要评测指标,设计和实现了一套综合性能非常优秀的汉字编码输入法——声笔系列码。本研究的结果表明:(1)汉字编码输入法的研发是一个系统工程,必须在编码层面和软件层面同时改进才能取得理想的效果。(2)“易学的不快,快的不易学”这一对缠绕人们多年的汉字输入法研究和使用中的矛盾是可以解决的。(3)汉字信源的统计特征对具体用户来说不是一成不变的,而变化的统计特征可以被利用来提高汉字输入的效率。(4)汉字输入时的人机交互应当适可而止,不能过多也不能过少。(5)汉字编码输入法可以基本上实现在通用键盘和数字键盘上的互操作。(6)大型数据库用于汉字编码输入法是可行的和有效的。(7)通过对数字键盘上字母的布局进行适当的调整,结合巧妙的编码方法,完全可以实现在数字键盘上简单、快捷地输入汉字和英文,包括各种标点符号和带调汉语拼音字母。(8)使用汉字读音特征进行编码的输入法必须解决好不认识的字的输入问题,否则该输入法就是不完备的。声笔系列码的实验结果说明:(1)声笔系列码中的声笔码、音笔码和声笔数码都符合国家规范。(2)声笔码比全拼还易学、易用,同时速度上已接近五笔字型。(3)音笔码的学习难度仅与双拼相当,易于盲打,比五笔字型容易得多,对一般的连续文本动态其平均码长却比五笔字型缩短了约10%。(4)声笔数码与T9拼音、T9 笔画的学习难度相当,人机交互比它们少得多,其动态平均码长比T9 拼音缩短了约36%,比T9 笔画缩短约12%。
张俊[2](2004)在《基于神经网络的拼音汉字转换》文中研究指明拼音汉字转换是自然语言处理的重要内容,在语音输入,语音识别,汉字输入等领域都有重要的应用。本系统的应用背景是中国盲文系统中盲文与汉字的相互转换模块。盲文和拼音有很简单的对应关系,所以盲文到汉字的转换就是拼音与汉字的转换。自然语言处理有基于规则和基于语料库统计两种方法。本文提出的基于神经网络的方法是基于语料库统计的方法的一种,这类方法比基于规则的方法简单,同时也具有很好的效果,能够较好的处理语言的远距离关联和深度递归。本文首先分析了拼音汉字转换的过程和原理,指出拼音汉字转换的重点在于同音字的选择,然后考察了拼音汉字转换的现有的几种方法,重点考察了基于隐马尔可夫模型的转换方法,指出了该方法的一些不足,然后针对这些不足,引入了神经网络的方法,说明了利用神经网络的模式记忆和联想能力来实现拼音汉字的转换的原理。提出了基于神经网络的音字转换系统的结构,设计并实现了基于BP网络和基于RNN网络的拼音汉字转换系统,讨论了运用反向传播算法(BP)算法和随时间演化的反向传播算法(BPTT)对这两种网络进行训练的方法。设计了输出增量训练算法来实现对网络的无监督训练,提出了神经网络和viterbi相结合的拼音汉字转换算法。并说明了系统各模块的功能和实现。对系统实现中的难点和重点进行了讨论。最后讨论了试验结果,对几种方法的转换特性,正确率,时间空间效率和其中的原因进行了讨论。说明了采用基于神经网络的方法模拟高阶的隐马尔可夫模型实现的意义,并提出了以后的改进方向。
宗成庆[3](1998)在《音字转换与句子规范化处理研究》文中指出汉语音字转换和句子规范化处理是中文信息处理研究中的难题。本论文以汉英语音翻译系统为研究背景,对音字转换和汉语句子规范化处理问题进行了深入研究和探索。 在汉英语音翻译系统中,音字转换和句子规范化处理是介于语音信号识别和机器翻译机制之间的重要环节。研究音字转换和句子规范化处理不仅对于语音翻译系统的研究和实现具有重要意义,而且对于人机语音通讯和自然语言人机接口等相关问题的研究,都有十分重要的理论意义和实用价值。 在音字转换研究中,作者通过对目前两种主要的实现技术—基于语言知识的分析方法和基于语料库的统计方法的分析,提出了基于上下文分析的试探-回溯(TB)音字转换模型,设计并实现了基于TB模型的音字转换(PHT)算法。TB模型将拼音流切分与同音词识别一体化交叉处理,候选同音词的上下文分析结果作为拼音流切分的启发信息,从而避免了拼音流切分的盲目性,提高了拼音流切分的正确率。TB模型的处理思想对于尽早发现和废除音字转换中的非法路径,减少过多的同音词引起的组合爆炸具有积极意义。 作者在开发基于TB模型的音字转换系统(ITP)中,提出并实现了基于多知识源的同音词识别方法。该方法将SC文法的Search搜索函数应用于同音词辨析,利用词性相关信息、语义相关信息、位置相关信息、字面相关信息以及音节相关信息和词频统计信息,实现了同音词的多重相关信息综合辨析。 ITP系统中还首次提出了一般性拼音流切分与特殊音词串针对性处理相结合的处理策略。对最常用音节构成的部分高频音词串进行针对性处理,可有效地避免由于拼音流切分不当而产生的一些常见错误。 ITP系统的转换结果评估函数,不仅考虑了词频信息对转换结果的作用,而且还考虑了句法分析和上下文分析结果对候选转换结果的影响。函数计算复杂性小,评估正确率高。 ITP系统的实践证明,基于TB模型的音字转换算法和基于多知识源
邓晶[4](1996)在《整体/高频优先原理 ——拼音流—汉字串转换中不确定性消解技术研究》文中研究表明拼音流转换技术是当前解决汉字输入问题的一个新方向。汉语中一个拼音往往对应多个汉字,为了在拼音输入中消除音—字转换中的歧义,使拼音自动、准确地转换为相应的汉字,只能利用拼音流的上下文约束。 本文把拼音流转换看成消除音—字对应中的不确定性的问题。在拼音流转换中基于整体/高频原理,将评分技术溶入转换的分析中。我们不把分词的标准和语法规则看作“硬性”的标准,而认为那些规则是有一定“强度”和“优先级”的。我们采用了一些记分体系来衡量规则的强度和基于不同规则得到的转换结果的强度。这些评分体系基于“整体/高频优先”原则:即在分词中,长的词和词频高的词得分高;语法分析中,运用“强”规则得到的结果和分词评分高的结果得分高。 转换系统分为分词和语法分析两部分。分词采用了基于“半词”的分词法。这种分词法利用了词长,词频等信息,具有很高的分词准确率。语法分析部分,在厄利分析法上加入了评分技术,改善了语法分析对拼音流的消歧作用。 评分的优点在于能够较好地综合各项分析的消歧作用。利用它,我们可以通过结合相对比较简单的分词,语法分析技术来较快、较准地消除音—字转换的歧义。不过,当前基于评分技术的拼音流转换系统还不完善,有待进一步的发展。 全文第一章是的引言阐述了整体/高频原理的思想。第二章总结了当前拼音流输入的现状,简介了作者的工作。第三章介绍了拼音流转换中用到的算法和算法中采用的评分方式。第四章简单介绍了系统的实现,并对拼音流转换的改进提出了一些建议。第五章总结全文。
万建成[5](1994)在《语音代码──汉字智能转换研究》文中进行了进一步梳理在综述了语音代码-汉字智能转换(IPC)研究的发展和技术现状后,本文就其研究的范畴问题提出作者的观点,其中包括:变换的形式定义,研究所涉及的范围和困难问题。变换效果的评价等,在评价方面,提出了转换的完备性、唯一性、歧义性、本原性歧义和非本原性歧义的概念.文章就进一步研究提出了作者的建议,希望本文提出的问题能起引起有关的讨论,在充分认识IPC研究的必要性和困难的基础上,将其引向全面深入的发展。
万建成[6](1992)在《FPY中同音词句法相关识别的实现》文中认为 在“拼音—汉字转换输入中的结构识别方法”(中文信息学报。1992,2)一文中,作者首次提出了利用可分隔动词的结构和使用特性,实现部分同音词识别的设想。在汉语常用词汇中,有一部分使用频度较高的多字(主要是两字)词。在语言实践中,它们不仅可以单独作为词汇使用,而且经常在加入其他成分分隔后,在上下文相关的环境中使用。这样的词汇主要是那些具有动宾和动补结构的可分隔动词。利用汉语这一结构和使用上的特点,可以解决相当部分同音词尤其是单字同音词的识别问题。对于提高拼音—汉字转换输入方法的实用性,这将是十分有意义的。
万建成[7](1992)在《拼音-汉字转换输入中的结构识别方法》文中研究表明本文提出并讨论了拼音汉字转换输入法中的常用词搭配结构的识别方法。该方法在词组的水平上,在常用搭配结构约束下,利用少量的词属性特征,可有效的解决许多单字词的识别问题,这其中包括一些单纯句法难以识别的同音单字词。
二、可分隔动词及其在拼音-汉字输入中同音词识别的应用(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、可分隔动词及其在拼音-汉字输入中同音词识别的应用(论文提纲范文)
(1)汉字编码输入法研究(论文提纲范文)
中文摘要 |
英文摘要 |
1 绪论 |
1.1 问题的提出 |
1.2 研究的内容 |
2 汉字编码输入法综述 |
2.1 基础工作 |
2.2 理论研究 |
2.2.1 汉字熵、最短码长和极限速度 |
2.2.2 输入模型 |
2.2.3 输入法评测 |
2.3 实用系统 |
2.3.1 实用系统分类 |
2.3.2 第一代汉字编码输入法 |
2.3.3 第二代汉字编码输入法 |
2.3.4 第三代汉字编码输入法 |
2.3.5 数字键盘编码输入法 |
2.3.6 通用输入法平台 |
2.4 小结 |
3 汉字编码输入法理论 |
3.1 汉字编码的理论基础 |
3.1.1 形式语言的有关知识 |
3.1.2 信息论的有关知识 |
3.2 汉字编码输入分析与评测 |
3.2.1 汉字编码输入分析 |
3.2.2 汉字编码输入评测 |
3.3 汉字编码输入系统模型 |
3.3.1 汉字编码输入系统的信源 |
3.3.2 汉字编码输入系统的编码器 |
3.3.3 汉字编码输入系统的正向信道 |
3.3.4 汉字编码输入系统的噪声源 |
3.3.5 汉字编码输入系统的译码器 |
3.3.6 汉字编码输入系统的反向信道 |
3.4 小结 |
4 声笔系列码的设计与实现 |
4.1 编码设计 |
4.1.1 声笔码 |
4.1.2 声笔数码 |
4.1.3 音笔码 |
4.1.4 编码空间对比 |
4.2 软件设计 |
4.2.1 反馈设计 |
4.2.2 状态切换 |
4.2.3 码长调整 |
4.2.4 选择翻页 |
4.2.5 词组管理 |
4.2.6 主要算法 |
4.3 非汉字符号处理 |
4.3.1 标点符号 |
4.3.2 半角字符 |
4.3.3 汉语拼音 |
4.4 声笔系列码的实现 |
4.4.1 开发环境 |
4.4.2 运行环境 |
4.4.3 数据库表结构 |
4.4.4 数据库表制作 |
4.5 性能与实验结果 |
5 结论与展望 |
5.1 结论 |
5.2 展望 |
致谢 |
参考文献 |
附录:作者在攻读硕士学位期间发表的论文和成果 |
独创性声明 |
学位论文版权使用授权书 |
(2)基于神经网络的拼音汉字转换(论文提纲范文)
第一章 引言 |
1.1 拼音汉字转换概述 |
1.1.1 自然语言处理简介 |
1.1.2 拼音汉字转换项目背景 |
1.1.3 拼音汉字转换研究现状 |
1.2 神经网络的概述 |
1.3 matlab及基于matlab的神经网络 |
第二章 设计 |
2.1 基于规则的拼音汉字转换思想 |
2.2 基于HMM方法的拼音汉字转换思想及其不足 |
2.2.1 概率模型 |
2.2.2 基于隐马尔可夫模型(HMM)的拼音汉字转换 |
2.3 基于神经网络拼音汉字转换思想 |
2.3.1 训练 |
2.3.2 计算 |
2.4 网络结构设计 |
2.4.1 BP网络简介 |
2.4.2 递归网络简介 |
2.4.3 系统网络设计 |
第三章 实现 |
3.1 训练算法 |
3.2 转换过程 |
3.3 遇到问题及解决方法 |
第四章 试验数据及分析 |
第五章 结论 |
5.1 基于神经网络方法的优点及前景 |
5.2 基于神经网络方法的不足及改进方向 |
致谢 |
参考文献 |
(3)音字转换与句子规范化处理研究(论文提纲范文)
致谢 |
摘要 |
ABSTRACT |
目录 |
第1章 绪论 |
第2章 问题研究背景 |
2.1 语音翻译技术研究现状 |
2.1.1 国外语音翻译研究现状 |
2.1.2 国内语音翻译研究现状 |
2.2 语音翻译技术分析 |
2.2.1 基本工作原理 |
2.2.2 面临的困难 |
2.2.3 关于语音翻译系统设计 |
2.3 问题提出 |
第3章 音字转换技术分析 |
3.1 音字转换技术现状 |
3.1.1 基于语言知识的分析方法 |
3.1.2 基于语料库的统计方法 |
3.2 音字转换的理论模型 |
3.2.1 概述 |
3.2.2 分析方法的理论模型研究 |
3.2.3 统计方法的理论模型研究 |
3.3 音字转换技术分析 |
3.3.1 已经实现的技术 |
3.3.2 分析方法的不足 |
3.3.3 统计方法的不足 |
3.4 几个具体问题的讨论 |
第4章 基于多知识源的音字转换研究 |
4.1 问题求解思路 |
4.2 基本定义和符号表示 |
4.2.1 基本定义 |
4.2.2 上下文条件搜索函数 |
4.3 TB音字转换模型 |
4.4 基于TB模型的音字转换算法 |
4.4.1 概述 |
4.4.2 算法设计思想 |
4.4.3 算法描述 |
4.4.4 句法分析 |
4.4.5 评估函数设计 |
4.5 基于多知识源的同音词识别 |
4.5.1 词性相关处理 |
4.5.2 语义相关处理 |
4.5.3 位置相关处理 |
4.5.4 音节相关处理 |
4.5.5 字面相关处理 |
4.6 同音词识别效果 |
4.7 最常用音节的针对性处理 |
4.8 动态多维语境学习 |
第5章 ITP系统设计与实现 |
5.1 系统概要 |
5.1.1 系统总体结构 |
5.1.2 各模块功能描述 |
5.1.3 ITP系统实现环境 |
5.2 词类组织与词义描写 |
5.2.1 ITP系统的词类组织 |
5.2.2 词义描写 |
5.3 ITP系统的知识表示 |
5.3.1 音词库结构 |
5.3.2 音词库收词原则 |
5.3.3 词法规则 |
5.3.4 短语规则 |
5.3.5 句法规则 |
5.4 系统运行效果 |
5.4.1 运行实例 |
5.4.2 系统评价 |
第6章 汉语句子规范化处理研究 |
6.1 汉语句子处理研究现状 |
6.1.1 现代汉语句型研究 |
6.1.2 句子分析与处理 |
6.1.3 句子处理中存在的问题 |
6.2 非规范汉语句子特点分析 |
6.2.1 非规范句子类型 |
6.2.2 非规范句子结构特点 |
6.3 基于模板匹配的句子规范化处理 |
6.3.1 规范化处理思想 |
6.3.2 句型模板设计 |
6.3.3 模板匹配算法 |
6.3.4 问题讨论 |
第7章 结束语 |
参考文献 |
作者简历 |
攻读博士学位期间发表和被录用的主要论文 |
(4)整体/高频优先原理 ——拼音流—汉字串转换中不确定性消解技术研究(论文提纲范文)
致谢 |
摘要 |
ABSTRACT |
目录 |
第一章 引言 |
第二章 综述 |
2.1 分析方法 |
2.2 统计方法 |
2.3 目前已实现的技术 |
2.4 当前的困难 |
2.5 对转换系统的评价 |
2.6 本文的工作 |
2.7 一些问题 |
第三章 技术与算法 |
3.1 分词技术 |
3.1.1 分词技术介绍 |
3.1.2 基于“半词”的分词法 |
3.2 语法分析 |
第四章 系统实现 |
4.1 系统描述 |
4.2 实例 |
4.3 拼音流转换系统的总结和发展建议 |
第五章 结束语 |
参考文献 |
作者简历 |
四、可分隔动词及其在拼音-汉字输入中同音词识别的应用(论文参考文献)
- [1]汉字编码输入法研究[D]. 戴石麟. 重庆大学, 2005(08)
- [2]基于神经网络的拼音汉字转换[D]. 张俊. 南京理工大学, 2004(04)
- [3]音字转换与句子规范化处理研究[D]. 宗成庆. 中国科学院研究生院(计算技术研究所), 1998(02)
- [4]整体/高频优先原理 ——拼音流—汉字串转换中不确定性消解技术研究[D]. 邓晶. 中国科学院研究生院(计算技术研究所), 1996(02)
- [5]语音代码──汉字智能转换研究[J]. 万建成. 中文信息学报, 1994(02)
- [6]FPY中同音词句法相关识别的实现[J]. 万建成. 山东工业大学学报, 1992(04)
- [7]拼音-汉字转换输入中的结构识别方法[J]. 万建成. 中文信息学报, 1992(01)