一、提取帮助文档中的主题文本(论文文献综述)
赵京胜,宋梦雪,高祥,朱巧明[1](2022)在《自然语言处理中的文本表示研究》文中研究说明自然语言处理是人工智能的核心技术,文本表示是自然语言处理的基础性和必要性工作,影响甚至决定着自然语言处理系统的质量和性能.探讨了文本表示的基本原理、自然语言的形式化、语言模型以及文本表示的内涵和外延.宏观上分析了文本表示的技术分类,对主流技术和方法,包括基于向量空间、基于主题模型、基于图、基于神经网络、基于表示学习的文本表示,进行了分析、归纳和总结,对基于事件、基于语义和基于知识的文本表示也进行了介绍.对文本表示技术的发展趋势和方向进行了预测和进一步讨论.以神经网络为基础的深度学习以及表示学习在文本表示中将发挥重要作用,预训练加调优的策略将逐渐成为主流,文本表示需要具体问题具体分析,技术和应用融合是推动力.
张乔豪,罗雅文[2](2021)在《改进的文档相似性比较方法》文中研究指明基于现有文档相似性比较方法进行改进,该方法由前人提出,但在实际应用中暴露出问题。所提出的改进是对现有方法过程进行部分改进,如对输入的文档进行预处理、改进文档向量以及标注关键字词性。经过最终实验验证,改进方法提高文档相似性比较结果的准确度和效率。
刘国城[3](2021)在《文本可视分析与审计大数据可视化》文中进行了进一步梳理现时代,传统审计的观念与思维、组织与管理、技术与方法发生深层次变革,非结构化文本数据在审计大数据中的比重逐步加大。如何借助文本可视分析思想推进审计大数据的可视化,并通过辨析可视图元快速提取审计证据,已成为国家审计机关亟待解决的关键问题之一。本文在梳理文献基础上,以审计文本信息为对象,从文本挖掘、视图绘制与人机交互等维度设计审计大数据可视化的运行流程,通过文本内容可视化、文本关系可视化、文本情感可视化等类型的划分,探索审计大数据可视化的呈现方式,并基于可视化的管理、服务、监控等视角提出审计大数据可视化平台的构建策略,以期加速推进审计大数据可视化的智能化建设与常态化发展。
张柳[4](2021)在《社交网络舆情用户主题图谱构建及舆情引导策略研究》文中进行了进一步梳理习近平总书记在党的十九大上向全党全国人民发出了“坚定文化自信,推动社会主义文化繁荣兴盛”的伟大号召。“总体国家安全观”也被列为新时代背景下建设有中国特色社会主义的基本方略。对社交网络舆情的有效监管,是在新形势下应对国家安全环境新变化、新发展的必然要求。但是,网络的虚拟性,给社交网络舆情的监管带来了极大的难度。社交网络以及舆情用户的特性对社交网络舆情信息生态平衡有着较大的影响,如若不加以正确的引导与管理,会导致社交网络舆情生态系统恶化,甚至威胁社会和谐和国家稳定。如何有效地利用知识图谱构建社交网络舆情用户主题图谱系统模型,挖掘用户的潜在社群,确定用户的身份特征,并分析出用户的情感倾向,是舆情监管工作的有效切入点。本文结合文献分析法、实证研究法、知识图谱和机器学习等方法,构建社交网络舆情用户主题图谱并提出舆情引导策略。具体来说,本研究主要包括六个部分。首先,第三章提出社交网络舆情用户主题图谱系统模型,是全文的理论核心框架,指出社交网络舆情用户主题图谱系统模型的四个关键要素为信息环境、信息人、信息和信息技术,并通过用户社群图谱、用户身份图谱和用户情感图谱构成多维度的主题图谱;之后,第四章至第六章分别基于信息环境、信息人和信息,以“埃航空难”作为典型话题案例,运用实证分析方法,通过构建用户社群图谱、用户身份图谱以及用户情感图谱,研究社交网络舆情用户社群发现、用户身份识别以及情感演化规律,为第七章和第八章提供理论支撑;随后,第七章提出社交网络舆情生态性评价,并基于第四、五、六章的分析内容提出社交网络舆情生态性评价指标,为第八章提出的舆情引导策略提供理论支撑;最后,第八章提出社交网络舆情引导策略,为本文实践层面的落脚点。下面予以详细阐述。第三章社交网络舆情用户主题图谱系统构建。首先,提出社交网络舆情用户主题图谱的信息生态要素为环境要素、主体要素、客体要素以及技术要素;其次,结合知识图谱的相关理论,提出社交网络舆情用户主题图谱的实体识别、关系抽取、属性抽取以及模型构建;然后,指出社交网络舆情用户主题图谱分别由用户社群图谱、用户身份图谱和用户情感图谱三个维度构成,并从信息环境角度对社群发现、信息人角度对身份识别以及信息角度对情感演化进行深度分析,并在此基础上对整个社交网络舆情进行生态性评价;最后,提出社交网络舆情用户主题图谱系统模型。第四章社交网络舆情用户社群图谱构建及关系发现。本章基于信息环境理论,结合JS散度的LDA主题模型构建社交网络舆情用户社群图谱,并进行社群关系发现。采用实证研究法,对“埃航空难”话题下的舆情文本进行主题建模,利用困惑度指标确定舆情用户最优主题数,通过JS散度进行相似度度量,并将计算结果作为边权重,使用VOSviewer软件构建用户社群图谱,进一步划分多个网络社群,对网络社群的主题偏好以及用户特征进行分析讨论,并准确定位网络社群中的意见领袖。本章主要研究社交网络舆情中的信息环境,与第五、六章相呼应,为第七章社交网络舆情生态性评价指标(B1、B2)和第八章社交网络舆情社群的引导策略提供理论支撑。第五章社交网络舆情用户身份图谱构建及身份识别。本章基于信息人理论,结合LDA主题模型和朴素贝叶斯分类器模型构建社交网络舆情用户身份图谱,并对用户身份进行识别。首先,采用实证研究法,以突发事件“埃航空难”话题作为信息环境构建舆情空间,挖掘舆情用户转发评论文本的深层语义特征,剖析舆情用户的身份特征和传播特征;然后利用朴素贝叶斯分类器划分舆情用户类型,结合舆情生命周期,使用Neo4j绘制用户身份图谱,从而有效掌握社交网络舆情用户身份类型,并系统剖析社交网络舆情用户主题关注点及演化过程。本章主要研究社交网络舆情中的信息人,与第四、六章相呼应,为第七章社交网络舆情生态性评价指标(B3、B4、B5)和第八章社交网络舆情用户的引导策略提供理论支撑。第六章社交网络舆情用户情感图谱构建及情感演化。本章基于信息理论,基于字词向量的多尺度卷积神经网络构建社交网络舆情用户情感图谱,有效划分舆情用户情感倾向。首先,采用实证研究法,以突发事件“埃航空难”话题为例对舆情用户的转发评论信息进行情感分类,并对构建的舆情文本情感分类模型的准确性进行验证分析,并验证模型的优越性;然后,结合舆情文本的情感倾向与突发事件舆情发展周期,使用Gephi绘制用户情感图谱,动态展示社交网络舆情用户情感演化过程,全面分析网络舆情的发展与舆情用户的情感变化规律。本章主要研究社交网络舆情中的信息,与第四、五章相呼应,为第七章社交网络舆情生态性评价指标(B6)和第八章社交网络舆情情感的引导策略提供理论支撑。第七章社交网络舆情生态性评价。本章基于信息生态系统理论提出社交网络舆情生态性评价体系。采用综合模糊评价法,对突发事件“埃航空难”话题的爆发期阶段进行生态性评价,并对评价结果进行了分析,有效地解决了生态评价指标难以量化的问题,为生态性评价提供了可操作性的解决方案。本章与第四、五、六章相呼应,为第八章社交网络舆情情感的引导策略提供理论支撑。第八章社交网络舆情引导策略。本章基于第四、五、六章的研究结论,在第七章社交网络舆情生态性评价指标的基础上,提出社交网络舆情引导策略。首先从互联网及社交网络舆情生态性的角度指出目前存在的问题;然后分别从信息环境、信息人以及信息三个维度提出了引导策略。具体而言,本章从信息环境维度,提出加强衍生话题的监测、完善社交网络舆情话题推送和重视社群服务的社群引导策略;从信息人维度,提出完善用户类型化管理、发挥主流媒体的作用和完善意见领袖沟通机制的用户引导策略;从信息维度,提出社交网络内容精细化管理、重视舆情情感引导、完善健全舆情情感预警机制的情感引导策略。本文在理论层面,提出了社交网络舆情用户主题图谱的系统构建方式,为社交网络舆情主题图谱的构建提供理论基础及实践指导。从用户社群、用户身份、用户情感三个不同维度构建了社交网络舆情用户主题图谱系统模型,从而使得管控主体能够深入挖掘用户的潜在社群、有效地识别用户身份、准确地分析用户的情感倾向;同时,提出的生态性评价指标为社交网络舆情生态评价提供了可量化的评价标准,为社交网络舆情的科学管理提供了有效的理论支撑。在舆情的具体实践中,能够指导管控主体从社群、用户、情感三个层面入手,制定相应的管控策略,指引社交网络平台的系统开发方向,保障社交网络舆情生态朝着健康的方向发展。
孙青云,刘吉华[5](2021)在《基于文本挖掘的MOOC差评意愿的影响因素研究》文中指出近年来随着教育技术的快速发展,MOOC已经广泛进入各大高校课堂,其中所面临的完成率低的问题引起了社会的广泛关注,为了提高MOOC的学习质量,激发学生的学习积极性,本文通过抓取"中国大学MOOC"平台相关课程的学生在线差评进行文本挖掘,探究影响学生进行差评行为的重要因素,首先采用网络爬虫技术,抓取了"中国大学MOOC"平台上不同类别的课程评论,并利用python软件进行了数据清洗,采用百度AI语义分类器对评论进行情感分类,接着利用LDA模型(Latent Dirichlet Allocation,LDA)对情感倾向为负向的评论文本进行了主题提取,最后对结果进行了可视化和解读并给出了相应的对策和建议。研究表明用户对于MOOC的课程内容、网站设计和媒体技术的问题反映最为强烈,不同类别的课程的用户所反映的问题的主题存在一定差异,偏理工科类的课程的问题更偏重于课程内容、教师水平以及交互活动等方面,文史类的课程则更偏重于教学设计、视频设计以及课程证书等方面。该结论对于MOOC平台建设者、课程开发者以及课程管理者针对MOOC课程的改善具有一定的借鉴作用。
娄正伟[6](2021)在《基于模块度的LDA模型话题演化分析方法研究与实现》文中提出随着现代互联网信息技术的不断进步与发展,网络新闻的发布数量也在不断上升,面对巨量网络新闻信息,人们难以快速且准确地定位到自己想要掌握的内容。LDA(Latent Dirichlet Allocation)主题模型能够有效降低文本维度,在话题演化分析方面的研究也在不断增多,但LDA模型中主题数难以实现有效选取,该问题在相关研究中关注度仍显不足。为此,本文围绕复杂网络理论、模块度和LDA模型进行话题发现,并在此基础上设计一种话题演化系统。本文的主要工作和创新点如下:(1)提出一种基于模块度的LDA模型(MCN-LDA模型)话题发现方法。本文以复杂网络作为理论基础,并在词熵和关键词之间的共现关系的基础上构建节点与边关系,从而形成信息话题词共现复杂网络,通过基于模块度的社群发现算法来对信息话题词共现复杂网络中的社群进行划分,以此来得到最优主题数,从而实现对LDA模型的有效改进。实验证明,本文所提出的模型具有更好的泛化能力和主题抽取性能。(2)提出一种基于话题演化周期的时间片划分方法。本文将话题演化周期理论加入到时间片划分中,话题演化的每一个阶段都拥有自己的特点,持续时间也有所不同,所以需根据具体情况来进行时间片划分,研究话题演化过程中的特征变化情况。因此,本文结合话题演化生命周期和各个时间段的新闻文本数量来进行时间片划分,以实现话题关系演化过程特征变化的有效发现。(3)提出一种基于JS散度和时间衰减的话题演化关系判别方法。本文在使用JS散度的基础上,将时间衰减引入到话题关系判别中来,通过调和相似度和阈值之间的大小关系来判别是否具有演化关系。实验证明,本文所示方法提高了话题演化关系识别的效果。综上所述,本文通过研究新闻话题演化中话题发现、时间片划分、话题演化分析等方面的内容,在公开数据集上对话题发现方法进行有效性证明,并在真实数据集上进行了话题演化分析,为新闻话题演化研究提供了研究思路和理论指导。
苏宁[7](2021)在《融合语义特征的关键词提取方法研究》文中提出
房俊茹[8](2021)在《基于知识图谱的社区治理决策研究》文中研究表明
茅倩[9](2021)在《中文网络招聘语料的技能词识别与分析 ——基于IT类行业》文中研究指明
景道月[10](2021)在《标签生成方法研究及其在信息检索中的应用》文中研究指明
二、提取帮助文档中的主题文本(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、提取帮助文档中的主题文本(论文提纲范文)
(2)改进的文档相似性比较方法(论文提纲范文)
1 相关信息检索方法 |
1.1 关键字提取算法 |
1.1.1 TF-IDF |
1.1.2 LDA |
1.1.3 TextRank |
1.2 词性(POS) |
1.3 词袋模型 |
1.4 测量相似性 |
1.4.1 余弦距离 |
1.4.2 欧氏距离 |
2 文档相似性比较方法 |
2.1 现有方法 |
2.2 现有方法不足之处 |
2.3 改进方法 |
2.4 改进方法与现有方法比较 |
1)关键字提取。 |
2)文档向量: |
3 所使用技术 |
3.1 TF-IDF |
3.2 余弦距离 |
4 实验 |
4.1 实验总体设计 |
4.2 实验实施过程 |
4.3 实验结果 |
4.3.1 提取关键字 |
4.3.2 处理时间 |
4.3.3 相似性结果 |
5 结束语 |
(3)文本可视分析与审计大数据可视化(论文提纲范文)
一、引言 |
二、文献回顾 |
(一)文本可视分析 |
(二)审计大数据可视化 |
三、基于文本可视分析的审计大数据可视化运行流程 |
(一)审计文本数据的挖掘分析 |
(二)审计文本数据的视图绘制 |
(三)审计文本数据的人机交互 |
四、基于文本可视分析的审计大数据可视化呈现方式 |
(一)针对审计文本内容的可视化呈现 |
(二)针对审计文本关系的可视化呈现 |
(三)针对审计文本情感的可视化呈现 |
五、基于文本可视分析的审计大数据可视化平台构建 |
(一)“可视化管理”模块 |
(二)“登录系统设置”模块 |
(三)“分析方法选择”模块 |
(四)“可视化软件工具”模块 |
(五)“可视化作业”模块 |
(六)“可视化决策支持”模块 |
(七)“可视化服务”模块 |
(八)可视化监控模块 |
六、结束语 |
(4)社交网络舆情用户主题图谱构建及舆情引导策略研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景与选题意义 |
1.1.1 研究背景 |
1.1.2 选题意义 |
1.2 国内外研究现状 |
1.2.1 国内外社交网络舆情研究现状 |
1.2.2 国内外网络舆情知识图谱研究现状 |
1.2.3 研究现状评述 |
1.3 研究内容与方法 |
1.3.1 研究内容 |
1.3.2 研究方法 |
1.3.3 研究对象 |
1.4 研究技术路线图 |
第2章 相关概念及理论基础 |
2.1 社交网络舆情的相关概念 |
2.1.1 社交网络舆情的内涵 |
2.1.2 社交网络舆情用户 |
2.1.3 社交网络舆情的特征 |
2.1.4 社交网络舆情演化过程 |
2.2 主题图谱的相关概念 |
2.2.1 知识图谱的内涵 |
2.2.2 主题图谱的内涵 |
2.2.3 主题模型的内涵 |
2.3 突发事件的相关概念 |
2.3.1 突发事件的内涵 |
2.3.2 突发事件的类型 |
2.3.3 突发事件的特征 |
2.4 信息生态的相关理论 |
2.4.1 信息生态的内涵 |
2.4.2 信息生态系统 |
2.4.3 信息生态因子 |
2.4.4 信息生态链 |
2.5 本章小结 |
第3章 社交网络舆情用户主题图谱系统模型 |
3.1 社交网络舆情用户主题图谱的信息生态要素 |
3.1.1 社交网络舆情用户主题图谱的环境要素 |
3.1.2 社交网络舆情用户主题图谱的主体要素 |
3.1.3 社交网络舆情用户主题图谱的客体要素 |
3.1.4 社交网络舆情用户主题图谱的技术要素 |
3.1.5 社交网络舆情用户主题图谱信息生态要素模型 |
3.2 社交网络舆情用户主题图谱构建 |
3.2.1 社交网络舆情用户主题图谱的实体识别 |
3.2.2 社交网络舆情用户主题图谱的属性抽取 |
3.2.3 社交网络舆情用户主题图谱的关系抽取 |
3.2.4 社交网络舆情用户主题图谱的模型 |
3.3 社交网络舆情用户主题图谱构成 |
3.3.1 社交网络舆情用户社群图谱 |
3.3.2 社交网络舆情用户身份图谱 |
3.3.3 社交网络舆情用户情感图谱 |
3.3.4 社交网络舆情生态性及评价 |
3.4 主题图谱系统模型构建 |
3.5 本章小结 |
第4章 社交网络舆情用户社群图谱构建及社群发现 |
4.1 社交网络舆情用户社群图谱问题的提出 |
4.2 社交网络舆情用户社群发现模型 |
4.2.1 LDA主题模型 |
4.2.2 相似度度量 |
4.3 社交网络舆情用户社群图谱模型构建 |
4.3.1 社交网络舆情用户社群图谱建模思想 |
4.3.2 基于LDA主题模型的社交网络舆情用户社群图谱模型 |
4.4 研究设计 |
4.4.1 数据来源 |
4.4.2 数据采集 |
4.4.3 数据处理 |
4.5 数据结果 |
4.5.1 确定最优主题数 |
4.5.2 计算JS散度 |
4.5.3 构建用户社群图谱 |
4.6 讨论分析 |
4.6.1 社交网络社群主题偏好分析 |
4.6.2 社交网络社群用户特征分析 |
4.6.3 社交网络社群意见领袖识别 |
4.7 本章小结 |
第5章 社交网络舆情用户身份图谱构建及身份识别 |
5.1 社交网络舆情用户身份图谱问题的提出 |
5.2 社交网络舆情用户身份识别模型 |
5.2.1 LDA语义特征挖掘 |
5.2.2 身份特征和传播特征构建 |
5.2.3 朴素贝叶斯分类器 |
5.3 社交网络舆情用户身份图谱模型构建 |
5.3.1 社交网络舆情用户身份图谱建模思想 |
5.3.2 基于LDA和朴素贝叶斯的用户身份图谱模型 |
5.4 研究设计 |
5.4.1 数据来源 |
5.4.2 数据采集 |
5.4.3 数据处理 |
5.4.4 舆情事件概况及周期划分 |
5.5 数据结果 |
5.5.1 用户关注主题划分 |
5.5.2 用户身份识别 |
5.5.3 构建用户身份图谱 |
5.6 讨论分析 |
5.6.1 社交网络舆情用户身份分类 |
5.6.2 社交网络舆情用户主题关注点比较 |
5.6.3 社交网络舆情用户关注点演化分析 |
5.7 本章小结 |
第6章 社交网络舆情用户情感图谱构建及情感演化 |
6.1 社交网络舆情用户情感图谱问题的提出 |
6.2 社交网络舆情用户情感分类模型 |
6.2.1 中文分词与词向量训练 |
6.2.2 卷积神经网络 |
6.3 社交网络舆情用户情感图谱构建模型 |
6.3.1 社交网络舆情用户情感图谱建模思想 |
6.3.2 基于字词向量的多尺度卷积神经网络的社交网络舆情用户情感图谱模型 |
6.4 研究设计 |
6.4.1 数据来源 |
6.4.2 数据处理 |
6.4.3 模型设置 |
6.4.4 文本向量训练与选择 |
6.4.5 整体架构与算法流程 |
6.5 基于卷积神经网络超参数确定及实验对比 |
6.5.1 卷积核尺寸 |
6.5.2 激活函数 |
6.5.3 Dropout随机失活率与迭代次数 |
6.5.4 实验结果对比 |
6.6 数据结果 |
6.6.1 情感分类结果 |
6.6.2 构建用户情感图谱 |
6.7 讨论分析 |
6.7.1 社交网络舆情用户内容特征分析 |
6.7.2 社交网络舆情用户情感分布分析 |
6.7.3 舆情用户的情感演化分析 |
6.8 本章小结 |
第7章 社交网络舆情生态性评价 |
7.1 社交网络舆情生态性评价问题的提出 |
7.2 评价指标体系构建 |
7.2.1 信息环境维度 |
7.2.2 信息人维度 |
7.2.3 信息维度 |
7.2.4 信息技术维度 |
7.3 评价方法及过程 |
7.4 实证分析 |
7.4.1 样本选择 |
7.4.2 评价过程 |
7.5 社交网络舆情生态性评价结果分析 |
7.5.1 一级指标得分情况分析 |
7.5.2 二级指标得分情况分析 |
7.6 本章小结 |
第8章 社交网络舆情引导策略 |
8.1 社交网络舆情引导问题的提出 |
8.1.1 社交网络舆情引导的重要性 |
8.1.2 社交网络舆情引导生态性挑战 |
8.1.3 社交网络舆情引导体系 |
8.2 社交网络舆情社群的引导策略 |
8.2.1 加强衍生话题的监测 |
8.2.2 完善社交网络舆情话题推送 |
8.2.3 重视网络社群服务的提升 |
8.3 社交网络舆情用户的引导策略 |
8.3.1 完善用户类型化管理 |
8.3.2 发挥主流媒体的作用 |
8.3.3 建立意见领袖的沟通机制 |
8.4 社交网络舆情情感的引导策略 |
8.4.1 社交网络内容精细化管理 |
8.4.2 重视舆情情感引导 |
8.4.3 完善舆情情感预警机制 |
8.5 本章小结 |
第9章 研究结论与展望 |
9.1 研究结论 |
9.2 研究创新点 |
9.3 研究局限及展望 |
参考文献 |
作者简介与研究成果 |
致谢 |
(5)基于文本挖掘的MOOC差评意愿的影响因素研究(论文提纲范文)
一、引言 |
二、文献综述 |
(一)慕课质量研究现状 |
(二)慕课在线评论研究现状 |
三、研究方法 |
(一)LDA主题模型 |
(二)主题数和参数的选取指标 |
(三)主题占比的计算 |
四、实验与检验 |
(一)数据获取与预处理 |
(二)情感分类 |
(三)主题提取结果 |
1、不同类别课程话题挖掘 |
2、可视化分析 |
五、研究结论与建议 |
(一)研究结论 |
(二)研究建议 |
(6)基于模块度的LDA模型话题演化分析方法研究与实现(论文提纲范文)
摘要 |
ABSTRACT |
1 绪论 |
1.1 选题背景和意义 |
1.2 国内外研究现状 |
1.3 论文组织结构 |
1.4 本章小结 |
2 话题检测相关理论与研究方法 |
2.1 话题检测和追踪概念 |
2.2 概率主题模型 |
2.2.1 潜在语义分析 |
2.2.2 概率潜在语义分析 |
2.2.3 LDA模型 |
2.3 模块度及社区划分 |
2.4 话题演化分析 |
2.4.1 话题演化简介 |
2.4.2 话题演化模式 |
2.5 本章小结 |
3 基于MCN-LDA模型的话题发现方法 |
3.1 基于MCN-LDA模型的话题发现方法介绍 |
3.1.1 数据预处理 |
3.1.2 动态主题数求取 |
3.1.3 Gibbs采样算法 |
3.1.4 MCN-LDA主题建模 |
3.2 实验设计 |
3.2.1 实验环境 |
3.2.2 实验数据 |
3.2.3 评价指标 |
3.3 实验结果与分析 |
3.3.1 话题检测能力分析 |
3.3.2 困惑度分析 |
3.3.3 标准化互信息分析 |
3.4 本章小结 |
4 新闻话题演化分析 |
4.1 新闻话题演化分析框架 |
4.2 话题演化分析 |
4.2.1 时间片划分 |
4.2.2 新闻话题提取 |
4.2.3 话题内容演化 |
4.2.4 话题强度演化 |
4.3 实验设计 |
4.3.1 实验环境 |
4.3.2 实验数据 |
4.3.3 评价指标 |
4.4 实验结果与分析 |
4.4.1 话题演化关系判别可行性分析 |
4.4.2 话题内容演化分析 |
4.4.3 话题强度演化分析 |
4.5 本章小结 |
5 系统设计与实现 |
5.1 系统框架设计 |
5.2 系统核心模块实现 |
5.2.1 数据预处理模块 |
5.2.2 话题发现模块 |
5.2.3 话题演化分析模块 |
5.3 本章小结 |
6 总结与展望 |
6.1 工作总结 |
6.2 研究展望 |
致谢 |
参考文献 |
攻读学位期间主要研究成果 |
四、提取帮助文档中的主题文本(论文参考文献)
- [1]自然语言处理中的文本表示研究[J]. 赵京胜,宋梦雪,高祥,朱巧明. 软件学报, 2022(01)
- [2]改进的文档相似性比较方法[J]. 张乔豪,罗雅文. 桂林航天工业学院学报, 2021(04)
- [3]文本可视分析与审计大数据可视化[J]. 刘国城. 财会通讯, 2021
- [4]社交网络舆情用户主题图谱构建及舆情引导策略研究[D]. 张柳. 吉林大学, 2021(01)
- [5]基于文本挖掘的MOOC差评意愿的影响因素研究[J]. 孙青云,刘吉华. 统计与管理, 2021(09)
- [6]基于模块度的LDA模型话题演化分析方法研究与实现[D]. 娄正伟. 西安理工大学, 2021(01)
- [7]融合语义特征的关键词提取方法研究[D]. 苏宁. 重庆邮电大学, 2021
- [8]基于知识图谱的社区治理决策研究[D]. 房俊茹. 北京交通大学, 2021
- [9]中文网络招聘语料的技能词识别与分析 ——基于IT类行业[D]. 茅倩. 桂林电子科技大学, 2021
- [10]标签生成方法研究及其在信息检索中的应用[D]. 景道月. 江苏科技大学, 2021