一、XML与面向Web的数据挖掘技术(论文文献综述)
周新跃[1](2011)在《基于XML的WEB数据挖掘研究》文中提出相对于有效的数据仓库和数据挖掘而言,Web面对的是一个广泛形形色色的用户群体和在Web上的信息只有很小的一部分是相关的或有用等等的一些问题。解决这些问题的一个途径就是将传统的数据挖掘技术和Web结合起来,进行Web数据挖掘。本文从XML与web数据挖掘两项技术相结合入手进行研究,提出了一个基于XML的Web数据挖掘系统模型。运用XML解决Web数据挖掘中的数据抽取,最后对该方法进行了实例应用说明。证明本模型能够帮助人们更有效地从web上获取知识。
杨悦时[2](2011)在《面向语义Web的高校专业课程资源库检索系统的设计与实现》文中进行了进一步梳理网络教学资源是开展网络教育的前提和基础。随着Web技术及网络信息技术的发展,网络教学资源越来越丰富,各类教育资源种类繁多,表现形式丰富,为学习者提供了广泛的选择余地和广阔发展空间。当前Web网页包含的各种资源信息量正呈指数级增长,但如何将所需信息资源从这些无穷的网络资源海洋中准确、快速地查找出来,合理利用,已经成为互联网技术发展的重要问题。本文提出了一种面向语义Web的高校专业课程教学资源库平台的初步框架,并探索应用语义Web的相关技术,实现了基于语义Web的教学资源的智能检索。论文首先对比分析了当前高校网络教学资源库的建设现状以及网络教学资源建设中存在的问题,对语义Web研究的现状及应用进行了分析,阐述了其在教学资源管理及检索中的应用。其次,从语义Web的功能及层次组成、网格技术、本体技术等方面对语义Web的理论基础及相关技术进行了研究分析,其中着重研究了其在网络教学资源的知识组织、知识管理、知识发现及知识检索等方面的优势。再次,对当前教育资源建设标准及其规范进行分析研究,在国际规范和标准下建构网络教学资源的数据模型。第四,对语义Web架构下的教学资源管理相关技术进行研究分析,包括网络教学资源知识库的构建、基于语义Web的知识处理流程及知识的发现与获取、面向语义Web的资源操作语言、知识检索技术、Web数据挖掘等,为下一步的研究工作提供理论及技术保证。最后,在前面章节研究的基础上,提出面向语义Web的高校专业课程教学资源库的初步框架,并进行系统设计及关键技术的分析。然后应用Protege4.0建模工具、JBuilder2008作为开发环境、Tomcat7.0作为服务器环境以及jsp技术进行基于语义Web的教学资源智能检索系统的设计与实现。
王燕[3](2011)在《基于XML的Web文本挖掘及关联算法的研究》文中认为近年来,随着计算机技术的发展和互联网的普及,各级网站服务器中的数据量越来越庞大,数据的种类也越来越繁杂,如何更好地有效利用这些数据,从中挖掘出对各个领域有价值的信息成为现如今的热点研究。尽管传统的数据库技术和数据挖掘技术已取得了飞速的发展且也在日益完善,但由于Web数据的数据类型是半结构化或无结构化,传统技术对Web数据的信息挖掘而言,就存在诸多的困难。XML是一种半结构化的数据模型,随着XML的不断发展,用XML表示Internet上的信息开始广泛应用。XML具有可扩展性、平台无关性、灵活性等特点,还具有强大的数据表达能力,这使得XML能够在信息数据的表示和交换方面的作用日渐增强。因此,对于数量巨大的XML数据,如何能够有效提取其中有价值的信息迫在眉睫。Apriori算法是关联规则挖掘的经典算法,在关联规则领域有很大的影响力,然而由于其需要过于频繁的扫描数据库及较大的空间消耗,许多人已经通过多种方法对其进行改进。现有的基于XQuery的Apriori算法仍存在需要改进的地方,例如,某些情况下由于XML文档的数据量太大,相关的数据就被存放在多个文档中,这些文档又没有必然的联系。而目前的关联规则算法则主要是对单个XML文档进行挖掘,若要对多个文档进行挖掘,就必须对算法进行改进。本文将XML的查询语言XQuery与关联规则挖掘算法结合起来实现了基于XQuery的Apriori算法,对多个XML文档的关联规则挖掘进行研究。在不降低挖掘效率的前提下,通过对算法进行改进,引入XQuery语言中的collection函数,由于此函数具有可以访问多个XML文档集合的特点,实现了对多个XML文档进行挖掘的目标。将改进的算法运用在基于XML的Web文本挖掘模型中,验证了其可行性及有效性。
曹步文,陈娟,喻旭东[4](2010)在《XML与面向Web的数据挖掘技术》文中指出以XML为基础的新一代WWW环境是直接面对Web数据的,不仅可以很好地兼容原有的Web应用,而且可以更好地实现Web中的信息共享与交换。XML可看作一种半结构化的数据模型,在web中可以很容易实现精确地查询与模型抽取。
孙涛[5](2010)在《面向半结构化数据的数据模型和数据挖掘方法研究》文中进行了进一步梳理随着计算机技术、Internet、数据库技术的快速发展,各领域积累的半结构化数据和信息急剧增加。迫切需要面向知识发现需求设计半结构化数据模型,利用模型存储和描述半结构化数据的内容和结构信息。设计有效的半结构化数据挖掘算法,从大量半结构化数据文档中提取深层次的用于描述信息、结构特征以及事物发展趋势的预测内容,综合内容和结构等多方面信息对半结构化数据进行深层次的潜在知识发现。本文面向半结构化数据模型和数据挖掘方法展开了深入研究,主要内容包括:(1)从半结构化数据研究的整体内容出发,对该领域知识进行了详细的综述。总结了各种已提出的半结构化数据模型和数据模式;从特征提取、频繁结构的发现、文档聚类与分类等多角度详细综述了当前半结构化数据挖掘技术的研究进展;跟踪介绍了当前流行的数据挖掘系统的功能特点。(2)针对半结构化数据模型下不精确和不确定性知识,设计了基于标签树的粗糙集模型LTRS。利用LTRS模型从结构和内容两个角度分析半结构化数据,基于树的表现形式从结构和内容两个角度生成决策规则,描述树节点间的组成关系和内容上的知识约简。基于现有半结构化数据模型中缺少对数据变化趋势和变化程度的形式化定义,缺乏对数据动态性质有力描述的缺点,提出了一个带有树平均深度和平均宽度等动态变化信息的树模型ADAWT,为后续高效空间动态变化结构的发现奠定了基础。(3)提出一种新的基于数据的平衡方法—SSGP,用于处理半结构化数据固有的偏斜数据集分类问题。该算法能处理数据集中存在多种少数类别样例的情况,此外还扩展并运用了样例取模运算,使算法在计算效率上取得了较大提高。(4)在处理XML等半结构化数据集的聚类和分类问题时,都会面临类边界相互重叠,边界噪声带来聚类质量或分类精度下降的问题。借鉴方向性和物理学中万有引力定律的思想,以数据对象之间的相互作用为基础,从标量影响和方向影响两个角度讨论基于密度的聚类问题,提出一个考察对象间矢量感应的密度聚类算法VICA。使用方向相似度法和累加向量法两种计算矢量感应函数的方法判断邻域平衡,处理边界稀疏、对象密度分布不均且含有边界噪声点等情况下的数据聚类问题。(5)针对于传统的静态挖掘算法不能胜任对动态变化的XML文档进行知识发现的问题,利用所提出的ADAWT模型,设计了发现平均深度和平均宽度的空间结构变化达到用户关注程度的SCSFinder算法。此外,基于已抽取发现的各种动态结构为特征构建特征空间,将XML文档表示成特征向量的形式,利用改进的聚类算法实现了大规模XML文档的聚类分析。(6)基于已有的半结构化数据挖掘理论基础,综合目前市场及科研领域较为流行和成熟的数据挖掘产品(如SAS Enterprise Miner、Weka等)的优点,设计了一个多策略数据挖掘原型系统—DBIN Miner。系统实现了对半结构化XML数据的存储,集成了前述工作所介绍的挖掘算法和常用的基本数据挖掘算法。并针对数据挖掘技术和数据挖掘系统面临的处理大规模数据的难题,通过缓冲区和插件技术对系统的可扩展性等问题进行了重点设计与实现。本文在半结构化数据模型设计、面向半结构化数据应用的分类与聚类问题、基于半结构化数据动态特征提取的文档聚类等方向展开相关研究工作,为半结构化数据的知识发现打下理论基础。并且将所研究的理论应用于数据挖掘原型系统的设计与实现中,为相关理论的商业化应用奠定了基础。
赵国桦[6](2010)在《基于XML的Web数据挖掘研究与应用》文中进行了进一步梳理随着网络信息资源的飞速增长,互联网已经成为一个巨大的信息服务中心,它涉及新闻、政府、电子商务等和许多其他信息服务。此外,还包含了丰富和动态的超链接信息,这些都为Web挖掘提供了丰富的资源。在Web文本挖掘的对自然语言理解的改进中,本文首先是把句子用自动分词法分解后,再用句型分析和词典分析(如果遇到新的词语,则先将其加入到词典,对词典进行更新)进行判别(用相似百分比进行判别),最后将判别的结果输出。该改进的方法优点是充分的利用了句型(单复句)句类(陈述句、疑问句、祈使句和感叹句)的规则,能够有效的提高自然语言的理解效率。Web上有一些有价值的信息是可以被用来进行预测和分析的,但是Web挖掘在这方面到目前为止还没有形成一个明确的领域,只是在传统的一些方法中,如关联规则(仅只是从事物发生的相互关联度来进行推测)等方法有所涉及但都没有把它作为一个明确的领域进行研究。本论文就是把它作为一个确定的目标进行开发从一种新的角度考虑问题,建立了一种因果模式来进行Web挖掘,所定义的一种因果关系模式,包括因集(也就是各种原因),果集(也就是各种结果)和各种因果关系(一对一,一对多,链状,网状共4种),利用影响度(各种原因在结果发生时出现的概率),分类效果权值(用来判断各种分类的效果)等参数,再结合统计分析等各种Web数据挖掘算法及XML的优势特点组成了一种Web挖掘模型,来发现Web上事物之间的内在联系以及发生规律,并最终形成一个智能库,以便为未来的任务执行提供有力的预测和决策依据。最后给出了具体的应用实例,用天津科技大学易佳影视网进行验证,结果表明该模型是有效的,是能够在预测和决策中发挥重要的作用的。
张荣富[7](2010)在《XML在Web数据挖掘技术中的应用相关问题探索》文中进行了进一步梳理由于Web数据存在方式的特殊性,使Web数据控制变得十分复杂,XML的出现为解决Web数据挖掘的难题带来了机会,本文就XML在Web数据挖掘技术中的应用相关问题进行分析,指出了基于XML的Web数据频繁模式挖掘问题研究的可行性。
汪平[8](2009)在《基于XML的Web数据挖掘研究》文中研究说明Web数据挖掘是指利用数据挖掘技术从互联网的海量数据中发现和提取信息,而目前互联网上的数据信息没有特定的模型,大多数是半结构化的甚至是无结构的数据,这给数据挖掘带来了很大的麻烦。本文首先根据Web数据挖掘的特点以及XML在Web挖掘中的应用,设计了一个基于XML的Web数据挖掘模型,描述了HTML格式的网页文档向XML文档的转化过程,分析了转化过程中的关键技术,重点研究和探讨了针对XML文档数据集的数据挖掘问题。其次,研究了Apriori关联规则算法的基本理论与过程,分析了该算法的局限性。提出了一种基于事务长度分割数据集的改进算法,实验结果证明,改进算法提高了算法的效率。最后,详细描述了k-means聚类算法的基本理论与过程,分析了该算法对初始中心点的依赖性,针对初始聚类中心点的选取方法作出了如下改进:(1)提出了一种基于距离和聚类的孤立点检测方法,该算法能有效检测出所有的孤立点,从而避免了将孤立点误选为初始中心点;(2)结合密度的思想,根据各中心点距离应保持最大的原则对初始聚类中心点的选取作了改进。实验结果证明,改进算法提高了聚类的准确率。
刘江宏[9](2009)在《基于XML的Web数据挖掘技术研究》文中研究指明近年来许多传统数据挖掘研究者,已逐步从传统数据挖掘领域过渡到Web数据挖掘领域。随着Web上XML数据量爆炸式的增长,XML已成为Internet上数据交换和数据表示的事实标准,并且在将来XML将代替HTML而成为Web上驻留数据的主要格式,于是,基于XML的数据挖掘方法已经成为Web数据挖掘领域和XML技术领域的一个研究热点。面向Web的数据挖掘技术与面向传统数据库的挖掘技术不同,基于XML的Web数据挖掘过程中,一般要将HTML数据格式转换成XML格式,再对XML数据进行相关挖掘操作。目前,多数基于XML数据的挖掘算法是用半结构化数据模型来描述XML数据的,并在此基础上进行频繁模式发现,而用半结构化数据模型描述XML数据时具有一定的缺陷,因此影响了挖掘算法的性能。针对上述问题,论文做了如下工作:1.描述了一个基于XML的Web数据频繁模式挖掘框架结构,它在原有半结构化数据模式挖掘算法的基础上,根据XML数据的模型特点,对频繁模式挖掘算法进行了归类;依照半结构化数据的产生方式、组织形式、存储结构,抽象和总结了原有的XML数据挖掘算法。2.分析了半结构化数据模型描述XML数据时存在的一些缺陷,针对这些缺陷,研究了一种面向XML的扩展标记树模型ETM,作为XML数据挖掘任务使用的数据模型。3.使用ETM有序树作为数据模型,给出了XMLFPTMiner算法来挖掘XML中的频繁模式树,并研究了一种修剪策略对XMLFPTMiner算法进行改进。根据修剪策略,可以直接从某些已知频繁子树中产生某些未知频繁子树,因此减少了算法在候选子树的产生和支持度计算上的开销,从而提高了算法的效率。
廖鹏[10](2009)在《基于XML的Web数据挖掘及关联算法的研究》文中提出近年来,随着互联网的迅速发展,互联网上的数据越来越庞大,而且数据的种类也越来越繁杂,怎样能够有效地利用这些复杂的数据,从中发掘有价值的信息成了现今的研究热点。由于Web上的数据没有特定的模型描述,是一种半结构化或者是无结构的数据,那么相对于传统的数据库挖掘技术而言,就存在着很多的困难。XML是一种半结构化的数据模型,可以很容易地将XML的文档描述与关系数据库中的属性对应起来,实施精确的查询和模型抽取。所以,面向XML的数据挖掘技术有着不同于传统数据库上的数据挖掘技术的特点。此外Apriori算法是一个经典的关联规则挖掘算法,但是它存在这需要频繁重复扫描数据库以及产生数量庞大的2-项集等弊端。本文在介绍了数据挖掘、Web数据挖掘、XML等一些基本概念、技术、方法、过程的基础上,完成了从XML Schema文档映射为关系模式的设计,即在基于XML的Web数据挖掘与传统的基于关系数据模式的数据挖掘算法中间建立了联系之后,对传统的Apriori算法进行了分析和改进,通过实验证明,改进后的算法获得了较好的效率和性能。
二、XML与面向Web的数据挖掘技术(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、XML与面向Web的数据挖掘技术(论文提纲范文)
(1)基于XML的WEB数据挖掘研究(论文提纲范文)
1、理论基础 |
1.1XML |
1.2 数据挖掘 |
1.3 Web数据挖掘 |
2、基于XML的Web数据挖掘技术 |
3、基于XML的web数据挖掘的系统结构 |
4、结论 |
(2)面向语义Web的高校专业课程资源库检索系统的设计与实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景 |
1.2 研究目的及意义 |
1.3 研究现状综述 |
1.3.1 高校网络教学资源库建设研究现状 |
1.3.2 现有网络教育资源建设及检索存在的问题 |
1.3.3 语义Web 研究现状及应用研究 |
1.3.4 数据挖掘的研究现状 |
1.4 语义WEB 的理论基础及相关技术 |
1.4.1 语义Web 简介 |
1.4.2 语义Web 的功能及层次组成 |
1.4.3 网格技术 |
1.4.4 基于本体的知识可视化 |
1.4.5 教学资源的描述工具XML |
1.5 语义WEB 在教学资源管理及资源检索中的应用 |
1.6 本章小结 |
第二章 教育资源建设标准及其规范研究 |
2.1 教学资源建设的基本内涵 |
2.2 教学资源库的功能及内容 |
2.3 教育资源建设标准及其规范 |
2.3.1 学习者模型规范 |
2.3.2 学习对象元数据规范 |
2.4 本章小结 |
第三章 语义WEB 架构下的教学资源管理相关技术研究 |
3.1 教育资源库体系结构 |
3.2 教学资源的组织及元数据表示 |
3.2.1 可共享课程对象参照模型SCORM |
3.2.2 基于学科专业体系的教学资源模型 |
3.3 基于学科专业体系的教学资源元数据表示 |
3.4 教学资源的展示 |
3.4.1 文档类型定义DTD |
3.4.2 CSS |
3.5 基于语义WEB 的网络教学资源知识库构建 |
3.5.1 网络教育资源知识库知识表示 |
3.5.2 专业课程教学资源的知识库构建分析 |
3.6 基于语义WEB 的知识处理流程及知识的发现与获取 |
3.6.1 基于语义Web 的知识处理流程 |
3.6.2 知识的发现获取 |
3.7 面向语义WEB 的资源操作语言 |
3.7.1 资源查询 |
3.7.2 资源更新 |
3.8 面向语义WEB 的知识检索技术 |
3.9 面向语义文本的WEB 数据挖掘 |
3.9.1 传统的数据挖掘技术 |
3.9.2 基于本体的语义数据挖掘技术 |
3.9.3 Web 挖掘的难点 |
3.10 本章小结 |
第四章 面向语义WEB 的高校专业课程资源库的构建及资源检索的实现 |
4.1 系统构建过程中的语义建模和资源管理需求 |
4.1.1 XML 树状模型 |
4.1.2 RDF 数据模型 |
4.1.3 模型的RDF/XML 表示 |
4.2 系统实现的关键技术分析 |
4.2.1 学科专业课程资源知识的本体描述 |
4.2.2 专业课程资源知识的网格技术 |
4.2.3 专业课程资源知识网格服务本体技术 |
4.3 系统架构设计 |
4.3.1 基于语义Web 的高校专业课程教学资源库的初步框架 |
4.3.2 系统功能设计 |
4.3.3 系统功能特点 |
4.3.4 数据库结构设计 |
4.4 教学资源的智能检索系统的设计与实现 |
4.4.1 基本结构及功能设计 |
4.4.2 系统构建中的教学资源处理流程设计 |
4.4.3 系统实现环境 |
4.4.4 数据库连接及操作XML 的类 |
4.4.5 检索算法设计 |
4.4.6 语义推理的实现 |
4.4.7 具体功能实现 |
4.5 本章小结 |
第五章 研究总结及展望 |
致谢 |
参考文献 |
(3)基于XML的Web文本挖掘及关联算法的研究(论文提纲范文)
摘要 |
Abstract |
Contents |
第1章 绪论 |
1.1 研究背景 |
1.2 课题研究现状 |
1.2.1 Web 数据挖掘的研究现状 |
1.2.2 基于XML 的Web 数据挖掘研究现状 |
1.2.3 基于XML 与Web 数据的关联规则算法挖掘的研究现状 |
1.3 本文的主要工作安排 |
第2章 数据挖掘技术 |
2.1 数据挖掘技术概述 |
2.1.1 数据挖掘的基本概念 |
2.1.2 数据挖掘的主要任务 |
2.1.3 数据挖掘的步骤 |
2.2 Web 挖掘技术 |
2.2.1 Web 挖掘的定义及分类 |
2.2.2 Web 挖掘的难点和解决方法 |
2.3 关联规则挖掘 |
2.3.1 关联规则的概念及分类 |
2.3.2 关联规则的经典挖掘算法 |
2.4 本章小结 |
第3章 XML 技术 |
3.1 XML 技术概述 |
3.1.1 XML 文档的基本结构 |
3.1.2 XML 的主要特点和优势 |
3.1.3 XML 的相关技术规范 |
3.1.4 XQuery 语言介绍 |
3.1.5 XQuery 中的collection 函数 |
3.2 XML 的挖掘 |
3.2.1 XML 结构的挖掘 |
3.2.2 XML 内容的挖掘 |
3.2.3 挖掘XML 数据的方法 |
3.3 本章小结 |
第4章 基于XQuery 的XML 文档的关联规则挖掘 |
4.1 基于XQuery 实现XML 文档的关联规则挖掘 |
4.1.1 基于XQuery 的Apriori 算法 |
4.1.2 上述算法的局限性 |
4.1.3 针对上述局限性对Apriori 算法的改进 |
4.2 改进后的算法 |
4.3 实验结果 |
4.4 本章小结 |
第5章 基于XML 的Web 文本挖掘系统 |
5.1 基于XML 的Web 文本挖掘系统中关键技术概述 |
5.1.1 将Web 文档转换成结构良好的XML 格式 |
5.1.2 数据的析取 |
5.1.3 数据检验和集成 |
5.2 基于XML 的Web 文本数据挖掘模型 |
5.3 本章小结 |
总结 |
参考文献 |
攻读硕士学位期间发表的学术论文 |
致谢 |
详细摘要 |
(4)XML与面向Web的数据挖掘技术(论文提纲范文)
1 面向Web的数据挖掘 |
1) 异构数据库环境 |
2) 半结构化的数据结构 |
3) 解决半结构化的数据源问题 |
2 XML在Web数据挖掘中的应用 |
3 结束语 |
(5)面向半结构化数据的数据模型和数据挖掘方法研究(论文提纲范文)
内容提要 |
第1章 绪论 |
1.1 研究背景和意义 |
1.2 半结构化数据模型研究 |
1.2.1 基于关系的数据模型及扩展 |
1.2.2 基于对象描述的数据模型 |
1.2.3 基于有向图的数据模型 |
1.3 半结构化数据模式研究 |
1.3.1 基于逻辑描述的模式 |
1.3.2 基于图描述的模式 |
1.4 半结构化数据挖掘算法 |
1.4.1 半结构化数据的特征提取 |
1.4.2 半结构化数据的分类与聚类 |
1.5 国内半结构化数据挖掘研究 |
1.6 数据挖掘系统介绍 |
1.7 本文工作及组织结构 |
第2章 面向数据挖掘需求的半结构化数据模型 |
2.1 基于标签树的粗糙集模型LTRS |
2.1.1 基础定义 |
2.1.2 LTRS模型定义 |
2.1.3 LTRS模型中的决策规则 |
2.2 标记空间结构变化信息的树模型ADAWT |
2.2.1 XML文档变化操作 |
2.2.2 基本概念 |
2.2.3 用于空间变化结构挖掘的树模型ADAWT |
2.3 本章小结 |
第3章 基于偏斜数据集分类问题的数据平衡算法 |
3.1 相关工作 |
3.2 基本定义及性质 |
3.3 SSGP算法介绍 |
3.3.1 算法的数据预处理 |
3.3.2 样例取模思想 |
3.3.3 SSGP算法描述 |
3.4 实验结果与分析 |
3.5 本章小结 |
第4章 对象间矢量感应聚类算法 |
4.1 相关工作 |
4.2 理论基础 |
4.2.1 半结构化数据的聚类问题 |
4.2.2 算法的思想基础 |
4.2.3 相关定义 |
4.2.4 算法的理论基础 |
4.3 VICA算法介绍 |
4.3.1 算法描述 |
4.3.2 参数的讨论 |
4.3.3 算法有效性分析 |
4.3.4 时间复杂度分析 |
4.4 实验结果及分析 |
4.5 本章小结 |
第5章 基于XML动态变化结构的特征提取与文档聚类研究 |
5.1 基本动态结构的定义和挖掘 |
5.1.1 频繁变化结构FCS |
5.1.2 冰冻结构FS |
5.1.3 基于时序模型的FCS挖掘 |
5.2 基于动态结构特征空间的XML文档聚类 |
5.2.1 基于FCS的XML文档聚类 |
5.2.2 基于加权余弦相似度的XML文档聚类 |
5.2.3 基于冰冻结构FS的XML文档聚类 |
5.3 空间变化子结构发现算法SCSFinder |
5.3.1 空间变化结构的动态度量指标 |
5.3.2 SCS结构发现算法 |
5.3.3 算法复杂性分析 |
5.3.4 实验结果及性能分析 |
5.4 本章小结 |
第6章 多策略数据挖掘系统DBIN Miner |
6.1 相关研究背景 |
6.1.1 数据挖掘过程模型 |
6.1.2 数据挖掘系统的发展 |
6.1.3 数据挖掘系统的国际业界标准 |
6.2 数据挖掘系统DBIN Miner的设计 |
6.2.1 系统的开发背景及任务概述 |
6.2.2 系统的需求分析 |
6.2.3 系统的主要功能模块划分 |
6.2.4 系统的其他特点 |
6.3 系统的实现情况 |
6.4 本章小结 |
第7章 结论与展望 |
参考文献 |
攻读博士学位期间发表的论文及参加的项目 |
致谢 |
摘要 |
Abstract |
(6)基于XML的Web数据挖掘研究与应用(论文提纲范文)
摘要 |
ABSTRACT |
1 前言 |
1.1 研究背景 |
1.1.1 Web数据挖掘的发展历史、现状 |
1.1.2 Web数据挖掘的发展趋势 |
1.1.3 课题的研究意义 |
1.2 本文的研究工作及内容安排 |
2 Web数据挖掘及XML技术 |
2.1 Web数据挖掘技术概述 |
2.2 Web内容挖掘 |
2.2.1 Web内容挖掘两个不同的研究观点 |
2.2.2 Web文本挖掘概念及相关技术 |
2.2.3 Web多媒体挖掘 |
2.2.4 特征提取 |
2.2.5 文本分类方法 |
2.2.6 网页分类方法 |
2.3 Web结构挖掘 |
2.4 Web用法挖掘 |
2.5 XML的产生与发展 |
2.6 XML的主要特点 |
2.7 XML与HTML比较 |
2.8 XML的应用技术 |
2.8.1 XML架构 |
2.8.2 XML表现方式 |
2.8.3 XML文档的解析 |
3 一种改进的自然语言理解方法 |
3.1 自然语言理解的概念和研究现状 |
3.1.1 自然语言理解的含义及分类 |
3.1.2 自然语言理解的发展简史、研究现状及发展趋势 |
3.1.3 自然语言理解研究存在的问题 |
3.2 模型所依赖的Web文本挖掘分析 |
3.2.1 自然语言理解研究存在的问题 |
3.2.2 Web文本挖掘特点 |
3.2.3 Web文本的挖掘方法 |
3.3 文本的特征选择 |
3.3.1 特征选择的方法 |
3.3.2 特征选择的应用 |
3.4 基于自然语言理解的文本挖掘模型 |
3.5 改进的自然语言理解方法 |
3.5.1 自动分词方法 |
3.5.2 词典系统的构成 |
3.5.3 句型分析 |
3.6 改进的自然语言理解方法实验 |
3.7 本章小结 |
4 利用XML的一种因果模式Web挖掘模型 |
4.1 XML与Web数据挖掘概述 |
4.1.1 XML介绍 |
4.1.2 Web数据挖掘介绍 |
4.2 利用XML的Web数据挖掘流程 |
4.2.1 将Web文档转换成良构的XML格式 |
4.2.2 数据析取 |
4.2.3 数据检验和集成 |
4.3 利用XML的因果模式Web挖掘模型 |
4.4 实验验证 |
4.5 本章小结 |
5 总结与展望 |
6 参考文献 |
7 攻读硕士学位期间发表论文与参与科研情况 |
8 致谢 |
(7)XML在Web数据挖掘技术中的应用相关问题探索(论文提纲范文)
一、Web数据挖掘面临的挑战 |
二、半结构化数据与XML |
三、基于XML的Web数据频繁模式挖掘问题 |
四、结语 |
(8)基于XML的Web数据挖掘研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 课题研究的背景和意义 |
1.2 课题的研究现状 |
1.2.1 Web数据挖掘的研究现状 |
1.2.2 XML技术和Web数据挖掘研究相结合的研究现状 |
1.3 本文研究内容及组织结构 |
2 XML技术及Web数据挖掘概述 |
2.1 XML概述 |
2.1.1 XML的由来及其意义 |
2.1.2 XML的语法 |
2.1.3 XML的特点 |
2.1.4 XML的相关技术 |
2.1.5 XML的应用 |
2.2 Web数据挖掘概述 |
2.2.1 Web数据挖掘的出现及定义 |
2.2.2 Web数据挖掘的分类 |
2.2.3 Web数据挖掘的特点 |
2.2.4 Web数据挖掘的流程及应用 |
2.3 本章小结 |
3 Web数据预处理 |
3.1 XML在Web数据挖掘中的应用 |
3.2 基于XML的Web挖掘系统的逻辑架构 |
3.3 数据预处理模块 |
3.3.1 HTML转化为XML的模型 |
3.3.2 模型实现的关键技术 |
3.4 XML文档的数据处理 |
3.5 本章小结 |
4 关联规则算法的研究 |
4.1 关联规则的基本概念 |
4.2 关联规则挖掘的分类 |
4.3 Apriori算法的原理及其特点 |
4.3.1 Apriori算法的原理 |
4.3.2 Apriori算法的特点 |
4.3.3 实验结果与分析 |
4.4 Apriori算法常用的改进技术 |
4.5 基于数据分割的Apriori算法的改进 |
4.5.1 数据分割算法的理论基础 |
4.5.2 原始数据分割算法的描述 |
4.5.3 基于事务长度的数据分割改进算法 |
4.5.4 实验结果与分析 |
4.6 本章小结 |
5 聚类分析算法的研究 |
5.1 聚类分析的基本概念 |
5.1.1 聚类分析中的数据结构 |
5.1.2 相异度的表示方法 |
5.2 聚类分析算法的分类 |
5.3 k-means算法的原理及其特点 |
5.3.1 k-means算法的原理 |
5.3.2 k-means算法的特点 |
5.3.3 实验结果与分析 |
5.4 k-means算法选取初值的改进方法 |
5.5 改进的k-means算法 |
5.5.1 基本概念 |
5.5.2 孤立点检测 |
5.5.3 改进算法的基本思想及流程 |
5.5.4 实验结果与分析 |
5.6 本章小结 |
6 总结与展望 |
6.1 本文的主要工作 |
6.2 研究展望 |
致谢 |
参考文献 |
(9)基于XML的Web数据挖掘技术研究(论文提纲范文)
摘要 |
ABSTRACT |
1 绪论 |
1.1 研究背景及意义 |
1.2 课题相关技术的国内外研究状况 |
1.3 论文主要研究内容及组织结构 |
2 相关知识与技术综述 |
2.1 Web 数据挖掘概述 |
2.2 XML 技术简介 |
2.3 基于 XML 的 Web 数据挖掘技术 |
3 基于 XML 的 Web 数据频繁模式挖掘框架 |
3.1 基于 XML 的 Web 数据频繁模式挖掘框架研究的意义和方法 |
3.2 XML 数据模型 |
3.3 基于 XML 的 Web 数据频繁模式挖掘框架 |
4 XML 数据模型的研究 |
4.1 半结构化数据模型 |
4.1.1 OEM 模型 |
4.1.2 标记有序树模型 |
4.1.3 标记无序树模型 |
4.2 XML 数据与半结构化数据模型 |
4.3 面向XML 数据的数据模型 |
4.3.1 扩展标记树模型(ETM) |
4.3.2 XML 数据映射为ETM 树 |
5 基于XML 数据的频繁模式树发现 |
5.1 相关基本概念 |
5.2 频繁模式树发现 |
5.3 实验 |
6 结论 |
6.1 论文总结 |
6.2 工作展望 |
致谢 |
参考文献 |
附录 |
(10)基于XML的Web数据挖掘及关联算法的研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景 |
1.2 课题研究状况 |
1.2.1 Web数据挖掘技术的研究发展状况 |
1.2.2 XML技术的研究发展状况 |
1.2.3 采用XML的Web数据挖掘的研究发展状况 |
1.3 论文组织结构 |
第2章 XML概述 |
2.1 XML文档的基本结构 |
2.2 XML的特点 |
2.3 XML数据处理 |
2.4 XML的技术规范 |
第3章 Web数据挖掘技术 |
3.1 Web数据挖掘的定义及特点 |
3.2 Web数据挖掘的分类 |
3.2.1 Web内容挖掘 |
3.2.2 Web结构挖掘 |
3.2.3 Web使用记录挖掘 |
3.3 Web数据挖掘与传统数据挖掘的区别 |
3.4 Web数据挖掘的流程和应用 |
第4章 基于XML的Web数据挖掘技术 |
4.1 面向Web的数据挖掘面临的挑战 |
4.2 XML在Web数据挖掘中的应用 |
4.3 基于XML的Web数据挖掘模型 |
4.4 从XML Schema映射为关系模式的设计 |
4.4.1 节点树 |
4.4.2 映射规则 |
4.4.3 生成SQL语句 |
4.4.4 插入XML文档数据 |
第5章 关联规则概述与Apriori算法的改进 |
5.1 关联规则概述 |
5.1.1 关联规则的概念与分类 |
5.1.2 关联规则挖掘的经典算法 |
5.2 Apriori改进算法 |
5.3 实验结果与分析 |
第6章 结束语 |
参考文献 |
致谢 |
四、XML与面向Web的数据挖掘技术(论文参考文献)
- [1]基于XML的WEB数据挖掘研究[J]. 周新跃. 青年文学家, 2011(20)
- [2]面向语义Web的高校专业课程资源库检索系统的设计与实现[D]. 杨悦时. 电子科技大学, 2011(12)
- [3]基于XML的Web文本挖掘及关联算法的研究[D]. 王燕. 江苏科技大学, 2011(01)
- [4]XML与面向Web的数据挖掘技术[J]. 曹步文,陈娟,喻旭东. 微计算机信息, 2010(24)
- [5]面向半结构化数据的数据模型和数据挖掘方法研究[D]. 孙涛. 吉林大学, 2010(08)
- [6]基于XML的Web数据挖掘研究与应用[D]. 赵国桦. 天津科技大学, 2010(01)
- [7]XML在Web数据挖掘技术中的应用相关问题探索[J]. 张荣富. 现代经济信息, 2010(02)
- [8]基于XML的Web数据挖掘研究[D]. 汪平. 南京理工大学, 2009(12)
- [9]基于XML的Web数据挖掘技术研究[D]. 刘江宏. 西安科技大学, 2009(07)
- [10]基于XML的Web数据挖掘及关联算法的研究[D]. 廖鹏. 西南大学, 2009(10)