前两次我们讲了数据挖掘中比较常见的两类方法。这次我来介绍一下ensemble(集成技术),总的来说,ensemble技术是归类在分类中的。它的主要原理是通过集成多个分类器的效果来达到提高分类效果的目的。...
上次我介绍了分类器的使用方法,这次我来介绍一下聚类算法。聚类算法在数据挖掘里面被称之为无监督学习(unsupervised learning),这是与分类算法(supervised learning)相对的。...
从前年开始使用weka最数据挖掘方面的研究,到现在有一年半的时间了。看到我们同组的兄弟写了关于weka方面的总结,我也想整理一下。因为网上的资料实在是太少,记得刚接手的时候,真是硬着头皮看代码。不过到现在看来,也积累了很多的代码了。希望能够在这里跟大家分享一...
随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,百度,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。...
网络爬虫出自Spider 的意译, 具有相同词义的词语还有Crawler, robots, bots, wanderer 等等.网络爬虫定义有广义和狭义之分, 狭义上的定义为利用标准的h t tp 协议根据超链和W eb 文档检索的方法遍历万维网信息空间的软件程序; 而广义则是所有能利用h t tp 协议检索W eb ...
从文件中读取合法的网址(在html中语法表达中正确的网址),并把所有网址存入在链表中,最后打印所有合法网址。...
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。...
同一问题可用不同算法解决,而一个算法的质量优劣将影响到算法乃至程序的效率。算法分析的目的在于选择合适算法和改进算法。一个算法的评价主要从时间复杂度和空间复杂度来考虑。...
支持向量机属于一般化线性分类器.他们也可以认为是提克洛夫规范化(Tikhonov Regularization)方法的一个特例.这族分类器的特点是他们能够同时最小化经验误差与最大化几何边缘区.因此支持向量机也被称为最大边缘区分类器。...
k-means algorithm算法是一个聚类算法,把n的对象根据他们的属性分为k个分割,k < n。它与处理混合正态分布的最大期望算法很相似,因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量,并且目标是使各个群组内部的均方误差总和最小。...
这是一篇我准备在某互联网产品发布会上的演讲。我打算分4部分...
网络蜘蛛或爬虫需要能够下载网页、图片(流)以及登录的Coo...
spider简单的爬虫程序...
一个搜索引擎的模型,从理论上讲,具备上述条件的实体和goo...
Win32 API 支持抢先式多线程网络,这是编写MFC网络蜘蛛非常有用的...
URL的组织和管理考虑到系统自身的资源和时间有限,Spider程序应...