行业动态 / 『互联网』

当前位置: 主页>行业动态>『互联网』>

[『互联网』] Weka学习三（ensemble算法）日期：2013-04-11 10:07:50 点击：921 好评：2
前两次我们讲了数据挖掘中比较常见的两类方法。这次我来介绍一下ensemble（集成技术），总的来说，ensemble技术是归类在分类中的。它的主要原理是通过集成多个分类器的效果来达到提高分类效果的目的。...
[『互联网』] Weka初步二（聚类算法）日期：2013-04-11 09:58:27 点击：458 好评：0
上次我介绍了分类器的使用方法，这次我来介绍一下聚类算法。聚类算法在数据挖掘里面被称之为无监督学习（unsupervised learning），这是与分类算法（supervised learning）相对的。...
[『互联网』] Weka初步一日期：2013-04-11 09:57:13 点击：537 好评：1
从前年开始使用weka最数据挖掘方面的研究，到现在有一年半的时间了。看到我们同组的兄弟写了关于weka方面的总结，我也想整理一下。因为网上的资料实在是太少，记得刚接手的时候，真是硬着头皮看代码。不过到现在看来，也积累了很多的代码了。希望能够在这里跟大家分享一...
[『互联网』] 网络爬虫技术日期：2012-03-23 09:43:31 点击：567 好评：0
随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine)，例如传统的通用搜索引擎AltaVista，百度,Yahoo!和Google等，作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。...
[『互联网』] 搜索引擎中网络爬虫的搜索策略日期：2012-03-23 09:40:33 点击：939 好评：6
网络爬虫出自Spider 的意译, 具有相同词义的词语还有Crawler, robots, bots, wanderer 等等.网络爬虫定义有广义和狭义之分, 狭义上的定义为利用标准的h t tp 协议根据超链和W eb 文档检索的方法遍历万维网信息空间的软件程序; 而广义则是所有能利用h t tp 协议检索W eb ...
[『互联网』] 步步递近网络蜘蛛日期：2011-11-04 09:41:59 点击：139 好评：0
从文件中读取合法的网址（在html中语法表达中正确的网址），并把所有网址存入在链表中,最后打印所有合法网址。...
[『互联网』] 数据挖掘十大经典算法(4) The Apriori algorithm 日期：2011-08-26 08:57:44 点击：484 好评：0
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。...
[『互联网』] 算法时间复杂度日期：2011-08-03 14:50:07 点击：443 好评：0
同一问题可用不同算法解决，而一个算法的质量优劣将影响到算法乃至程序的效率。算法分析的目的在于选择合适算法和改进算法。一个算法的评价主要从时间复杂度和空间复杂度来考虑。...
[『互联网』] 数据挖掘十大经典算法(3) Support vector machines 日期：2011-08-02 15:53:31 点击：470 好评：0
支持向量机属于一般化线性分类器.他们也可以认为是提克洛夫规范化（Tikhonov Regularization）方法的一个特例.这族分类器的特点是他们能够同时最小化经验误差与最大化几何边缘区.因此支持向量机也被称为最大边缘区分类器。...
[『互联网』] 数据挖掘十大经典算法(2) The k-means algorithm 日期：2011-07-03 22:09:57 点击：370 好评：0
k-means algorithm算法是一个聚类算法，把n的对象根据他们的属性分为k个分割，k < n。它与处理混合正态分布的最大期望算法很相似，因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量，并且目标是使各个群组内部的均方误差总和最小。...