[原创作品]2008年10月《分布式数据挖掘:应付分布式海量数据的现代方法》

人们面临的挑战不再是收集信息,而是挖掘数据以回答特定研究问题。Benjamin Lieberman在最近的一篇developerWorks系列文章里向大家介绍了用分布式数据挖掘来处理这些分布式海量数据的技术。Benjamin Lieberman认为拥有分布式数据的组织面临着如何发现、访问和有效地使用分布式海量数据的挑战,而这可以用分布式数据挖掘技术来解决: 发现信息:包括静态发现和动态发现。静态发现是手动确定数据源系统,并预先把处理系统配置好,以便其在处理过程中使用发现的源,此方法最常见但最不灵活。动态发现是UDDI及OGSI(Open Grid Service Infrastructure)背后的基本思想,数据源将其功能和内容在中央注册中心进行注册,以便你可以在运行时查询中央注册中心以寻找符合处理需要的数据源。 安全地访问信息:获得访问权限需要对用户进行身份验证。对于分布式数据库,每个源可能使用的是不同的安全机制,这是分布式处理模型里的一个主要难题。 有效地传输与使用数据:数据源的庞大使得通过远程连接获取数据变得不切实际。你有两种选择:批量获取数据,然后在本地处理(如SETI@HOME项目);或者在远程平台上执行处理。 [略]“网格计算已出现一段时间了,并正开始被看作是大规模计算的未来趋势。管理大型分布式数据集的能力是网格工作的关键问题,”Benjamin Lieberman总结道。随着世界上最大网格(大型强子对撞机计算网格)的投入使用,这篇关于分布式数据挖掘的文章也许可以给我们带来了不少启发。感兴趣的朋友请进一步阅读全文。全文请看InfoQ中文站:http://www.infoq.com/cn/news/2008/10/distributed-data-mining




发表评论:
昵称:
密码:
主页:
标题:
验证码:  (不区分大小写,请仔细填写,输错需重写评论内容!)

日历 | CALENDAR

«December 2019»
1234567
891011121314
15161718192021
22232425262728
293031
blog名称:World Wide Web Watch
日志总数:193
评论数量:663
留言数量:75
访问次数:5702076
建立时间:2004年10月30日
站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.015 second(s), page refreshed 144336320 times.
《全国人大常委会关于维护互联网安全的决定》  《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号