Few, but ripe.                                       
                                                                   
                                                       by C.F. Guass

     本站首页    管理页面    写新日志    退出


«October 2025»
1234
567891011
12131415161718
19202122232425
262728293031


公告
暂无公告...

我的分类(专题)

日志更新

最新评论

留言板

链接

Blog信息
blog名称:
日志总数:7
评论数量:2
留言数量:-1
访问次数:46452
建立时间:2009年3月9日




[转载]Google的高可扩展架构与海量数据处理
软件技术,  科学研究

wendyneil 发表于 2009/9/15 16:48:32

[转载]Google的高可扩展架构与海量数据处理 作者:NinGoo | 【转载须以超链接形式标明文章原始出处和作者信息】 Google需要处理数据真正可以称得上海量,这依赖于其分布式的高扩展架构,否则,再强的小型机大型机也扛不住互联网每天产生的“信息垃圾”。Google的Jeff Dean同学为我们解密了Google的高可扩展性架构,ppt可以从这里下载。 一、底层架构 负载并行分配到多个硬件机器上 软件必须采用容错处理,不依赖具体的某一个台机器运行 大量采用刀片服务器和PC Server,低端存储和网络设备 机器追求性价比而不是盲目的高性能 基于Linux 二、分布式系统 调度系统:Scheduling System 调度系统是一个底层支撑系统,负责调度监控Cluster资源 文件存储:GFS Master节点负责管理文件系统元数据 Chunkserver存放具体数据,以64MB为单元分布 客户端通过master查找文件 客户端直接从chunkserver获得需要的数据 目前运行超过200套GFS群集 超过5000台机器 超过5PB数据 为10000台以上客户端提供服务 数据存储:BigTable 采用多维稀疏映射图模型,每一个数据单元Cell可以存储不同时间截的数据 将表按行分隔成Tablet,分布到不同服务器上存储 底层存储架构采用GFS Master节点处理元数据和负载均衡 Tablet服务器存储数据 锁服务器(Lock Service)控制数据访问的一致性 超过500个数据单元 最大的单元存储超过6000TB的数据,使用了超过3000台机器 最忙的单元支撑了500000次以上的操作 数据处理:MapReduce MapRedule是Google的批量数据处理工具,分为两大功能 映射(Map):根据输入生成(key,value)键值对 简化(Reduce):合并存储(key,value)键值对 MapReduce用于Google的大多数产品中,包括Google Earth,News,Analytics,Search Quality,Indexing等等 目前,调度系统/GFS/BigTable/MapReduce可以在同一个群集内协同工作 三、未来的发展方向 跨越数据中心的分布式系统 更高的自动化程度 本文网址:http://www.ningoo.net/html/2008/how_google_hangding_large_datasets.html


阅读全文(4031) | 回复(0) | 编辑 | 精华
 



发表评论:
昵称:
密码:
主页:
标题:
验证码:  (不区分大小写,请仔细填写,输错需重写评论内容!)


                                                     
站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.023 second(s), page refreshed 144811537 times.
《全国人大常委会关于维护互联网安全的决定》  《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号