--[转载]Google的高可扩展架构与海量数据处理

[转载]Google的高可扩展架构与海量数据处理作者：NinGoo | 【转载须以超链接形式标明文章原始出处和作者信息】 Google需要处理数据真正可以称得上海量，这依赖于其分布式的高扩展架构，否则，再强的小型机大型机也扛不住互联网每天产生的“信息垃圾”。Google的Jeff Dean同学为我们解密了Google的高可扩展性架构，ppt可以从这里下载。一、底层架构负载并行分配到多个硬件机器上软件必须采用容错处理，不依赖具体的某一个台机器运行大量采用刀片服务器和PC Server，低端存储和网络设备机器追求性价比而不是盲目的高性能基于Linux 二、分布式系统调度系统：Scheduling System 调度系统是一个底层支撑系统，负责调度监控Cluster资源文件存储：GFS Master节点负责管理文件系统元数据 Chunkserver存放具体数据，以64MB为单元分布客户端通过master查找文件客户端直接从chunkserver获得需要的数据目前运行超过200套GFS群集超过5000台机器超过5PB数据为10000台以上客户端提供服务数据存储：BigTable 采用多维稀疏映射图模型，每一个数据单元Cell可以存储不同时间截的数据将表按行分隔成Tablet，分布到不同服务器上存储底层存储架构采用GFS Master节点处理元数据和负载均衡 Tablet服务器存储数据锁服务器(Lock Service)控制数据访问的一致性超过500个数据单元最大的单元存储超过6000TB的数据，使用了超过3000台机器最忙的单元支撑了500000次以上的操作数据处理：MapReduce MapRedule是Google的批量数据处理工具，分为两大功能映射(Map)：根据输入生成(key,value)键值对简化(Reduce)：合并存储(key,value)键值对 MapReduce用于Google的大多数产品中，包括Google Earth,News,Analytics,Search Quality,Indexing等等目前，调度系统/GFS/BigTable/MapReduce可以在同一个群集内协同工作三、未来的发展方向跨越数据中心的分布式系统更高的自动化程度本文网址：http://www.ningoo.net/html/2008/how_google_hangding_large_datasets.html

阅读全文(4113) | 回复(0) | 编辑 | 精华

发表评论：

昵称：
密码：
主页：
标题：

验证码： (不区分大小写,请仔细填写,输错需重写评论内容！)

站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.031 second(s), page refreshed 144820078 times.
《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号