« | October 2025 | » | 日 | 一 | 二 | 三 | 四 | 五 | 六 | | | | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | | |
| 公告 |
暂无公告... |
Blog信息 |
blog名称: 日志总数:7 评论数量:2 留言数量:-1 访问次数:46452 建立时间:2009年3月9日 |

| |
[转载]Google的高可扩展架构与海量数据处理 软件技术, 科学研究
wendyneil 发表于 2009/9/15 16:48:32 |
[转载]Google的高可扩展架构与海量数据处理
作者:NinGoo | 【转载须以超链接形式标明文章原始出处和作者信息】
Google需要处理数据真正可以称得上海量,这依赖于其分布式的高扩展架构,否则,再强的小型机大型机也扛不住互联网每天产生的“信息垃圾”。Google的Jeff Dean同学为我们解密了Google的高可扩展性架构,ppt可以从这里下载。
一、底层架构
负载并行分配到多个硬件机器上
软件必须采用容错处理,不依赖具体的某一个台机器运行
大量采用刀片服务器和PC Server,低端存储和网络设备
机器追求性价比而不是盲目的高性能
基于Linux
二、分布式系统
调度系统:Scheduling System
调度系统是一个底层支撑系统,负责调度监控Cluster资源
文件存储:GFS
Master节点负责管理文件系统元数据
Chunkserver存放具体数据,以64MB为单元分布
客户端通过master查找文件
客户端直接从chunkserver获得需要的数据
目前运行超过200套GFS群集
超过5000台机器
超过5PB数据
为10000台以上客户端提供服务
数据存储:BigTable
采用多维稀疏映射图模型,每一个数据单元Cell可以存储不同时间截的数据
将表按行分隔成Tablet,分布到不同服务器上存储
底层存储架构采用GFS
Master节点处理元数据和负载均衡
Tablet服务器存储数据
锁服务器(Lock Service)控制数据访问的一致性
超过500个数据单元
最大的单元存储超过6000TB的数据,使用了超过3000台机器
最忙的单元支撑了500000次以上的操作
数据处理:MapReduce
MapRedule是Google的批量数据处理工具,分为两大功能
映射(Map):根据输入生成(key,value)键值对
简化(Reduce):合并存储(key,value)键值对
MapReduce用于Google的大多数产品中,包括Google Earth,News,Analytics,Search Quality,Indexing等等
目前,调度系统/GFS/BigTable/MapReduce可以在同一个群集内协同工作
三、未来的发展方向
跨越数据中心的分布式系统
更高的自动化程度
本文网址:http://www.ningoo.net/html/2008/how_google_hangding_large_datasets.html |
|
|