1.1.3 支撑淘宝千亿交易背后的技术平台故事
2009年对阿里巴巴来说注定是不平凡的一年,这一年诞生了两个深刻影响我国商业和IT的新事物——“双11”和阿里云。抛开商业仅从工程角度看,阿里巴巴集团每年的“双11”,不仅是世界上最大规模的商业协同战,更是阿里巴巴的全方位技术练兵场。以2018年的“双11”为例,涉及的数据包括阿里巴巴3万名工程师、18万个品牌、400座城市的100个商圈、18万家商户、20万家线下新零售门店、200家金融机构、1500个运营商合作伙伴、3000个物流伙伴,全天的物流订单量更是超过了10亿。而每年“双11”成功的商业运作背后,是先进、稳定的技术平台。阿里巴巴“双11”和阿里云的技术创新信息如图1-2所示。
相比于“双11”每年“高歌猛进”的表现,阿里云的发展历程则显得更“大器晚成”。2009年春,在北京汇众大厦203室,阿里云的缔造者们写下了阿里云核心IaaS系统“飞天”的第一行代码。随后,阿里云开始了自主研发之路,分布式存储系统、5k计算平台、ET城市大脑等陆续发布。技术自主创新之路无比艰难,但阿里云不仅坚持了下来,还刷新了一系列世界纪录:2013年,率先完成核心系统去“IOE”,单集群服务器规模率先超过5000台;2015年,100T数据排序时间将世界纪录缩短了一半以上(不到7分钟);2019年,OceanBase登顶世界OLTP(联机交易)TPC-C基准性能测试;2020年,AnalyticDB TPC-DS(数据仓库)再次刷新全球第一榜单的成绩,同时,基于含光800芯片的AIACC[1]在斯坦福大学DAWNBench人工智能竞赛中夺得4项第一。
“双11”和阿里云的深度“结合”,则是在2019年阿里巴巴决定把核心交易系统全部迁移到阿里云公有云上之后。其实,这并不是阿里巴巴第一次在阿里云上运行系统,早期的案例有蚂蚁金融、2012年的聚石塔上云,以及2015年将12306系统部署到“飞天”上分担了春运75%的高峰流量,等等。
图1-2 阿里巴巴“双11”和阿里云的技术创新
在2019年“双11”当天,阿里云取得了傲人成绩:交易创建峰值达54.4万笔/秒,消息系统峰值处理量达1.5亿条/秒,实时计算消息处理峰值达25亿条/秒,RPC调用百亿QPS,批处理计算数据量当天达到980 PB。
这一天的零点,即2019年11月11日的零点,也是见证历史的时刻:在平稳度过“双11”零点的订单创建洪峰后,阿里巴巴正式宣布,其核心系统已100%运行在阿里云公有云上。这次技术升级,使得阿里巴巴核心电商的中心和单元业务(包括数据库、中间件等组件),全部实现了全面上云和使用云服务;同时将数十万的物理服务器从线下数据中心迁移到了阿里云上。这次升级共使用了200万的容器规模,且全部基于阿里巴巴自研的神龙弹性裸金属服务器,使阿里巴巴成为全球首个将核心交易系统100%运行在公有云上的大型互联网公司。
作为阿里云底座的飞天操作系统,已经能够处理10万台以上的服务器调度;这些服务器基于神龙系统和自研的虚拟化技术,可以保证随着服务器压力的增长,服务器的输出依然是线性的(而非大部分服务器的曲线渐增);自研的OceanBase和PolarDB数据库,不仅超越了所有传统数据库的物理极限,而且使应用实现了平滑的水平扩展;极致的存储优化,使得做了计算存储分离的应用有比本地访问更快的远端访问速度,还能使应用获得更高的稳定性和更强的扩缩容能力。
阿里巴巴交易核心系统上云的实践充分证明了,在经过10多年的充分发展后,如今的阿里云和阿里云原生技术已经可以为业务复杂、规模庞大的工作负载提供强有力的服务保障。
[1] AIACC是阿里云自主研发的飞天AI加速引擎,首次实现了对TensorFlow、PyTorch、MxNet和Caffe等主流深度学习框架的统一加速。