应运而生! 双11当天处理数据5PB—HiStore助力打造全球最大列存储数据库-程序员宅基地

技术标签: python  数据库  

阿里巴巴电商业务中历史数据存储与查询相关业务, 大量采用基于列存储技术的HiStore数据库,双11当天HiStore引擎处理数据记录超过6万亿条、原始存储数据量超过5PB。从单日数据处理量上看,该系统已成为全球最大列存储数据库。

 

“历史数据查询和分析,数据仓库和数据挖掘类系统,都是典型的查询密集型业务,随着数据驱动模式在业务中的大量使用,这样的需求会越来越多。”HiStore项目负责人叶建林表示,“刚刚过去的双11全民购物狂欢节,包括天猫、淘宝和菜鸟网络在内的阿里巴巴核心业务平台,产生了大量的商品、用户及物流数据,这些海量数据查询和分析的主要特点是:数据实时插入和更新少;多维查询和并发查询量大。”

 

面对这样的应用场景,传统的行存储数据库产品一直不能很好地解决数据量大,多维查询性能低等问题,阿里巴巴自研分布式低成本分析型数据库HiStore凭借高性价比、高压缩比、数据处理量大,以及独特的列存储技术特点,为对海量历史数据存储和查询有强烈需求的客户提供了功能完备的技术解决方案。

 

依托阿里中间件(Aliware),面对世界级挑战

“作为一款面向分析型应用领域的数据库产品,HiStore架构设计充分满足了海量数据查询和分析需求,以列为基本存储方式和数据运算对象,结合列数据压缩处理、并行处理、Snapshot并发控制、智能索引等数据处理技术,在成本、查询、统计、分析以及批量加载性能上具备突出的优势。”叶建林介绍,HiStore的研发依托于阿里中间件(Aliware)团队,该团队面对全球规模最大的阿里电商平台所带来的巨大流量和海量数据,以及电商平台固有的稳定性要求,去处理各种复杂业务场景,迎接世界级的技术挑战。

 

OLAP场景HiStore性能突出

据了解,目前市场上列存储数据库产品也有不少,诸如SAP HANA、HP Vertica、Teradata DB等商业产品,还有InfiniDB,MonetDB、ClickHouse等开源项目。叶建林表示,HiStore虽是后来者,但产品功能十分丰富,支持高性能多维查询,多核并发查询,DML支持,alter table,临时表支持,实例高可用,异构数据源导入,高速数据Load,压缩算法和MVCC等多项特性。相比传统的事务型关系数据库,HiStore在OLAP场景下具有无可比拟的优势:

1、  大幅降低硬件成本:依靠列存储和透明压缩技术,能有效对数据进行压缩; 常规场景下平均压缩比>10:1,远高于常规压缩算法,部分场景压缩比甚至可达40:1,极大地节省了数据存储空间;

2、  存储数据量大:依靠高速数据加载工具(2TB/小时)和高压缩比(>10:1)数据处理技术,可实现TB级数据大小,百亿条记录的存储解决方案;

3、  支持高并发和实时多维度查询:比如支持任意列组合的多维ad-hoc查询,实现海量数据下秒级检索能力;

4、  符合MySQL技术生态的标准,完全兼容MySQL语法和通讯协议,无缝支持绝大部分MySQL生态圈的工具和应用;

5、  线性扩展:结合TDDL/DRDS,可实现存储容量和处理能力的线性提升;

6、  在海量历史数据存储与查询等业务场景下, 和业界竞品相比,HiStore的查询性能和存储性价比优势明显:亿级别数据场景下,查询性能相当的情况下存储成本仅为infinidb的1/3,单机数据加载速度是infinidb两倍。

高压缩比+列存储,鹰眼系统硬件成本降低90%

作为列存储数据库,高效的压缩算法是其降低整体成本的利器,叶建林表示,阿里内部最重要的历史数据存储和查询系统-- EagleEye(鹰眼),之前日处理记录数万亿条,日产生数据数百TB,采用HiStore后,利用其高速写入和高压缩比能力,集群机器规模缩减90%,压缩比例达到20:1,成本得到大幅削减。此外,集团安全部风险控制中心的数据存储,采用HiStore后平均压缩比10:1,并可提供毫秒级多维度聚合分析查询。

 

实时多维查询,人社上云查询性能优秀

支持实时多维度查询是HiStore的另一个重要优势。从2016年2月起,人社部信息中心组织核心厂商共同研发人社部LEAF6云应用平台。据叶建林介绍,在阿里云提供的人社上云测试方案中,HiStore协助完成上云之后几百个数据分库的建立、数据导入,数据同步等各种复杂配置及性能调优(分库分表、小表广播、异构索引等)。在5000万社保人口,大概800亿条记录,单表记录330亿条的数据背景下,测试查询以在线分组统计,多表join为主,HiStore性能表现优秀。

 

针对不断增长的海量数据存储和查询需求及更苛刻的业务场景,作为阿里中间件(Aliware)其中一员的HiStore也面临诸多挑战,未来将持续深挖高性能,高性价比,高可用的三高优势,依托阿里集团内外广泛的业务场景不断打磨提升产品质量; 同时产品服务化体系也会不断完善,推出人性化管控平台,打造企业级互联网产品。

转载于:https://my.oschina.net/u/185520/blog/806702

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_34354945/article/details/91985390

智能推荐

Android 中调用线程thread.stop 方法后报错,Deprecated Thread methods are not supported._timethread().stop();报错-程序员宅基地

文章浏览阅读3.9k次。03-16 15:39:03.082 16179-16179/tech.androidstudio.handlerdemotimer E/global: Deprecated Thread methods are not supported.03-16 15:39:03.082 16179-16179/tech.androidstudio.handlerdemotimer E/global: _timethread().stop();报错

%e5 转换汉字 php,汉字转Unicode编码,Unicode编码转汉字-程序员宅基地

文章浏览阅读2.3k次。/*** 汉字转Unicode编码* @param string $str 原始汉字的字符串* @param string $encoding 原始汉字的编码* @param boot $ishex 是否为十六进制表示(支持十六进制和十进制)* @param string $prefix 编码后的前缀* @param string $postfix 编码后的后缀*/function unicode..._%e5

东汉十三州以及各个郡的说明_三国地图十三州精确到城池-程序员宅基地

文章浏览阅读6.4w次,点赞7次,收藏10次。东汉十三州以及州下辖的郡县。_三国地图十三州精确到城池

响应式编程实现异步RPC,提升xxl-job调度吞吐量-程序员宅基地

文章浏览阅读1.1k次。在xxl-job中,RPC即用于调度中心请求执行器执行job、kill job,也用于执行器请求调度中心主动注册、执行结果上报。xxl-job实现的RPC类似Feign框架,是基于http..._xxljob 用的什么协议

C++ Json到对象的自动序列化和反序列化工作_c++ json序列化和反序列化-程序员宅基地

文章浏览阅读555次,点赞17次,收藏22次。JSERIALIZE_DEF_OBJECTLIST(Person,Object,objectList) //接受json中的objectList对象数组,对象数组使用此宏定义。JSERIALIZE_DEF_OBJECTTYPE(Person,Son,son) //接受json中的son对象,对象成员使用此宏定义。//输出反序列化结果。

DOSBOX 0.74模拟器安装Windows 95_dosbox imgmount-程序员宅基地

文章浏览阅读7.8k次,点赞2次,收藏6次。DosBox本身带有5.0版的DOS系统,启动后虚拟一个Z盘存放有Dosbox特有的外部指令,如config.com、imgmount.com等,经测试,可以顺利安装各版本的windows 3.1系统,但是不能安装win95,需要用原版的dos镜像启动才能安装。1. 获取启动盘镜像文件 下载Win95启动软盘镜像文件,名为boot.img,放到DosBox 0.74的目录下。2. 制作硬盘镜像文件_dosbox imgmount

随便推点

IOS-----越狱开发_depends libundirect.depends firmware-程序员宅基地

文章浏览阅读2.6k次,点赞3次,收藏2次。1.制作系统应用程序。 ios的程序分为mobile和root权限模式,我们一般用xcode开发的app取得的是mobile权限,但是ios越狱后安装的app如:Cydia、91助手、PP助手等均为系统级应用程序。系统级app的好处是:用不无法手动删除、取得完全的root权限、可设置开机启动项等等功能。通过xcode打包的ipa是无法安装成为系统app的,所以我们需要另外一种打包方式:_depends libundirect.depends firmware

C++--继承基本概念、对象赋值转换、作用域_什么是赋值转换-程序员宅基地

文章浏览阅读254次,点赞5次,收藏2次。继承1. 继承的基本概念1.1 继承的定义1.2 继承基类成员访问方式的变化2. 基类和派生类对象赋值转换3. 继承中的作用域1. 继承的基本概念继承是面向对象程序设计使代码复用的最重要的手段,允许在保持原有类特性的基础上进行扩展,增加功能,产生新的类,称为派生类/子类。继承是类设计层次的复用。1.1 继承的定义派生类 : 继承方式 基类class Student : public Person1.2 继承基类成员访问方式的变化父类成员在子类中的访问权限(除过父类中的私有成员):_什么是赋值转换

模式识别(2)KNN分类_usps数据集是在哪里提出的-程序员宅基地

文章浏览阅读2.3k次,点赞10次,收藏36次。基于USPS和UCI数据集的近邻法分类一、问题描述 使用近邻算法进行分类问题的研究,并在USPS手写体数据集和UCI数据集上的iris和sonar数据上验证算法的有效性,并分别对近邻法中k近邻算法、最近邻算法和Fisher线性判别进行对比分析。二、数据集说明2.1 USPS手写体 USPS,美国邮政署,是美国联邦政府的独立机构,其中的手_usps数据集是在哪里提出的

Access根据出生日期计算年龄_Excel表格中怎么用出生日期计算年龄?这些方法好用哟...-程序员宅基地

文章浏览阅读1.9k次。  平时工作中用到Excel表格的几率特别大,也积累了一些小技巧,今天就给大家分享一下计算年龄的方法。  在Excel表格中利用“系统时间”和“出生年月”来计算“周岁年龄”、“虚岁年龄”和“实际年龄”是非常方便的,特别是人事管理和工资的统计中遇到的可能性比较大,一起来看一下计算年龄的方法吧。  方法一  第一步,如下图所示,先把需要计算年龄的出生日期输入到表格中。   第二步,然后在B2单元格中输..._access计算年龄

【EJB】异步方法调用-程序员宅基地

文章浏览阅读641次,点赞23次,收藏18次。虽然我个人也经常自嘲,十年之后要去成为外卖专员,但实际上依靠自身的努力,是能够减少三十五岁之后的焦虑的,毕竟好的架构师并不多。架构师,是我们大部分技术人的职业目标,一名好的架构师来源于机遇(公司)、个人努力(吃得苦、肯钻研)、天分(真的热爱)的三者协作的结果,实践+机遇+努力才能助你成为优秀的架构师。如果你也想成为一名好的架构师,那或许这份Java成长笔记你需要阅读阅读,希望能够对你的职业发展有所帮助。《一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码》点击传送门即可获取!

如何构建知识体系_网络智能知识体系的构建方法-程序员宅基地

文章浏览阅读286次。分享一个大牛的人工智能教程。零基础!通俗易懂!风趣幽默!希望你也加入到人工智能的队伍中来!请轻击http://www.captainbed.net先说一件值得思考的事情:高考的时候大家都是一样的教科书,同一个教室,同样的老师辅导,时间精力基本差不多,可是最后别人考的是清华北大或者一本,而你的实力只能考个三本,为什么?当然这里主要是智商的影响,那么其他因素呢?智商解决的问题能不能后天用其他方式来补位一下?大家平时都看过很多方法论的文章,看的时候很爽觉得非常有用,但是一两周后基本还是老样子了。其中有很大_网络智能知识体系的构建方法

推荐文章

热门文章

相关标签