数据仓库领域正发生着翻天覆地的变化,不管是市场维度,还是技术维度。
市场层面,过去的主流数据仓库榜单被国外的几家所霸占:Redshift、Snowflake、Actian……如今,可以说百花齐放百家争鸣,国产数据库也纷纷踏入了大众的视野。信通院2022年6月发布的数据显示,全球数据库产品供应商有363家,其中中国数据库供应商达116家。如今,越来越多的行业、越来越多的场景都能看到国产数据仓库的身影。
技术层面,进化不止,短短几年时间,集中式不再一家独大,分布式增长迅猛,在越来越多的关键行业、核心场景都证明了自己,登上了更广阔的舞台。截至当前,融合统一、云原生、实时分析三大趋势已经成为数据仓库一致的追求。
01
SelectDB脱颖而出,靠的是什么?
毫无疑问,数据仓库是当下最热的风口。在这样的大背景下,出现新的数据仓库创业公司本不令人好奇,但 SelectDB(北京飞轮数据科技有限公司)还是引起了笔者的注意,要知道SelectDB 成立还不到一年时间。
简单介绍下 SelectDB,基于Apache Doris 的商业化公司,2022年1月成立,4月完成天使轮和天使+轮融资,由 IDG 资本、红杉中国等顶级 VC 投资,融资金额超过3亿元。截至当前,SelectDB 可以说成绩斐然。
产品层面,在2022年10月 ClickHouse 发起的分析型数据库性能测试排行榜 ClickBench 中,SelectDB Cloud 性能表现超越一众国内外产品,多项指标排行前列,并在业界最为通用的 c6a.4xlarge, 500gb gp2 机型下排行全球第一。
客户层面,SelectDB 也已经为很多知名客户提供了产品和服务。在互联网、物流、金融、汽车、交通、零售、制造、政府等领域和行业,帮助用户落地数仓平台,解决业务分析、运营管理、用户洞察、智能决策等诸多方面的需求。例如趣头条、海程邦达、航旅纵横、安踏、BOSS直聘、360数科等诸多知名企业都已经开启了 SelectDB 云数仓应用之旅。
生态层面,SelectDB 已经与阿里云、腾讯云、华为云、AWS等世界顶级云服务商达成全面战略合作关系。并与思迈特、数澜科技、袋鼠云、观远数据、永洪科技、新致软件等数据中台和数据BI领域的生态伙伴联手开发应对现代数据分析需求的联合解决方案。
产品、客户、生态齐头并进,很难想象这是一个成立还不到一年的创业公司所为,然而SelectDB做到了,SelectDB 成功抓住了投资机构、客户、生态链企业等众多的眼球。试问这是如何做到的?了解创业历程的朋友其实都知道,创业初期拼的就是两个关键点:团队和方向。
SelectDB公司创始团队由原百度智能云初创人员和 Apache Doris 项目核心成员组成,在云计算/大数据/人工智能方面有丰富的经验。公司员工均来自于百度、腾讯、奇安信、阿里、字节、AWS、小米、快手、蚂蚁等国内外一流互联网和云计算企业。
至于方向,SelectDB 懂得顺势而为。伴随数字经济的不断深化,当前社会已全面进入现代数据栈时代,典型特征是以云数仓为中心,且要求平台处理数据具备实时性、统一性和云原生性。SelectDB在产品研发上很好的契合了这些趋势。
资深的技术团队+顺势而为,由此也就不难理解为什么能发展的如此迅速。说到底,团队、技术都是经过摸爬滚打的,有底气、有实力。
02
SelectDB Cloud行不行,让数据来说话
当前企业用户最重视的数据库特性有哪些?性能、成本、操作易用性、稳定性和安全性……缺一不可。道理很简单,数字经济时代,企业纷纷转型数字化,可靠性、稳定性对企业的正常运行十分重要,易用能够减少人力的投入,融合统一能够一套系统支持多种业务负载避免重复建设,至于成本方面,云原生的架构给予了数据仓库得天独厚的优势。
SelectDB Cloud 表现怎么样?一一来看。
极致性价比。性价比是有性能和成本两部分组成的,相辅相成。
性能方面,SelectDB Cloud 除了在分析型数据库性能测试排行榜 ClickBench 中登顶外,还有很多直观的对比场景。比如,
• 宽表聚合场景:
在SelectDB Cloud上选择3台medium 套餐(单节点 16 core vcpu,64G内存),同时选择各种主流的云数仓和开源数仓,在相同资源配置的套餐上进行测试。数据显示 SelectDB Cloud 在宽表的性能遥遥领先,大概是性能最好友商的3.4倍(clickhouse),是性能最差友商的92倍(presto),是业界标杆产品snowflake的6倍。
• 多表关联场景:
在同样3台medium集群下的tpch sf100测试中,SelectDB Cloud的性能是友商的1.5倍(redshift)~ 49倍(ClickHouse),是业界主流友商Snowflake的2.5倍。
关于性能,这里举几个实际案例:SelectDB帮助云积分,将实时圈人业务从3-5分钟降低到10秒;帮助橙联股份,将业务报表计算从2小时降低到2分多钟;帮助小米,将A/B实验场景性能提升2倍,用户行为分析场景性能提升4-6倍;帮助360数科,将即席查询平均耗时从5分钟缩短至5秒内;帮助同程数科,将报表查询的响应速度从之前的1-2分钟提升至秒级甚至毫秒级。
至于成本,基于云原生的存储分离架构,SelectDB Cloud 能使得成本低至自有部署成本的 1/2~1/5,同时性能依然可以达到1.5倍以上的提升效果。这一方面得益于 SelectDB Cloud 分层分级存储引擎带来的综合成本降低,另一方面则是由于存算分离,使得计算节点可随需而动。
SelectDB Cloud 究竟是如何做到的?这里重点讲几项关键技术:
一、存储引擎。SelectDB Cloud采用列式存储引擎,数据按照列存储,在查询时可以减少无用数据的扫描,并且通过多种编码方式实现了超高的数据压缩比,同时丰富的索引结构也可以进一步减少数据扫描量,从而提升数据扫描效率。
二、查询引擎。SelectDB Cloud采用MPP查询引擎,能够充分利用多节点并行和节点内多核并行,支持多张大表的分布式shuffle join;支持数据的Colocate join和bucket shuffle join优化,减少数据传输,提升join性能;同时还支持类似runtime filter等动态执行技术,结合运行状态实现动态调整执行,达到最优的执行效率。
另外,SelectDB Cloud还增加了向量化执行引擎,能够大幅减少虚函数调用,提高cache命中率,高效利用了simd 指令,从而使算子的性能提升数十倍。
在此基础上,SelectDB Cloud采用RBO和CBO结合的智能优化策略。RBO完成表达式优化,常量折叠,公共表达式提取,列裁剪,谓词下推等。CBO采用cascades框架,通过丰富的统计信息和代价模型,完成join reorder、CTE、runtime filter等优化。
存储引擎和查询引擎的优异表现奠定了SelectDB Cloud的性能基石。除此之外,在成本优化方面,SelectDB Cloud也引用了很多创新性的技术,比如SelectDB Cloud实现了本地磁盘缓存和对象存储的分层分级存储引擎,不同层级的存储采用不同的系统和介质,再比如,SelectDB Cloud采用存算分离的架构,存储共享一份,不需要冗余的存储,计算资源随需弹性扩缩容,这些都带来了综合成本的大幅下降。
融合统一。为什么新时代的数据仓库要强调融合统一?因为大数据时代,数据种类太多、数据量太大,再以传统烟囱式的建设方式来治理数据不可行。
众所周知,传统数据仓库,一套业务配一个数据库和一套基础设施,分而治之,弊端很明显,烟囱多、业务复杂、运维要求高、成本高、业务之间不能相通;后为适应时代需求逐步发展出了数据湖的概念,能够支持结构化和非结构化数据,能够支撑多种业务负载。
数据湖的优点显而易见,以至于到现在还有不少声音在争论,究竟是选数据湖还是选数据仓。实际上,传统的湖仓并存方案有很多显而易见的缺点,例如系统的复杂性和数据的冗余性等等。
对比之下,SelectDB Cloud 就是现代数据栈时代下,云催生出的数仓的典型代表。它融合统一的特性能够解决传统湖仓并存方案的很多缺点,从以下方面看:
1、混合负载。SelectDB Cloud 一套系统可支持多种负载,包含实时报表分析、adhoc 分析、批量数据处理,湖仓加速联邦查询;2、多样化的数据支持。SelectDB Cloud不但支持结构化数据分分析,也原生高效支持半结构化数据的存储和分析;3、湖仓一体。SelectDB Cloud 支持对已经建设的离线数仓和数据湖进行联邦查询,实现高性能的同时,不需要迁移历史数据。包括支持便捷的元数据打通和支持多种外表的联邦查询。易用性。SelectDB Cloud极大降低了使用门槛,提升了人员效率。目前,SelectDB Cloud 是领域中少有支持 MySQL 连接协议的数仓。在如今的事务处理领域,MySQL 已经被各大公司广泛采用,基于此,用户可以使用 MySQL Client、JDBC 和 DBeaver 来连接使用 SelectDB Cloud,这可以大大节省开发人员的学习成本。同时 SelectDB Cloud 拥有丰富易用的多种数据导入方式,其可视化控制台能够减少对运维人员专业性的依赖。
除此之外,在企业非常关注的数据安全性方面,SelectDB Cloud也做了很多用心的设计,例如它设计了两层分离的用户权限体系,一个用于资源管理,通过管理控制台的用户权限体系;一个用于数据使用和管理,数据仓库内的用户权限体系,使得企业可以完成比较复杂的权限管理。另外,SelectDB Cloud提供了公网和私网两种连接方式,保障客户的连接安全。
另外特别值得一提的是,SelectDB Cloud 目前是全国首个真正实现多云中立的云原生实时数仓。构建与多云之上,SelectDB 保持着开放中立的态度,这令企业不会被任何一家云厂商所绑定,可以实现灵活的迁移。
凭借在各个维度优异的表现,SelectDB Cloud 正在受到越来越多用户的青睐,并给企业带来实实在在的价值。比如,SelectDB Cloud 帮助海程邦达将供应链物流业务分析查询延时从56.6秒降低到0.649s,足足降低99%,凭借优异的性能表现得到企业方的一致认可。
如今的SelectDB 算是站在了聚光灯下,也为未来打下了坚实的基础。
总结全文,数据库市场是风口但如今同时也是绝对的红海,崭露头角需要有真实力,而不是花拳绣腿,长期生存更需要脚踏实地、不断创新的精神。好的团队、正确的方向,加上锐意进取的精神,使得SelectDB仅用一年时间就完成了很多创业公司几年的成就,未来潜力不可估量。
免责声明:此文内容为第三方自媒体作者发布的观察或评论性文章,所有文字和图片版权归作者所有,且仅代表作者个人观点,与 无关。文章仅供读者参考,并请自行核实相关内容。投诉邮箱:editor@fromgeek.com。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。