华为在GIV 2025报告中指出,预计到2025年,全球每年新增数据存储量为180ZB,企业的数据利用率将会达到86%。可以看出,在互联网快速发展的当下,数据存储计算的需求与日俱增。
更多大数据应用的创新,随着5G、IoT、VR/AR、自动驾驶等技术的发展,会不断涌现出来,面对诸多挑战,比如海量数据分析带来的算力需求不均、数据结构的多样化、高并发作业等,传统大数据平台主要基于本地HDFS作为大数据存储,存算一体耦合在同一集群。
随着存储量的增长,这种存算一体的大数据技术架构,计算成本也随之线性增长,需要通过大数据计算存储分离方案来解决,否则无法灵活配置存储及算力,也难以满足企业海量数据分析追求极致性价比的一些典型场景。
在一些为了提高效率的场景中,有时需要关闭闲置的计算集群,但由于计算集群中存在数据,关闭闲置的计算集群会导致数据丢失,无法实现真正的弹性计算,存算分离可保证数据不丢失。
在日志留存场景中,存储周期变长(例如2个月变成6个月),但算力并不需要显著增加,通过大数据计算分离方案可降低计算的配置和成本。
在离线分析场景中,对存储和算力需求不一,离线批处理,分析类型多,数据量大,大数据开发需求爆发式增长。企业在存储空间或计算资源不足时,只能同时对两者进行扩容,虽然能保证性能最优,但利用率低,因为存算资源,扩容成本高。通过大数据计算存储分离方案,最大限度降低企业使用成本,提升资源利用率,计算不够扩计算,存储不够扩存储,计算资源根据任务负载动态扩缩容机器。
斗鱼作为国内首家弹幕式直播分享网站,以游戏直播为主,涵盖了体育、综艺、娱乐等多种直播内容,每天都在为成千上万的观众分享欢乐,已成为国内排名第一的电竞娱乐一站式直播分享平台。
据头榜2019年12月数据显示,斗鱼每月都会产生PB级数据量,日均活跃观众1485.56万人次,累积弹幕总数9亿7073万,活跃主播32.38万人次,平均在线时长达5小时以上,累积付费礼物4亿6146万。
但是,直播黑产也越来越猖獗,包括主播刷榜、渠道推广、非法充值等等,斗鱼自建的大数据分析平台,在有限的投入下提升斗鱼风控平台投诉排查效率,面临数据量和计算量大但要严格控制成本的困难。
“斗鱼大数据分析平台目前是自建集群基于开源CDH,随着业务规模越来越大,面临数据量大、计算量大,维护成本高的困难,需要寻求稳定高性价比的解决方案。”这是在HUAWEI CONNECT 2019大会期间,李瑞(斗鱼风控代表)强调的重点。
华为云“存算分离+鲲鹏”大数据解决方案,通过严格的业务模拟、比拼测试后,适用斗鱼大数据数据增速快于计算的业务场景。其整体性能得到大幅提升,在读写性能、复杂计算、简单计算、数据倾斜等方面均优于IDC本地大数据计算集群。
华为云“存算分离+鲲鹏”大数据解决方案为直播代表斗鱼带来的价值:
华为云存算分离性价比高,极致弹性
针对传统存算一体大数据架构中扩容困难、资源利用率低等问题,华为云“存算分离+鲲鹏”大数据解决方案,采用计算存储分离架构。
华为云数据存储部分基于OBS的跨AZ等能力实现更高可靠性,无需担心地震、挖断光纤等突发事件;计算资源支持0~N弹性扩缩,百节点3分钟发放。存算分离后,计算节点可实现真正的极致弹性伸缩;存储基于公有云对象存储实现11个9的高可靠,无限容量,支撑企业数据量持续增长。
华为云存储和计算资源可以灵活配置,可使资源匹配更精准、更合理,根据业务需要各自独立进行弹性扩展,让大数据集群资源利用率大幅提升,帮助斗鱼实现性价比最优,综合分析成本降低50%。
同时,华为云通过高性能shuffle、高效的SQL优化器,实现计算引擎加速;支持多数据源的计算下压,性能相比开源提升1倍;通过分布式高性能缓存,异构存储模型,支持热数据加速访问,实现缓存加速;通过高性能的计算存储分离架构,针对对象存储数据访问效率 优化(元数据操作、写入算法优化等),实现存储加速。
华为云基于多级加速技术支持,助力斗鱼离线大数据分析效率不断提升。
华为云鲲鹏加持,为大数据提供更高算力
华为云“存算分离+鲲鹏”大数据解决方案在计算层,基于鲲鹏处理器的多核高并发能力、自研EulerOS,可为用户提供多种粒度的大数据算力,包括裸金属服务器,云服务器,容器和Serverless等等,大数据分布式场景性能可提升25%,可轻松处理PB级数据作业,为斗鱼在海量数据多并发作业提供可扩展的分析能力,帮助斗鱼解决IDC算力不够的问题。
华为云开放生态,全面兼容,0改造上云
华为云坚持开放生态路线,让斗鱼大数据应用从IDC“0改造”平滑移植上华为云,“存算分离+鲲鹏”大数据解决方案完全兼容开源原生接口,全面兼容主流的大数据生态。
同时华为云提供一份数据支持多引擎的能力,即同一份数据存放在OBS上供多引擎调度,包括传统批、流、交互式,以及AI引擎,减少数据冗余,数据“0”搬迁,支持多种业务计算诉求,实现真正数据湖,帮助斗鱼轻松应对海量存储,减少重复投资,提升业务分析效率。未来在AI,视频云服务,5G+Cloud+直播创新等领域,双方还将进一步合作,打造更好的用户体验。
华为云“存算分离+鲲鹏”大数据解决方案,使得客户和伙伴可以更加聚焦业务,创造价值,打破数据孤岛,助力企业数字化转型,为客户和伙伴提供的高性价比、极致弹性伸缩、多元计算引擎的业界领先大数据解决方案,受到了广泛赞誉和好评。
关注华为云官网,立即体验数据湖探索DLI吧!
AI时代,OCR先行,华为云智能OCR服务提供多种卡证票据识别能力和自定义OCR能力,助力企业构建智能影像识别平台,多元计算+ AI,打造企业级智能数据湖。最近华为云推出的一款AI大数据产品,已加入到华为云开年采购季活动中。基于存算分离+鲲鹏的创新解决方案,提供高性价比的大数据服务,助力企业降本提效。
想了解具OCR是什么?可添加华为云小助手,微信号:xiaoxiaoyu0908回复“直播”,进入交流群优惠活动火爆进行中,观看直播还有专属福利。3月6号(周五)15:00-16:30,主播OCR技术总监Sean和大数据解决方案专家略哥与您不见不散。
直播间链接:https://huaweicloud.bugu.mudu.tv/watch/lmzkj0vm
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。