探秘K1 Power:如何打造一台坚若磐石的高性能小型机?

【IT168 评论】熟悉服务器领域的朋友,必然对浪潮K1小型机或多或少有所了解。在当年关键业务主机市场寡头垄断的格局下,浪潮400多位工程师耗费4年时间,于2010年成功研制出了K1小型机,为市场注入一股新的血液。使得中国成为除美国、日本之外全球第三个具备关键应用主机研制能力的国家,浪潮也成为全球第五家具备关键应用主机研制能力的企业。

经过多年的发展,K1小型机获得了市场的广泛接纳与认可,受到来自金融、交通、政务、能源、医疗等众多关键行业客户的青睐。与此同时,K1家族产品也不断升级迭代,持续以强劲性能与灵活可靠的特性,支撑其客户关键业务应用的高效平稳运行。

而随着2018年浪潮与IBM的合资公司——浪潮商用机器的成立,K1的发展路线图中更是出现了Power的身影。于是,国产关键业务主机的先行者K1,进入了一个新的发展阶段。浪潮K1小型机领先的核心技术与系统设计理念,再加上Power处理器强大的性能表现,浪潮商用机器K1 Power系列服务器由此诞生。

探秘K1 Power:如何打造一台坚若磐石的高性能小型机?

浪潮商用机器有限公司副总经理黄家明

据浪潮商用机器有限公司副总经理黄家明介绍,浪潮商用机器分别在北京、济南两地建立了Power系统研发实验室,都配备了专业的电子设计自动化工具(EDA)。K1 Power研发团队目前有上百位核心人员,均来自于浪潮K1小型机研发团队,拥有10年以上高端服务器设计经验,是目前国内高端服务器研发领域最优秀的团队,具备从系统原理到主板PCB设计的全流程设计能力。此外,实验室还配备了顶级硬件研发测试平台,以快速诊断问题,保障产品的高可靠性。

那么,K1 Power服务器究竟是怎样炼成的?其卓越的性能与可靠性背后是哪些关键技术在做支撑?在有幸参加了浪潮商用机器“探秘K1 Power研发之旅”活动之后,笔者终于对此有了一个大体的了解,下面就一一为大家揭秘。

高速内核——POWER9带来卓越的性能表现

服务器的性能表现自然取决于CPU。与X86处理器相比,最新的POWER9处理器具有显著的性能优势,可以说就是为应对数据密集型工作负载、满足严苛的高性能计算需求而生。

上图是Power 9与X86处理器的横向对比,我们可以看到,从主频到带宽,POWER9均能够提供两倍以上的性能提升。与绝大多数X86处理器不同,POWER9支持最新的PCIe 4.0以及NVLink2.0协议,以此带来极大的内存与I/O带宽优势,加速CPU与GPU间的通信,满足更高的应用负载运行要求。

像K1 Power这样的中高端服务器,通常用于承载组织的核心数据库应用,因此在判断其性能优劣时,对数据库负载的支持是一个很好的依据。据浪潮商用机器有限公司产品研发部副总经理尹宏伟介绍,在实际测试中,K1 Power服务器对于EDB、DB2和Oracle、SAP等商业数据库以及MySQL等开源数据库,都能带来相对X86服务器两倍以上的性能提升。

此外还有非常值得一提的一点,是K1 Power对计算资源的高利用率。由于K1 Power服务器具备强大的性能,因此可以在单台服务器中以分区的形式满足更多应用负载——作为对比,x86服务器往往是一台服务器运行一个应用,通过部署更多服务器来运行更多应用。因此在实际运行时,K1 Power服务器的整机硬件负载效率更高,资源利用率更高。

极致可靠——全栈可靠性设计理念,保障业务持续运行

对于K1 Power服务器而言,在提供优越性能的前提下,保证整个系统的高度可靠是一个同样重要的课题。K1 Power服务器系统的可靠性设计遵循高RAS(可靠性Reliability、可用性Availability、可服务性Serviceability)特性理念,此外还加入了独立的服务处理器FSP,全方位侦测潜在故障,帮助及时修复,确保系统持续平稳运行。

K1 Power系统全堆栈可靠性设计包括:冗余、捕获、重试、隔离、修复。针对每一个环节,都通过领先的技术保证有效性,从而在整体上提供高达99.9994%的可靠性。

·冗余。K1 Power服务器通过冗余设计保证系统持续运行:1、在硬件上,包括DRAM内存芯片、CPU与内存/CPU与CPU之间的链路等都是冗余的;2、每个系统控制单元中有两个冗余的时钟卡,当任意一个时钟卡出现故障,另一组时钟可以无缝切换;3、电源时序控制信号如Enable,Power good等做冗余设计,能实现更加可靠的电源开关控制;4、电源稳压模块(VRM)实现N+2冗余设计,以减少单点故障率;5、K1 Power系统关键部件如电源、 SMP线缆、时钟、FSP模块、I/O控制器等全部冗余设计。

·捕获。K1 Power服务器装载了多达16万个故障检查器,可以实时监测系统运行状态。此外,还采用首错数据捕获(FFDC,First Failure Data Capture)的机制,在设计阶段就进行错误模拟,在实际运行阶段进行错误捕获。而发生错误之后,还可以在维护阶段进行错误重现。将所有可能产生的错误提前做到预警、备案和处理。

·重试。通过校验与重试设计,让软错误不影响整体系统运行。除了内存或者缓存本身的纠错机制外,K1 Power服务器还设计了重试机制,判断某个故障是不是偶发性的。其中,内存的控制器或指令集的重试机制,是Power服务器特有的。

·隔离与修复。在发生故障时,K1 Power服务器可实现细粒度的隔离,如单个CPU核心隔离,逻辑内存块隔离。x86服务器CPU内部某一个区域或某一个功能发生故障时,往往整个CPU就会故障。Power处理器可以将发生故障的核心单独隔离,同时处理器能继续工作,从而实现在线修复/更换。

探秘K1 Power:如何打造一台坚若磐石的高性能小型机?

钢铁之躯——高品质工艺,更严苛的标准与测试

服务器的高可靠性的实现不止依靠系统设计,同样还取决于优秀的制造工艺。K1 Power服务器采用了严格的元器件和部件选型标准,并在极限环境下进行严苛的测试,力求打造高品质平台。从物理层面上,进一步提升系统整体可靠性。

由于POWER处理器都是高速信号,因此为了保证信号在CPU、内存、I/O以及加速器之间传递的稳定性,K1 Power服务器采用了高达40层的高复杂主板设计,所有与高速信号走线层相邻的平面层都是地平面,保证高速信号良好的完整性。此外,主板也需经过更严苛的板机测试,以保证100%可靠出货。

在散热方面,K1 Power服务器采用了更高效的散热设计和散热管理。其导热材质选用铟金属片,将导热效率提升了近10倍。而且铟金属片相对于传统x86采用的导热膏来说,导热稳定性更强,保障长期使用。K1 Power服务器散热管理采用了动态分区散热控制技术。这种动态、智能化的散热控制,既提高了散热的利用效率,也保障了CPU等元器件的寿命以及性能稳定。

K1 Power服务器采用了高标准的检测,生产测试功能覆盖率100%,高端机型测试大项共计660多项,同时测试老化时间达到48小时以上。通过自动化的测试系统,确保每台机器的检测的有效性。基于严苛的测试环境,确保每台服务器都能够在极限电压和动态频率下稳定工作,保证品质达到业界最高水准。

不惧威胁——自下而上的安全加固,保护业务数据

在关键业务场景下,系统安全性是至关重要的。K1 Power服务器在系统安全方面也进行了充分的考虑,支持多种国际标准和中国政府认证。与此同时,并不仅仅依赖于操作系统层面的安全性,还会在更底层的技术层面进行加固。

一个非常具有代表性的举措是,K1 Power服务器所有部件的维护都需要通过认证,新更换的部件在没有认证之前是无法运行的,这样可以有效避免非认证部件导致的可靠性问题,保证整个系统的一致性。

在操作系统方面,包括浪潮KUX在内的多家本地安全可信操作系统厂商认证了Power服务器平台,并取得了产品兼容性认证证书。另外,通过浪潮具有自主知识产权的操作系统安全加固模块SSR(国家等保三级认证),进一步保障系统安全无虞。

最后

不难看出,继承了浪潮K1小型机核心技术积累和自主创新能力,再融合POWER处理器出色计算能力的K1 Power服务器,既立足于实际场景需求,实现更精细化的设计;同时在生产的每一个环节都以高标准、高水准严格要求。这样的服务器平台,无疑能够成为支撑关键业务应用持续稳定运行的可靠基石。


企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2019-11-14
探秘K1 Power:如何打造一台坚若磐石的高性能小型机?
【IT168 评论】熟悉服务器领域的朋友,必然对浪潮K1小型机或多或少有所了解。

长按扫码 阅读全文

Baidu
map