外媒专评AIStation:AI集群运营与AI算法创新同样重要

近日,海外权威产品测评机构ServeTheHome(简称STH)对浪潮人工智能开发资源平台AIStation进行了 体验,并发布测评报告。STH专注于服务器、存储、网络和高端硬件测评,是海外专业的测评机构,这也是浪潮AIStation在海外市场的测评首秀。

外媒专评AIStation:AI集群运营与AI算法创新同样重要

海外专业测评机构STH发布浪潮AIStation测评文章

AIStation是浪潮面向 学习开发、线上推理发布的人工智能开发资源平台,可实现容器化部署、可视化开发、集中化管理等,旨在实现精准的资源管理和调度、敏捷的数据整合及加速、流程化的AI场景及业务整合。此次,STH的编辑以管理员身份和用户身份对浪潮AIStation进行了全面的体验,并在测评报告中详尽地阐释了AIStation的功能和应用价值。STH表示,浪潮AIStation能够实现对AI资源的精细化管理,可以有效打通开发环境、计算资源与数据资源,提升开发效率。

下面是STH资深编辑Patrick Kennedy的测评叙述:

我们通常将构建和运行AI集群,即通过训练和推理来管理所有计算资源、用户、数据和模型视为一项挑战。做好AI集群运营可能并不像发现一种解决 学习问题的新方法那样备受追捧,但对于在组织内扩展共享资源至关重要。浪潮AIStation旨在管理该生命周期。我们花了一些时间亲手操作了该解决方案,以了解其运作方式。我也找机会向浪潮AI负责人刘军提出了有关新产品的几个问题。

外媒专评AIStation:AI集群运营与AI算法创新同样重要

浪潮AIStation登陆界面

一、浪潮AIStation实操背景介绍

浪潮在中国山东省拥有一个测试集群,我用Cisco VPN进行了访问。虽然不知道确切位置,但我想济南(山东省第二大城市和省会)的这座浪潮大厦就是测试群集的所在地,这与2019年我们参观的浪潮智能工厂不在同一个园区。我们的许多读者都来自中国以外的国家,而且也没去过山东,这么说吧,济南的人口与纽约差不多。

如果您听说过纽约但没听说过济南,那正是我要重点介绍AIStation的原因。浪潮是全球排名前三的服务器供应商,中国市场上大约一半的AI服务器都来自浪潮。浪潮面向超大规模用户,其主要能力之一是AI服务器,例如我们最近评测的浪潮系统NF5468M5和浪潮NF5488M5。AIStation也是浪潮产品,可帮助管理大量的AI训练和推理服务器、数据以及用户。

从根本上说AIStation是基于Kubernetes的集群解决方案。浪潮所做的是统一运行AI集群时需要解决的许多常见工具和任务。例如,它可以管理用户、组、权限和配额,可以管理与每个用户或组关联的数据以及该数据的权限和存储,还可以管理开发工作以及在集群上调度资源。此外,我们还将介绍作业、用户和节点层面上的一些监控和警报。

二、AIStation实操:管理员视角

屏幕截图就不在这里一一展示了,选择一部分重点界面进行介绍。在了解用户在系统中看到的内容之前,我想先谈一下管理方面。该解决方案基于Kubernetes和容器,非常现代化。如果将其与许多传统的GPU/HPC/AI调度系统进行比较,您将更能体会其现代架构的理念。

外媒专评AIStation:AI集群运营与AI算法创新同样重要

集群监控

AIStation在后台开始运行后,大部分日常管理工作都可以使用脚本或通过Web GUI完成。可以深入查看各个节点的负载、硬件配置,甚至可实现从用户到容器再到它们在单个GPU级别运行的硬件的追踪链。

外媒专评AIStation:AI集群运营与AI算法创新同样重要

集群监控>节点监控

尽管我们的测试集群只有几个节点,但我们听说AIStation已经部署了数百个节点和上千个节点的集群。随着节点数量的增加,创建资源组变得更加重要。AIStation可以创建多个资源组,将其指定用于开发、训练或通用,也可以为该组设置一些更高级别的管理和预留权限。

外媒专评AIStation:AI集群运营与AI算法创新同样重要

资源管理>创建资源组

除了创建资源组之外,创建用户和用户组可能更重要。AIStation可以创建用户或与现有的用户目录工具集成,然后为用户授予访问不同资源、存储配额、GPU配额等的权限。这很重要,因为公司可能不会想让一个实习生100%使用整个集群或访问敏感的训练数据/模型,而会把优先权给到 学习专家组成的内部咨询小组。AIStation的主要价值主张是通过单个系统进行全部管理。

外媒专评AIStation:AI集群运营与AI算法创新同样重要

系统管理>用户管理>用户

管理员还可以根据权限访问整个集群。例如,遇到作业运行缓慢的问题,管理员可以使用监控工具查找他们的作业以及有问题的容器,甚至可以直接进入硬件查看是否有潜在的硬件问题。

外媒专评AIStation:AI集群运营与AI算法创新同样重要

开发环境>详情

AIStation还具有相当全面的可视化界面,用于监控集群,界面上可以看到CPU、GPU和内存的利用率等信息。在集群生命周期管理方面,这类数据可帮助管理员查看资源配置情况以及系统容量。例如,如果集群以50%的CPU、60%的GPU、95%的内存运行,这就充分说明下一代节点需要更多的内存容量。

外媒专评AIStation:AI集群运营与AI算法创新同样重要

报表管理>资源统计

管理员用户还可以查看已完成的任务,以查看用户先前运行的内容,包括作业是否成功。在某些情况下,人们会在公司GPU集群上挖掘加密货币。此类功能可根据已运行的内容进行审核跟踪,这项功能非常重要。

外媒专评AIStation:AI集群运营与AI算法创新同样重要

训练管理>已完成任务

除了上述功能之外,另一个重要功能是管理用户在系统中拥有的资源。接下来,我们会从用户的角度进行详细阐述。

三、AIStation实操:用户视角

每个用户都可以访问一组资源。登录AIStation时可以看到仪表板。许多使用限制是通过管理板块中显示的用户、组和资源组功能定义的。

外媒专评AIStation:AI集群运营与AI算法创新同样重要

浪潮AIStation用户界面

开发人员如果要开始训练任务,可以查看可训练的镜像。这些镜像很重要,因为在系统中创建任务时,它们就是可能正在使用的镜像。它可以是来自NVIDIA GPU Cloud的镜像或更加标准的镜像。AIStation还具有组镜像甚至用户镜像的功能,让用户可以更轻松地选择容器镜像。用户可以看到个人、组和公共镜像。管理员可以将镜像定义为个人镜像或公共镜像,将敏感镜像的查看权限仅开放给特定组或员工,这点也非常重要。

外媒专评AIStation:AI集群运营与AI算法创新同样重要

镜像管理

浪潮AIStation支持多种框架,用户可以使用Tensorflow、Pytorch、Paddlepaddle或其他框架。

外媒专评AIStation:AI集群运营与AI算法创新同样重要

训练管理>训练任务>创建训练任务

数据管理在AI集群中极为重要,AIStation能够定义和存储数据集。从用户的角度来看,他们可以查看哪些数据集可供使用。用户能够将容器镜像、节点/物理资源和训练数据相关联。而管理员可以对这些数据集设置权限。这一点很重要,因为有些数据集只有指定用户才能查阅、使用和下载。

在AIStation中还可以加载Jupyter笔记本,直接编辑python文件,并且可以将笔记本保存在集群的存储后台,并轻松与其他用户共享。

外媒专评AIStation:AI集群运营与AI算法创新同样重要

开发平台>详情

启动任务后,AIStation平台将集成许多可视化工具。例如,您可以启动Tensorboard、Visdom或Netscope等工具,从下拉菜单中显示可视化效果;用户可以直接从Web GUI进入容器的终端。

外媒专评AIStation:AI集群运营与AI算法创新同样重要

用户开发平台可视化Tensorboard

训练作业可能要花数小时或数天,用户可随时查看当前作业状态进度、检查结果以及待处理的作业及其历史。

外媒专评AIStation:AI集群运营与AI算法创新同样重要

训练管理>已完成作业

可以看到这种解决方案支持一家公司的诸多用户及具有多代GPU的节点。这里没有显示其他一些功能,例如针对管理员和用户的电子邮件警报和通知,但这种解决方案显然是旨在运行公司的整个AI操作。因此,我想向AIStation的业务负责人询问更多信息,了解其进入市场的战略。

四、对话浪潮刘军

上市策略方面,我向浪潮的AI和HPC业务负责人刘军提出了一些问题。这个名字听起来可能很耳熟,那是因为他之前也曾帮我们做过专访。

外媒专评AIStation:AI集群运营与AI算法创新同样重要

浪潮人工智能与高性能计算总经理 刘军

Patrick Kennedy: 浪潮如何规划AIStation的上市?

刘军:AIStation有直接销售和渠道销售两种销售方式,我们在全球有数十个渠道合作伙伴出售AIStation。

PK: AIStation可以集成其他服务器供应商的集群节点吗?

刘军:是的,AIStation能够集成其他供应商的集群节点。

PK: AIStation的销售是否针对特定行业?

刘军:自2019年4月发布以来,已实际应用于金融、教育、互联网和智慧城市等行业。

PK: 只面向大型组织、服务提供商吗?初创企业等较小的组织是销售目标吗?

刘军:AIStation专为 学习开发领域而设计,适用于金融、互联网、通信、交通、医疗和教育等行业的大小型企业。

PK: 许可模式是怎样的?

刘军:按GPU服务器节点出售。

PK: 升级许可证需要购买新密钥,还是客户凭借现有密钥从浪潮注册服务器上获得新权限?(这里提醒读者,Web GUI上有一个许可证密钥页面,上文未展示)

刘军:用户可享受三年内AIStation的免费升级服务,然后需要购买新密钥进行升级。

PK: 针对该解决方案,浪潮未来会提供其他新的服务吗?

刘军:未来AIStation将支持更多的AI加速器,并实现资源管理、调度、监控、优化等方面的异构加速。我们将建立一个更全面的AI开发生态系统,为行业主流AI开发工具、开发框架和 学习模型提供一个集成的开发平台。

再次感谢刘军耐心为我们的读者解答问题。

最后的话

我想强调一下在此展示AIStation的操作视图和上市策略的原因。AIStation发布第一年即获得不俗的软件销售额。要是看到他们投资公司的AI管理软件平台第一年就获得如此成绩,投资者们一定会激动不已。重点是,尽管浪潮将其作为新产品发布,但实际上它已经拥有很多付费客户,这些客户已经在使用此解决方案来管理其AI集群和开发团队。

结合当前的功能,再想想异构加速器的概念,就能马上明白该解决方案的前景。它与现有的其他一些集群管理解决方案相比,不同之处在于它甚至可以供大型组织使用,并且全部基于Kubernetes,而Kubernetes正迅速成为下一代服务的主要工具。

总而言之,如果您是一家只有2-3人的小型初创公司,那么可能并不需要该解决方案,但随着组织中集群的增多,当调度和管理成为一项更大的挑战时,浪潮AIStation的价值便更加凸显出来。

(来源:浪潮服务器微信)

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )

Baidu
map