如果让你列举出当前最重要的信息技术,你的脑海中可能马上会浮现出几个最火热的名词。但毫无疑问,这其中,人工智能(Artificial Intelligence,简称 AI)必然能占据一席之地。
自从 60 多年前,麦卡锡、明斯基等科学家在美国达特茅斯学院首次提出“人工智能”这一概念,它经历了几十年的起起伏伏的发展。在最近十年来,人工智能终于走向了结出丰硕果实的时代。随着互联网 IT 基础设施的大跨步升级,从计算、存储和传输能力,到计算机技术迅速渗透到世界的每一个角落,大数据、云计算、互联网、物联网等信息技术都迎来了迅猛发展。
感知数据和图形处理等计算平台的演化推动了以 神经网络为代表的人工智能技术的飞速发展,大幅跨越了科学与应用之间的“技术鸿沟”,而诸如计算机视觉、语音识别、自然语言处理、人机对弈、无人驾驶等人工智能技术也实现了从“不能用、不好用”到“可以用”的技术突破,迎来爆发式增长的新高潮。
在开源浪潮已经席卷全球的今天,得益于开源技术和开源协作模式的发展,AI 技术的进步也得到了极大的推动。AI 的进入门槛变得空前的低,这要感谢开源软件。以 2015 年谷歌开源 TensorFlow 机器学习库为开端,现在 AI(尤其是 学习)的开源框架已经形成百花齐放的局面,其中有 Facebook 的 PyTorch、微软的 Cognitive Toolkit 以及 Apache MXNet 等等。
开源AI 框架形成了双赢的局面:一方面人人都能用上 AI;反过来,贡献者社区也为加速谷歌等公司的 AI 研究提供了帮助。
作为推动开源发展的重要基石的 Linux 基金会(LF),也于此前在旗下成立了面向 AI/大数据方面的 学习基金会,LF Deep Learning Foundation,孵化并支持了许多项目,如 Acumos AI、Angel ML 等。
5月22日, Linux 基金会正式宣布,旗下的 学习基金会更名为 LF AI 基金会(LF AI Foundation),包括人工智能(AI)、机器学习、 学习等等。LF 表示,“我们正处在人工智能重大技术变革的边缘,这正是任何技术演进中开源软件和社区发挥作用的关键所在。人们对我们工作的兴趣和贡献正在加速,名字的改变也反映了这一点。”
LFAI 基金会将正式扩大其范围,以支持人工智能、机器学习和 学习技术的日益增长的生态系统。在过去的六个月里,我们景观(l.lfai.foundation)中涵盖的整个生态系统已经从80个项目增长到170多个项目,来自世界各地80多个不同组织的3.5亿行代码。这种协作开源开发的水平和速度类似于 Linux、区块链、云和容器的早期发展。适当的基础设施和范围已经准备就绪。
LFAI 旨在支持开源 AI、ML 和 DL,并创建可持续发展的开源 AI 生态系统,使用开源技术轻松创建 AI 产品和服务。现在旗下已经有华为、AT & T、腾讯、中兴、爱立信、诺基亚、百度、红帽、滴滴等公司加入,并且已有包括 Acumos AI、Angel ML、Elastic Deep Learning、Horovod、Pyro 等项目正处在发展和孵化中。
更多有关 LF AI 的详情请参阅基金会官方网站:https://lfai.foundation/。
这其中,值得注意的是腾讯于 2018 年 8 月贡献的项目:Angel AI,目前该项目正处于孵化阶段。Angel 项目是一个基于参数服务器的高性能分布式机器学习平台,运行于 YARN 和 Apache Spark 之上。它针对大数据的性能进行了优化,并在处理更高维度的模型方面具有优势。它支持具有数十亿个参数的大型复杂模型,可以将复杂模型的参数划分为多个参数服务器节点,并使用高效的模型更新接口和函数以及用于同步的灵活一致性模型实现各种机器学习算法。
该系统设计用于高效的迭代计算,因此机器学习算法可以从中受益。Angel 中的算法是开箱即用的,因此分析师和数据科学家可以在不编写任何一行代码的情况下提交计算作业。
分论坛主题介绍
人工智能/机器学习/ 学习
在今年的 Open Source Summit 大会上,26日全天,将是 AI 从业者和爱好者们的知识盛宴,将迎接来自世界各地的顶级 AI 专家的知识分享。以下是议程简介:
来自华为的 Jessica Kim 将带来关于联合电信人工智能市场的主题演讲:推进分散的同质机器学习人工智能市场(例如 AT & T Acumos)和众多异质市场联合起来,从而扩展机器学习人工智能生态系统。此外,华为最近宣布的 SoftCOM AI 市场将减少联合学习功能遇到的数据集以及数据隐私问题。
Animesh Singh - IBM STSM和项目总监
来自 IBM 的 Animesh Singh 将分享基于 Kubernetes 构建事件驱动型机器学习管道:作为一个领域,AIOps 逐渐成为当下的紧急需求。随着各种机器学习功能进入不同的开源项目,各种管道开始构建.拥有透明的 AI 管道,并在发生数据漂移、偏差检测、模型精度损失等任何事件时通知用户正在成为关键问题。此外,还需要从原始数据构建数据科学家代码、编排代码和实现管道自动化等功能。在本演讲中,Animesh 将利用构件、事件、服务和管道等 Kubernetes 组件展示如何构建端到端 AI 管道,该管道可用于检测所有事件、发布通知和采取行动、构建和运行数据科学家代码、执行 A/B 测试、进行摸黑启动及编排整个工作流,包括模型训练、验证、服务和运营,主要集中于利用 Kubernetes 的事件和管道 CRD 证明此操作可以自动化。
此外,Animesh Singh 将带来的另外一个演讲机器学习部署的开放标准:机器学习通常被视为简单地基于数据训练模型。但是,将模型部署到生产系统的“最后一公里”经常被忽略,这是现实中机器学习系统最重要的方面之一。尽管如此,包含端到端机器学习管道部署的开放和标准解决方案目前还没有被广泛接受。在本演讲中,Animesh将和大家探讨利用开源标准化格式进行机器学习部署的现状。本演讲将介绍各种可用选项,包括 PMML、PFA 和 ONNX,以及这些选项如何与最受欢迎且广泛使用的机器学习库(包括 scikit-learn、Spark ML、TensorFlow、Keras 和 PyTorch)保持一致
来自谷歌的 Wencheng Lu 和 Limin Wang 将带来利用 Istio 管理多租户机器学习工作负载:随着基于 Kubernetes 部署的机器学习工作负载迅速增长,越来越需要提供多租户渠道,以管理机器学习工作负载,促进不同的数据科学家基于 Kubernetes 收集数据、训练和服务模型。欢迎大家来了解如何将 Istio 集成至 Kubeflow 等多租户机器学习管道,以通过足够的身份、访问和 API 管理针对为不同用户部署的工作负载提供隔离和保护。
Marcel Hild – Rad Hat首席软件工程师
来自红帽的 Marcel Hild 将带来AIOps:利用 Prometheus 和 Istio 进行异常检测:随着 IT 运营变得更灵活、更复杂,提高运营效率和情报能力的需求也在不断增长。利用Prometheus 监控应用程序和 Kubernetes 集群已经相当普遍,但企业确定相关指标和阈值却越来越难。在本演讲中,Marcel 将展示用于长期收集和存储 Prometheus 采集的指标的工具。然后他会分析大量这些指标,以获取趋势和周期性信息,并预测给定指标的预期值。最后,他会将预测指标集成回监控和警示堆栈的 Prometheus,以启用动态阈值化和异常检测。所有操作仅用开源工具完成,可利用 Istio 中的可用工具充分运行演示。
Trevor Grant – IBM 开源人工智能/物联网布道者
Holden Karau – Google开发者布道师
来自 IBM 的Trevor Grant和来自谷歌的 Holden Karau 将带来Kubeflow 介绍(包含 Special Guests Tensorflow 和 Apache Spark):数据科学、机器学习和人工智能在过去五年中人气暴涨,但是,有一个问题依然挥之不去,即“如何将模型投入生产?”工程师们通常的任务是构建用于预测的一次性系统,而且必须在快速发展的后端服务空间内维护这些系统,而后端服务空间已经从单机发展到了自定义集群、“无服务器机器”、 Docker、Kubernetes。在本演讲中,他们将为大家介绍 KubeFlow,这个开源项目便于用户将模型从笔记本电脑转移到 ML Rig、训练集群甚至部署环境,还将讨论“什么是 KubeFlow”、“为什么可扩展性对训练和模型部署如此重要”等话题。
来自优步的 Reza Shiftehfar 将带来用于高级分析的下一代大数据平台 - 通过统一存储和服务实时访问数百 PB 数据:必须实时存储和服务数百 PB 数据时,构建可靠的大数据平台将充满挑战。他们将在本演讲中介绍一些架构解决方案,用于扩展大数据平台,以便在分钟级别延迟内获取、存储和服务数百 PB 数据,同时高效利用硬件并满足安全需求。并将深入探讨如何重新设计获取平台已每天获取超过 10 万亿事件、如何扩展存储平台、以及如何重新设计处理平台已每天高效服务数百万次查询和作业。他们将提供当前大数据领域的幕后情况,包括现有开源技术,以及必须在优步构建的平台和用于填补空缺、超越极限的开源软件,如 Hudi 和 Marmaray。
来自 The Institute for Ethical AI & Machine Learning 的 Alejandro Saucedo 将带来2019年 AI 和机器学习运营状况:在本演讲中,Alejandro 将分享关于他在职业生涯中通过构建和部署机器学习系统学到的知识和见解,以及开源“绝佳数据运营/机器学习运营”列表中的一些可用技术。Alejandro 主要会介绍 2019 年的可用开源工具和框架,帮助大家扩展 DataOps 和 MLOps 基础架构。本演讲将介绍可用的支持技术,具体包括再现性、监控、合规及数据编排和计算方面。要介绍的主要技术包括 PMML、数据版本控制 (DVC)、ModelDB、Pachyderm 和 Seldon。
Arun Gupta – AWS首席开源技术专家
来自 AWS 的 Arun Gupta将 Kubernetes 用于机器学习框架:Kubernetes 可以提供隔离、自动扩展、负载平衡、灵活性和 GPU 支持。这些功能对运行计算和数据密集型、且难以实现并行处理的 ML 模型至关重要。Kubernetes 部署描述符的声明性语法使集中于非运营业务的工程师可以轻松基于 Kubernetes 训练 ML 模型。在本演讲中,Arun将解释 Kubernetes 为什么及怎样非常适合单节点和多节点分布式训练、将 ML 模型部署到生产系统中以及设置可视化工具,比如用于监控的 TensorBoard。具体而言,Arun将展示如何基于 Kubernetes 集群设置各种开源机器学习框架,如 TensorFlow、Apache MXNet 和 Pytorch。与会者将了解到基于 Kubernetes 建立 ML 框架的分布式训练、消息传送和推理阶段,并获得包含完整运行样本的 GitHub repo。
那么,Open Source Summit 的人工智能/机器学习/ 学习论坛中这些精彩演讲都被安排在什么时间呢?
内容更新请参阅 https://kccncosschn19chi.sched.com 选择:OSS – 人工智能/机器学习/ 学习。
由于反应热烈,门票即将售罄,请大家抓住机会,在6月6日前购票就能享受标准票价优惠:
标准注册:2000人民币(晚注册2400,即时可省400!)
贵宾注册:5000人民币(晚注册6000,即时可省1000!)
个人或学术注册:500人民币(需要发送电子邮件至events@cncf.io申请批准。晚注册600,即时可省100!)
2019年 6月24日~26日,请大家抓住机会,我们在上海世博中心不见不散!
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。