5月7日消息,“每个公司都能访问相同的基础模型,但那些能够利用自己的数据构建具有真正商业价值的生成式人工智能应用的公司,将会是成功的公司。”
大模型火热两年多,从GPT3到GPT4,从Llama 2到Llama 3,从Claude 2到Claude3……全球范围内基础大模型能力不断被刷新新纪录。
然而企业在落地大模型应用时,到底应该如果构建自身的独特优势呢?
亚马逊云科技大中华区产品部总经理陈晓建表示:“企业需要的是懂业务、懂用户的生成式AI应用,而打造这样的应用需要从数据做起。数据是企业在生成式AI时代取得成功的关键。”
成式 AI 时代数据的重要性体现在:基础模型依赖于大规模高质量数据集,生成式AI的差异化优势来源于企业的专有数据,生成式AI应用产生的大量新数据也需要及时有效地加以管理和利用。
因此,陈晓建认为企业构建生成式AI应用需要具备三项关键的数据能力:
一、利用现有数据支持微调或预训练模型的能力
从原始数据集到训练出基础模型需要解决三个主要问题。
首先,需要找到合适的存储来承载海量数据。生成式AI基础模型诞生于大规模、高质量数据集。如果一本书按500KB算,现在的500T参数的模型已经有332亿本,相当于现存每个人类拥有4本书;
其次,清洗加工原始数据为高质量数据集。在数据清洗方面,企业面临着繁重的数据清洗加工任务。以公开搜集的2TB英文数据集为例,经过清洗、去重后变成1.2TB的数据,再经过分词处理成大约3000亿的tokens。
最后,对整个组织内数据的发现编目治理。企业面临的数据治理难题包括:难以找到分布在各帐户和地区的数据,数据访问的控制很难管理且容易出错,数据分析师访问权限不足且缺乏相对应的工具技能,不用户没有简单的数据协同环境,数据治理隐藏在各种工具中。
二、将企业数据快速结合模型产生独特价值的能力
基础模型自身有一定的局限性,例如缺乏垂直行业的专业知识,缺乏时效性,生成错误信息如幻觉问题等,以及用户敏感数据的隐私合规风险。
检索增强生成(Retrieval-Augmented Generation,RAG)技术被普遍认为是实现企业数据与基础模型结合的主要途径之一,它通过将数据转换为向量并存储到向量数据库中,从而将语义的关联性转化为向量间的数学距离问题,以实现内容的关联性计算。
通过RAG,企业可以将自身的知识库、数据库等与生成式AI模型相结合,在生成过程中实时检索和利用企业内部的相关数据,从而提高生成结果的准确性、一致性和信息量。这个方法相对简便,适用场景包括知识时效性、控制幻觉、用户隐私数据保护、企业私域知识等。
三、有效处理新数据,助力生成式AI应用飞速发展的能力
对生成式AI应用程序而言,基础模型频繁调用将会导致成本的增加和响应的延迟。相对于此前数据库调用通常毫秒级甚至微秒级的响应时间,基础模型每次调用时长往往达到秒级。此外,每次调用基础模型也会增加成本。
很多企业反映,终端用户绝对大部分问题是类似甚至重复的。因此可以通过将之前问答生成的新数据存入缓存,从而在面对类似问题时,可以不调用模型,而直接通过缓存给出回答,这不但能够减少模型调用,还可以节约成本。
陈晓建强调:“亚马逊云科技构建数据基座的三大核心能力涵盖从基础模型训练到生成式AI应用构建的重要场景,能够帮助企业轻松应对海量多模态数据,提升基础模型能力。作为全球云计算的开创者和引领者,亚马逊云科技正在帮助各个行业、各种规模的企业打造强健的数据基座,在确保用户业务和数据安全的前提下,将数据的独特价值赋予基础模型和生成式AI应用,加速企业业务增长。”(果青)
- 蜜度索骥:以跨模态检索技术助力“企宣”向上生长
- TechWeb一周热点汇总:华为Mate 70定档11月26日,字节跳动上调年终激励
- 四部门:深入整治“信息茧房”问题,严禁利用算法实施大数据“杀熟”
- 张朝阳对话基普乔格:跑步像经营一家企业,每个细节要做到极致
- 英伟达CEO黄仁勋香港科技大学最新演讲:机器人时代即将到来
- 蔚来法务部回应收购谣言:公安机关已立案调查
- 阅文集团与大英图书馆达成三年合作,10部网文入藏大英图书馆
- 又10部网文入藏大英图书馆,《诡秘之主》《全职高手》《庆余年》在列
- 滴滴张博卸任CTO 未来将专注自动驾驶业务
- TechWeb微晚报:苹果开发全新Siri,尊界尺寸可能超越99.99%的轿车
- 毫末智行回应裁员:正常组织调整,比例很小
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。