信通院云大所：数据治理成为大模型的胜负手

5月16日消息（水易）近日，在由中国通信标准化协会主办，中关村科学城管委会支持、中国通信标准化协会大数据技术标准推进委员会(CCSA TC601)承办的“2024DataOps发展大会”上，中国信息通信研究院云计算与大数据研究所大数据与智能化部副主任王妙琼对《面向人工智能的数据治理的实践指南（1.0）》进行解读。

王妙琼表示，通用人工智能的快速发展为数据治理带来新的挑战，包括更高的数据集质量要求，更复杂的安全与隐私风险，更显性的偏见与歧视。

具体而言，面向更复杂的数据类型、更多维的评价维度、更冗长的处理环节，需要进一步构建面向人工智能的数据质量评价体系和质量提升工艺；模型训练和应用过程中存在诸多安全风险，除去传统关注的数据丢失、隐私泄露等风险，还需要额外关注数据投毒、逆向还原等更关注内容治理的新型风险；训练数据集中不易察觉的偏见和歧视信息，会直接影响到训练结果的输出，随着人工智能应用逐步走向产业化，潜在的道德伦理问题会引起严重的后果。

针对这些挑战，面向人工智能的数据治理（DG4AI，Data Governance for Artificial Intelligence）能够在人工智能应用中管理和控制数据的过程与实践，以确保数据的质量、可靠性、安全性与合规性，使得数据能够被准确地用于训练和部署AI模型，同时保护数据的隐私和安全。从而保障人工智能高质量应用。

王妙琼表示介绍，《面向人工智能的数据治理的实践指南（1.0）》创新性地提出了面向人工智能全生命周期的治理实践方法，为人工智能场景中数据治理路径指明了方向，使数据治理的价值能够在人工智能时代背景下最大化激活。

具体包括：确定应用目标与效果、明确应用场景、澄清数据需求、评估数据获取难度；制定数据标注流程、明确数据质量标准、考虑合规和隐私要求、管理规范持续更新；数据清洗和标注、特征工程和数据增强、沟通与验收；数据集持续维护、洞察数据集构成与分布、版本管理与权限管控；构建监控指标体系、持续优化数据集流程。

王妙琼表示，未来，人工智能数据产业分工更加明确，供给人工智能所需的数据集产业，在采集、加工、交易、消费等环节将更加清晰和成熟，通过市场化的调节机制合理分配产业的人才、资金与资源，更高效地推进人工智能应用发展。

同时，数据治理成为大模型的胜负手，随着研发成本的不断攀升和市场集中度的提高(马太效应)，只有少数企业可能在这场竞争中胜出。尽管算力和算法方面的技术优势并不明显，但通过有效的数据治理，企业仍有可能获得竞争优势、

此外，随着DG4AI技术、实践和理论的成熟，DG4AI将更加标准化与流程化，进而服务化，高效、高质量、安全可控地提供标准的数据产品(数据集、语料库)。

王妙琼指出，面向人工智能的数据治理在理论与实践还处在探索期，目前中国信通院已牵头在中国通信标准化协会、国际电信联盟(ITU)等立项相关行业标准、国际标准，后续还将在技术工具、企业能力建设以及实践方法论等方面持续开展研究、合作与生态建设工作。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。

信通院云大所：数据治理成为大模型的胜负手

下一篇