AI大模型幻觉评测揭秘：中国信通院五大维度剖析，揭开AI神秘面纱

人阅读

2025-03-19 16:45:35

作者：极客AI
相关关键词
- 人工智能
- AI

揭秘AI大模型幻觉评测：中国信通院五大维度剖析，揭开AI神秘面纱

随着人工智能（AI）技术的快速发展，大模型已经成为研究的热点。然而，大模型的广泛应用也带来了一些潜在的应用风险，其中最为引人关注的就是大模型幻觉。为了摸清大模型的幻觉现状，推动大模型应用走深走实，中国信息通信研究院人工智能所发起了一场大模型幻觉测试。本文将从专业角度，以中立态度，对大模型幻觉测试进行剖析。

一、大模型幻觉的定义与影响

大模型幻觉是指模型在生成内容或回答问题时，产生了看似合理，实则与用户输入不一致（忠实性幻觉）或者不符合事实（事实性幻觉）的内容。这种幻觉可能会在医疗、金融等关键领域产生严重后果，因此正得到业界的广泛关注。

二、中国信通院发起的大模型幻觉测试

中国信通院人工智能所基于前期的AI Safety Benchmark测评工作，发起了大模型幻觉测试。本次测试将以大语言模型为测试对象，涵盖了事实性幻觉和忠实性幻觉两种幻觉类型。

测试数据包含7000余条中文测试样本，测试形式包括对应于忠实性幻觉检测的信息抽取与知识推理两类题型，以及对应事实性幻觉检测的事实判别题型。总体涉及人文科学、社会科学、自然科学、应用科学和形式科学五种测试维度。中国信通院邀请各相关企业参与模型测评，共同推动大模型安全应用。

三、五大维度剖析

1. 人文科学：测试样本涵盖了文学、历史、艺术等多个领域，通过模拟人类对文学作品的鉴赏和评价，评估大模型在生成艺术性内容时的准确性。

2. 社会科学：测试样本涉及社会现象、人类行为等社会科学领域，评估大模型对社会现象的认知和预测能力。

3. 自然科学：测试样本涵盖物理、化学、生物等多个自然科学领域，评估大模型在解决实际问题时的科学性和准确性。

4. 应用科学：测试样本涉及工程技术、人工智能应用等应用科学领域，评估大模型在实际应用中的性能和效果。

5. 形式科学：测试样本涉及数学、逻辑推理等形式科学领域，评估大模型在形式化表达和推理方面的能力和准确性。

四、结语

通过中国信通院发起的这场大模型幻觉测试，我们可以看到大模型在生成内容时的潜在风险。为了推动大模型应用的走深走实，我们需要在技术研发与应用过程中，加强对大模型幻觉的监测和评估，以确保其安全、有效地应用于各个领域。

作为科技领域的从业者，我们应当关注大模型的研发与应用，积极探索解决幻觉的方法，共同推动人工智能技术的健康发展。同时，我们也期待更多的研究机构和企业能够参与到大模型幻觉测试中来，共同揭开AI的神秘面纱。

（免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。）