6月28日消息,据外媒报道,随着GPT系列大模型的不断升级,OpenAI所训练的ChatGPT也在拥有更强的能力,但这也带来了一些挑战,它所生成的内容中存在的错误也越来越隐蔽,逐渐到了AI训练师难以发现的程度。
而为了应对这一挑战,OpenAI也想出了新招,他们基于GPT-4模型,训练了一个用于发现ChatGPT输出代码错误的模型。
OpenAI当地时间周四,已在官网宣布了这一消息,他们训练的模型名为CriticGPT,从名称来看就是用于发现不足,以便让相关的应用变得更好。
从OpenAI在官网公布的消息来看,CriticGPT在他们的应用中有不错的效果,他们发现在新模型的辅助下,使用者在检查ChatGPT的输出代码时,比没有CriticGPT的协助要好60%。
在官网上,OpenAI提到,他们也是通过RLHF (从人类反馈中强化学习,Reinforcement Learning from Human Feedback)来训练CriticGPT,与训练ChatGPT类似。但与训练ChatGPT不同的是,他们在训练CriticGPT时,看了大量包含错误的输入。
虽然CriticGPT能帮助发现更多的问题,但也存在不足,还有改进的空间。OpenAI在官网上就提到,并不是所有的发现都是准确的,用于训练的ChatGPT生成内容也普遍很短,还需要开发新的方式,以协助训练师理解更长和更复杂的任务。
此外,OpenAI在官网上也提到,在研发CriticGPT的过程中,他们发现将RLHF应用于GPT-4时,能帮助生成更好的RLHF数据,他们计划扩大这一项工作的规模,并付诸实践。(海蓝)
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )