一、背景
近期体验了百度大脑内容审核平台,可以通过界面化的操作,定制审核模型,完美契合业务审核需求,提升审核效率,降低人工成本,个人感觉对一些产生丰富UGC内容的企业非常有用,本文提供一些使用的攻略和建议。
二、应用场景
官方给出的应用场景如下,但是个人认为可以发挥想象力,应用在各个领域。
1、视频内容审核配合关键帧抽取技术对视频帧中的图像、字幕进行审核,搭配语音识别和敏感声音检测技术,对视频内容进行全面审核。2、电商平台内容审核针对商家的广告宣传文本,通过图文审核判断是否符合新广告法,在双11、618、黑色星期五等购物节,通过百度内容审核,极大的弥补人力审核资源不足的问题,实时快速的对商品信息进行审核,保障平台内容安全。3、UGC内容反垃圾对论坛、贴吧等UGC内容中的图片、文章、评论进行合规性检查,并针对恶意推广、政治敏感、低俗辱骂、低质灌水内容进行审核,降低平台违规风险、有效提升平台内容质量、吸引更多用户与优质资源。4、实名制社交头像审核配合人脸识别针对用户头像进行多维度的图像、文本审核,确保图像中包含清晰人物正脸、非明星/卡通人脸,并且无色情、暴恐、政治敏感、微商广告、各类联系方式内容,保障平台使用体验。
三、使用攻略
说明:本文采用C# 语言,开发环境为.Net Core2.1,采用在线API接口方式实现。
点击策略创建地址,选择“创建策略”。
填写策略名称,选择相应的APPID,并填写联系人信息,如果有时间限制,可以取消“长期有效”按钮,输入具体的策略生效时间段。
根据自己的需求,勾选需要的“图像审核规则”和“文本审核规则”,并可以点击”展开“,通过审核标签后面的滑动条调整审核的松紧度,松紧度的调整策略为:每个审核标签都有一个滑动条和两个调整审核松紧度的滑块,两个滑块将整个区域分为白色合规区、淡红色疑似区、红色违规区,红色区域越大越多的图片会落在这个区域,审核约严格,反之亦然。
配置完后,点击“生成策略”,策略创建成功。
可以点击“验证策略”,进行策略验证,或者在“策略列表”中,选择相应的策略,点击“验证”来验证策略:
验证结果:
同样,也可以创建和验证文本的策略。
在“策略列表”中,可以选择修改状态来“启用/停用”相应的策略,也可以通过“编辑“按钮来调整策略,更改生效时间等操作:
(1-2)自定义审核模型-EasyDL
内容审核平台与EasyDL平台打通,支持用户快速定制审核模型并添加到审核策略中,下面简单介绍一下如何让内容审核平支持EasyDL定制化物体检测模型。个人觉得这个功能是审核平台的一大亮点。
创建标签、上传图片数据并对其中的图片进行标注分类,如果需要标注的图片数据很多,可以使用”智能标注“,降低标注成本,一般只用标注数据集30%左右的数据就可以训练模型,并且效果与标注所有数据后训练的模型效果几乎等同。(我原本也想试试的,只不过我每个标签的图片只有20来张(如果想得到较好的模型效果,一般一个标签的在所有图片中出现的数量要大于50,最好更多,并且相似性要小),启用“智能标注”,每次启用,要花费比较长的时间让系统筛选“优先标注”的图片,具体时间忘记了,10多分中应该要的,有这时间,我自己都标注完了,所以试了两三遍,就自己去标注了,如果每个标签有成千上万张的图片的化,启用“智能标注”就很有必要了)。
数据上传、标注好后,就可以选择模型,并进行模型训练了,由于本程序是采取在线API的方式调用,所以“应用类型”需要选择“云服务”,算法根据自己的需要选择“高精度”或者“高性能”。
模型训练好后,就可以查看评估报告(如果单个标签的图片量在100张以内,这个数据基本参考意义不大 ),也可以选择图片看看训练效果如何,最后,可以“申请上线”,在线调用。
如果对模型效果不满意,可以通过扩充数据、调整标注等方法进行模型迭代。
测试效果:
申请发布后,通常的审核周期为T+1,即当天申请第二天可以审核完成。如果需要加急、或者遇到莫名被拒的情况,可以加入官方QQ群(群号:679517246)联系群管解决。
等模型发布审核通过后,就可以在内容审核平台编辑相应的策略名称,选择启用“自定义图片审核-EasyDL”,并添加已发布的EasyDL模型,勾选需要过滤的详细类别,选择生成策略,就完成了内容审核平台对EasyDL定制化物体检测模型的支持了。
3、定制化物体检测模型 审核测试
未启用“自定义图片审核-Easy DL”时,检测的图片为“合规”:
启用“自定义图片审核-Easy DL”后,同样的图片检测为“不合规”:
同理,对于“图像分类模型”也可以采取上述的步骤来进行添加进行审核过滤。
(3)源码共享
(3-1)根据 API Key 和 Secret Key 获取 AccessToken
(3-2)调用API接口获取识别结果
(3-2-1)在Startup.cs文件的 Configure(IApplicationBuilder app, IHostingEnvironment env) 方法中开启虚拟目录映射功能:
(3-2-2) 建立Index.cshtml文件
(3-2-2-1)前台代码:
由于html代码无法原生显示,只能简单说明一下:
主要是一个form表单,需要设置属性enctype="multipart/form-data",否则无法上传图片;
form表单里面有五个控件:
一个textarea:asp-for="Text" ,输入需要审核的内容;
一个Input:type="text",asp-for="ImageUrl" ,输入网络图片地址;
一个Input:type="file",asp-for="FileUpload" ,上传图片用;
一个Input:type="submit",asp-page-handler="CensorForImg" ,图像审核。
一个Input:type="submit",asp-page-handler="CensorForText" ,文本审核。
一个img:src="@Model.curPath",显示需要审核的图片。
最后显示后台 msg 字符串列表信息,如果需要输出原始Html代码,则需要使用@Html.Raw()函数。
(3-2-2-2) 后台代码:
四、效果测试
1、页面:
2、识别结果:
自定义图片审核-EasyDL
正常情况下,审核通过:
启用后,审核不通过:
五、测试结果及建议
经过测试可知,百度的内容审核功能相当完善,不仅可以进行图片审核,还能够进行文字审核,并且审核的内容、严谨度、时间段等都可以自己进行相应的调整,自定义程度高,配置也不算复杂,只要设定好相应的策略,基本上就可以直接拿来使用了。
现在国家对互联网规范化使用的要求已经越来越严格了,相关的法律法规也越来越完善细致。对于一般的小网站,要保证自己平台的内容合法、不违规,需要花费相当大的人力、财力去维护。而一旦使用百度的内容审核功能,只要做好相关的策略设置,就能保证用户上传的图片、发表的言论、文章符合国家的规定,可以节省很大的维护成本。
不过,目前图片审核还缺少版权审核,如果百度以后能加上图片版权识别功能的话,那就更加完善了,特别是对于一些正规、大型的有图片功能相关的网站,如果再加上图片版权审核功能,也就不用担心图片版权问题了。
同理,文本审核也还缺少文章的版权审核功能,后期如果能够加上文章版权审核功能,那就更完善了,也能更好的保护作者的劳动成功。甚至可以将文章版权审核功能独立出来,做成一个文章版权查询的工具,更方便作者进行维权,降低盗版行为,提高大家的版权保护意识。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。