1楼
- jingji
- 2021/8/24 3:30:30
随着互联网的飞速发展,不少色情、暴力等内容成为各大网站头疼的问题,而聘用人工鉴黄师不仅为企业增加负担,还会令鉴黄师患上高血压、脂肪肝等职业病。品牌排行网了解到,近日阿里AI鉴黄语音反垃圾服务上线公测,能识别语音中存在的涉黄、广告等违规信息。
据品牌排行网了解到,阿里巴巴集团安全部高级算法专家威视表示,假设一天要审核4亿张图片,单纯交由人工来审,1人一天审1万张,就需要4万人力;而经由AI鉴黄后,需要交由人工审核的量大约只需20万张,这样只需要20人,大大节省了人力。
不仅在识图领域,阿里AI鉴黄还覆盖到语音、影片等多媒体领域,目前已可以识别中文、英文、日文、俄文等语言,还可以识别中国多省份方言。
阿里的鉴黄AI做的色情图片检测,从原理上来说,就是一个典型的图像分类问题,目前的解决方案是标注样本后,使用深度学习技术训练人工神经网络。
具体步骤包括明确分类标准→收集样本→样本打标→模型训练共四个步骤,其中前三个步骤主要由人工完成。
四个步骤听起来似乎是最后一步的技术难度最高,但根据品牌排行网获得的信息所了解,花时间最久的是第一步,例如“露点不露点”之类的色情,还有比较明确的判断标准。
在收集样本的过程中,团队“集思广益”,浏览了近2000家网站,下载了超过6000万张疑似色情图片,实际去重后约2300万张图片,并实际标注了超过1300万张图片。
这1300多万张图片成为类比训练的原始数据库,因此这一浩大的工程,被技术人员认为是鉴黄引擎成功最重要的基础。
阿里安全部产品专家表示,目前AI鉴黄最好的应用模式仍然是人工+机器,不管是前期设计模型的标准和实际打标,或是后期人工复核,人的参与都是不可或缺。