梦殇国际

标题: 给你们看看腾讯的鉴黄系统 - 万象优图智能鉴黄 [打印本页]

作者: 阿星    时间: 2016-3-23 10:02
标题: 给你们看看腾讯的鉴黄系统 - 万象优图智能鉴黄
网址:http://www.qcloud.com/event/pd

所以你们发的图片腾讯其实是知道的,只是想不想管的问题而已
哈哈

下面介绍一下实现的原理
======================================
作为一名资深鉴黄老司机,有必要为大家科普一下:

首先,腾讯的「万象鉴黄智能识别」是一种基于深度学习的图片识别技术。

那么问题来了,什么是深度学习?牛掰在哪里?

深度学习简单来讲就是:模仿人脑的机制来解释数据,让机器自动学习良好的特征,从而免去人工选取的过程。

原理部分(不感兴趣可直接略过):

==================以下字我都认识但就是看不懂的分割线===================

什么是深度学习?深度学习概念由人工神经网络(Artificial Neural Network,以下简称ANN)发展而来。ANN是一种机器学习算法,最开始的机器学习是用于人工神经网络的反向传播算法(也叫Back Propagation算法或者BP算法),是只含有一层隐层节点的浅层模型。浅层学习就已经有了很多应用领域,如网页搜索排序、垃圾邮件过滤系统、基于内容的推荐系统等。

相对于浅层学习,深度学习是通过构建具有很多隐层的机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性。深度学习模型具有优异的特征学习能力,它模仿人脑的机制来解释数据,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类。

让机器理解这个世界,我们得先来看看人类的大脑是如何工作的。

人脑的视觉处理系统 (图片来源:Simon Thorpe)

上图表示,人理解外界视觉信息的过程。从视网膜(Retina)出发,经过低级的V1区提取边缘特征,到V2区的基本形状或目标的局部,再到高层的整个目标(如判定为一张人脸),以及到更高层的PFC(前额叶皮层)进行分类判断等。也就是说高层的特征是低层特征的组合,从低层到高层的特征表达越来越抽象和概念化,也即越来越能表现语义或者意图。

深度学习,恰恰就是通过组合低层特征形成更加抽象的高层特征(或属性类别)。然后在这些低层次表达的基础上,通过线性或者非线性组合,来获得一个高层次的表达。不仅图像存在这个规律,声音也是类似的。

现在来看深度学习的简易模型。

传统的神经网络与深度神经网络

深度学习的一个主要优势在于可以利用海量训练数据(即大数据),在学习的过程中不断提高识别精度,但是仍然对计算量有很高的要求。而近年来,得益于计算机速度的提升、大规模集群技术的兴起、GPU的应用以及众多优化算法的出现,耗时数月的训练过程可缩短为数天甚至数小时,深度学习才逐渐可以用于工业化。

(以上资料参考Deep Learning(深度学习)学习笔记整理系列之(一)

==================以上字我都认识但就是看不懂的分割线===================


下面为了便于非专业人士理解,我会尽量用通俗易懂的语言来回答:

以智能鉴黄为例,把用来鉴黄的机器想象成一个刚出生的宝宝。

首先人们会给机器宝宝一些标记过的图片,告诉宝宝这些是色情的,这些是性感的,还有这些是正常的。机器宝宝很聪明,会根据提供的数据学习到不同类型图片的基本特征,自己总结出一套规律,这样当你再给宝宝新的图片时,宝宝就会根据这些特征来判定图片的类型。

当然机器宝宝也会有出错的时候,因为人类对于色情的定义实在太广泛了。露点的、性暗示的、艺术的......在不同的场景下,面对不同的人群,对于色情的鉴定标准也会不同。想让机器宝宝像人一样准确,甚至比人还准,就需要利用海量的数据去不断地训练它,让机器不断纠正错误,学习到更多的特征。

不过我们也不清楚机器宝宝学到的特征是什么鬼,每一层都有不同的特征,有些特征是肤色的数据,有些是某些部位轮廓的数据,这么多层组合起来就形成了一种很抽象的特征表现。
一个很著名的例子(密恐慎入!)Google 图像识别 AI 眼中的世界是怎样的?

明白了吧?并不是有些人说的单纯基于肤色占比,否则一张手掌的近照或者光头也会被定为色情了。o(╯□╰)o

另外,很多人都在吐槽腾讯的鉴黄系统不准确,我觉得主要还是对于样本的训练问题。至于要用多少样本去训练才能达到一定的准确度的问题,可参考这个:
人工智能“毁灭”了鉴黄师?未来也许将毁灭人类

可以给大家看一下图普科技的图像识别系统(国内第一个将CV运用在鉴黄上图像识别云平台),为深度学习正名。
测试地址:图普科技—专注于图像识别和视觉检测的人工智能企业

=========================================================
评论中有人问道:“一个活人脱光腚,学雕像一模一样的姿势站着,让这个系统识别,他怎么能判断出黄不黄?”

这让我想起在人工智能领域流传的一句话: 人工智能把人的事情给做了,但是只做50%。

其实人们对于人工智能准确性的诟病一直都存在。色情与艺术的鉴定标准是人定的,理论上讲可以通过刻意训练、调整阈值等手段让机器更符合自己的标准,但不同的用户对于色情的宽容度是不一样的,在不同的时间与地域,人们对于色情与艺术的理解也是不一样的。所以不能强迫机器一定要百分百判断准确。实际上, 发展人工智能的意义,就是为了进一步连接资源,解脱人力。无论是无人驾驶汽车也好,还是用于鉴黄也好,都是这个目的。

回到这个疑问上,极端情况一定会有,这时更应该考虑的是两点:1、如何保证让机器在最大程度上代替人工。2、机器的准确率与召回率是否达到要求(一般以人眼为标准)。

目前在这一块做得最成熟的是图普科技。图普在做这个事情中首创了一种模式,将问题分割为“确定”和“疑似”的两部分,确定部分 表示机器确定没问题,由于机器确认的精确度超过99.5%,比人眼(98%~99%)还精确,可以完全替代人力了。对于机器无法确定的图片(类似问题中这种),机器会标出“疑似”,并根据概率的高低进行排序。这个时候就需要人工去复审,根据自己的标准再一次判断。一般疑似部分 约占总图片量的5%~15%(对于大多数运营正常的网站,大概仅有1%),这部分还会随着训练次数的增加而不断减少。这样就大大降低了审核工作量。一万张图,可能只需要看一两百张就够了,扫一眼就完事。





作者: 羿辰    时间: 2016-3-23 10:09
我是服的

作者: 青争青争    时间: 2016-3-23 10:17
机器宝宝,群主你为什么叫机器,宝宝呢,我不服

作者: 溺水的鱼    时间: 2016-3-23 10:19
好屌的感觉

作者: 我是AD君    时间: 2016-3-23 10:22
真的可以么

作者: wushi001    时间: 2016-3-23 11:04
会有误伤吗

作者: 阿星    时间: 2016-3-23 11:08
我是AD君 发表于 2016-3-23 10:22
真的可以么

自己去测试一下不就是了,都给了网址

作者: 阿星    时间: 2016-3-23 11:08
wushi001 发表于 2016-3-23 11:04
会有误伤吗

应该会有,把你自己签名改了吧

作者: 阿星    时间: 2016-3-23 11:09
青争青争 发表于 2016-3-23 10:17
机器宝宝,群主你为什么叫机器,宝宝呢,我不服

因为爱啊

作者: wushi001    时间: 2016-3-23 11:12
阿星 发表于 2016-3-23 11:08
应该会有,把你自己签名改了吧

我就带个标签,不改可以么【哭着笑】

作者: trf1995    时间: 2016-3-23 11:13
如果一个裸体婴儿呢

作者: fanjunbiao    时间: 2016-3-23 11:17
学习到了

作者: 阿星    时间: 2016-3-23 11:18
wushi001 发表于 2016-3-23 11:12
我就带个标签,不改可以么【哭着笑】

不允许这种情况

作者: 青争青争    时间: 2016-3-23 11:21
阿星 发表于 2016-3-23 11:09
因为爱啊

竟然不是爱我,不公平,我要造反了

作者: wushi001    时间: 2016-3-23 11:32
阿星 发表于 2016-3-23 11:18
不允许这种情况

哦……

作者: zbw123    时间: 2016-3-23 13:35
可以可以

作者: 青青子衿。    时间: 2016-3-23 13:50
wushi001 发表于 2016-3-23 11:32
哦……

我转到网页版看了下你的签名Σ(っ °Д °;)っ啥也没看着

作者: 阿星    时间: 2016-3-23 15:29
青争青争 发表于 2016-3-23 11:21
竟然不是爱我,不公平,我要造反了

你是怎么了

作者: 阿星    时间: 2016-3-23 15:40
青青子衿。 发表于 2016-3-23 13:50
我转到网页版看了下你的签名Σ(っ °Д °;)っ啥也没看着

被我清除了而已

作者: abc603892221    时间: 2016-3-23 16:31
可以去试试吗

作者: wushi001    时间: 2016-3-23 16:41
青青子衿。 发表于 2016-3-23 13:50
我转到网页版看了下你的签名Σ(っ °Д °;)っ啥也没看着

不是有吗

作者: wushi001    时间: 2016-3-23 16:41
阿星 发表于 2016-3-23 15:40
被我清除了而已

你干了什么,我不是自己改了么

作者: 特朗普    时间: 2016-3-23 19:40
那我发的图,完了

作者: 阿星    时间: 2016-3-24 09:20
wushi001 发表于 2016-3-23 16:41
你干了什么,我不是自己改了么

是啊,先清除了你再设置的

作者: 折纸的筱男孩    时间: 2016-3-24 09:41
原来这么流弊

作者: 够枉    时间: 2016-3-24 09:44
厉害

作者: 阿星    时间: 2016-3-24 11:38
够枉 发表于 2016-3-24 09:44
厉害

厉害吧

作者: 爆吧神器1    时间: 2016-3-25 12:46
提示: 作者被禁止或删除 内容自动屏蔽
作者: TXN童小柠    时间: 2016-3-25 13:50
完全不懂





欢迎光临 梦殇国际 (https://714.hk/) Powered by Discuz! X3.4