资讯专栏INFORMATION COLUMN

极验验证:浅析深度学习模型与应用

王岩威 / 3473人阅读

摘要:一时之间,深度学习备受追捧。百度等等公司纷纷开始大量的投入深度学习的应用研究。极验验证就是将深度学习应用于网络安全防御,通过深度学习建模学习人类与机器的行为特征,来区别人与机器,防止恶意程序对网站进行垃圾注册,撞库登录等。

2006年Geoffery  Hinton提出了深度学习(多层神经网络),并在2012年的ImageNet竞赛中有非凡的表现,以15.3%的Top-5错误率夺魁,比利用传统方 法的第二名低了10.9% 。一时之间,深度学习备受追捧。Google、Facebook、百度等等公司纷纷开始大量的投入深度学习的应用研究。

深度学习的优势

人工神经网络是从信息处理的角度,对人脑神经元网络进行抽象的计算模型,目的就是让计算机能够模拟人脑的思考方式来解决一些抽象的问题。相比较于传 统的模式识别,特征的提取方式主要靠人工提取或设计,而深度学习模型是一种端到端模型,即让计算机自动学习有用的特征,从而减少了人为提取特征造成的繁杂 和不完备性。正如Google Brain项目负责人Jeff Dean说:“我们在训练的时候从来不会告诉机器说:‘这是一只猫。’系统其实是自己发明或者领悟了“猫”的概念。”在图 像处理,语音识别这种人为特征提取难度很大的问题上面,深度学习有着其独有的优势,比如在语音识别方面,深度学习使得错误率下降了大约30%,取得了很大 的进步。

深度学习的主要模型

目前深度学习有三种基本模型,分别是多层感知机(MLP,Multi-layer Perceptron),卷积神经网络(Convolutional Neural Network)以及循环神经网络(Recurrent Neural Network)。

多层感知机(MLP)

MLP结构特点

输入与输出层之间存在一个或多个隐层

输入层没有计算节点,只用于获得外部输入信号,只有隐层和输出层的神经元为计算节点

每个输入节点将上一层输出进行加权,然后通过激活函数进行非线性变换

训练方法:反向传播算法(Back-Propagation)

MLP可用于解决简单的分类和预测问题。不过它的参数量随着层数的增加指数级增长,并且优化困难,限制了它的应用。

卷积神经网络(CNN)

CNN通过引入卷积自动分层提取特征,每一层由多个特征图组成,每一个特征图是由前一层输出与一个卷积核进行卷积运算和非线性变换得到,随后进行池化操作,用于降低输出维度,同时获得一定的特征不变性。

CNN中最主要的三种网络层:

卷积层

池化层

全连接层

训练方法:反向传播算法(Back-Propagation)

CNN通过局部连接和权值共享大幅度降低了参数量。目前CNN在图像识别、目标检测、人脸识别等诸多计算机视觉任务上都取得了令人振奋的成果。

递归神经网络(RNN)

相比于MLP和CNN,RNN通过权值共享使其能够处理变长的序列问题(CNN由于全连接层需要固定维度的输入,限制了CNN只能接受固定维度的输 入)。RNN引入了“环”的结构,某一时刻的输出不仅与当前时刻的输入有关,还与前一时刻的状态有关,通过共享权值,使得RNN能学习到鲁棒的特征。

RNN分类(按照cell):

简单RNN

LSTM

GRU

Bi-RNN

RNN的训练算法:基于时间的反向传播算法(Back Propagation Through Time,BPTT)

RNN模型主要应用自然语言处理(NLP)上,比如语言翻译、文本信息挖掘、聊天机器人等。

深度学习的应用及发展

深度学习在计算机视觉和自然语言处理上有着广泛的应用。

在计算机视觉领域,2015年,微软何凯明团队利用152层网络在ImageNet比赛上将错误率降低到3.57%。Google 在 2015年的 I/O 大会推出的Google photos,可以将相册中的同一个人整合在一起,通过长期的学习甚至可以自动判断照片是否是一个值得纪念的时刻的拍摄的。近年来深度学习在医学图像的分 析、目标检测等任务上也取得了很大的进展。

在自然语言处理上的应用主要包括语言翻译、机器理解、机器翻译等。Google去年底在gmail上上线了邮件自动回复功能,该功能利用深度学习技 术提取和分析邮件语义信息,再根据提取的语义生成候选答复。在语音识别领域,百度在全国人机语音通讯学术会议(NCMMSC2015)上介绍了研发出 的语音识别技术,该技术引入LSTM模型和CTC训练到传统框架中,使得识别相对错误率比现有技术降低15%以上,使汉语安静环境普通话语音识别的识别率 接近97%。这是语音识别领域又一个重要的里程碑。

除了以上两个领域,深度学习在网络安全领域也有广泛的应用,如木马病毒、恶意软件检测与分析以及恶意程序识别等。

极验验证就是将深度学习应用于网络安全防御,通过深度学习建模学习人类与机器的行为特征,来区别人与机器,防止恶意程序对网站进行垃圾注册,撞库登录等。

欢迎加入本站公开兴趣群

商业智能与数据分析群

兴趣范围包括各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识

QQ群:81035754

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/4369.html

相关文章

  • 极验高并发验证服务背后的技术实现

    摘要:像极验这样高并发量同时需要高扩展性的验证服务企业来说,使用协程处理是降低并发开销最合适的方法。其次极验利用过滤非法请求,以及限制不同账户并发。能够比较便捷地搭建处理超高并发高扩展性的动态服务。极验通过以上三个技术手段,来解决高并发问题。 极验目前的用户超过7万家网站,日均验证量1亿次,作为一家专注于验证安全服务的公司,极验所要面临的并发压力主要表现在以下几点: 日益增加的用户并发量。...

    DevWiki 评论0 收藏0
  • 基于深度学习的数据防伪

    摘要:而极验则将利用深度学习来进行数据防伪。极验为什么要利用深度学习来进行数据防伪攻击者实施攻击之前都会搜集相关的数据,单项数据都可以轻易被篡改掉,但是不同的数据之间却是存在着关联的。 百度网盘被撞库,网友高呼自己网盘被塞满黄片,搞得满城风雨,数据安全与信息安全又一次成为众人讨论的焦点。面对很多网络攻击,企业似乎并没有办法进行预防,只能够事后做一些补救措施。究其原因一是因为底层协议并不安全,攻击者...

    hedzr 评论0 收藏0
  • 浅谈撞库防御策略

    摘要:一般情况下网站都会采用以上三种策略组合的方式来抵御撞库攻击,能不能够防得住,验证码起了很关键的作用。所以使用验证码是目前防止网站被撞库攻击性价比最高的方法,简单而容易实现,但是我们应该选择安全性高的验证码,不然形同虚设,没有实质性的作用。 2014年12306遭遇撞库攻击,13万数据泄露;2015年乌云网上爆出网易邮箱过亿用户数据由于撞库泄露;数据泄露愈演愈烈,撞库登录成为网站的一大安...

    bergwhite 评论0 收藏0
  • 从 保龄球得分计算方法 浅析 深度学习

    摘要:最近也在学习这方面的知识给沐神疯狂打,强烈推荐他的深度学习课程,链接大家自己去搜,就不做广告了,虽然说自己连入门都算不上,但还是想实现一下自己版本的。同时,计算方法改造成版本的。 起因 周六被小伙伴拖去游泳,美名其曰:锻炼身体。其实某人就是去泡澡的,哈哈。说正题吧,游完泳在体育场里闲逛,里面很大,转着转着看到一个保龄球馆,怀着对未知事物的好奇,决定和某人去尝试一下。我和S同学一人买了一...

    wangxinarhat 评论0 收藏0
  • 语义分割浅析

    摘要:是针对语义分割任务提出的模型,主要使用深度卷积网络条件随机场,空洞卷积做像素级预测。在语义分割中存在两个主要问题下采样带来的分辨率下降,细节信息丢失平移不变性,限制了定位精度针对以上问题,采用空洞卷积扩大感受野,获取更多的上下文信息。 showImg(https://segmentfault.com/img/bVbrls5?w=2040&h=1016); 背景 对图像而言,常见的任务是...

    RaoMeng 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<