经典模型是什么_深度学习之卷积神经网络经典模型

1. 测试模型的四种经典模型

W模型由Evolutif公司提出，相对于V模型，W模型更科学。W模型是V模型的发展，强调的是测试伴随着整个软件开发周期，而且测试的对象不仅仅是程序，需求、功能和设计同样要测试。测试与开发是同步进行的，从而有利于尽早地发现问题。
W模型也有局限性。W模型和V模型都把软件的开发视为需求、设计、编码等一系列串行的活动，无法支持迭代、自发性以及变更调整。 H模型中, 软件测试过程活动完全独立,贯穿于整个产品的周期,与其他流程并发地进行,某个测试点准备就绪时,就可以从测试准备阶段进行到测试执行阶段。软件测试可以尽早的进行,并且可以根据被测物的不同而分层次进行。
这个示意图演示了在整个生产周期中某个层次上的一次测试“微循环”。图中标注的其它流程可以是任意的开发流程,例如设计流程或者编码流程。也就是说, 只要测试条件成熟了,测试准备活动完成了,测试执行活动就可以进行了。
H模型揭示了一个原理:软件测试是一个独立的流程,贯穿产品整个生命周期,与其他流程并发地进行。H模型指出软件测试要尽早准备, 尽早执行。不同的测试活动可以是按照某个次序先后进行的,但也可能是反复的,只要某个测试达到准备就绪点,测试执行活动就可以开展。

2. 有谁知道初中几何的经典模型有哪些比如，手拉手模型，飞镖模型

平行线＋角平分线模型，平行线＋中点模型，三线合一模型，旋转模型

3. 经典回归模型基本假定是什么

摘要亲，你好，很高兴为您解答

4. 博弈论的经典模型

经济学中的“智猪博弈”（Pigs’payoffs）

这个例子讲的是：猪圈里有两头猪，一头大猪，一头小猪。猪圈的一边有个踏板，每踩一下踏板，在远离踏板的猪圈的另一边的投食口就会落下少量的食物。如果有一只猪去踩踏板，另一只猪就有机会抢先吃到另一边落下的食物。当小猪踩动踏板时，大猪会在小猪跑到食槽之前刚好吃光所有的食物；若是大猪踩动了踏板，则还有机会在小猪吃完落下的食物之前跑到食槽，争吃到另一半残羹。

那么，两只猪各会采取什么策略？答案是：小猪将选择“搭便车”策略，也就是舒舒服服地等在食槽边；而大猪则为一点残羹不知疲倦地奔忙于踏板和食槽之间。

原因何在？因为，小猪踩踏板将一无所获，不踩踏板反而能吃上食物。对小猪而言，无论大猪是否踩动踏板，不踩踏板总是好的选择。反观大猪，已明知小猪是不会去踩动踏板的，自己亲自去踩踏板总比不踩强吧，所以只好亲力亲为了。

“小猪躺着大猪跑”的现象是由于故事中的游戏规则所导致的。规则的核心指标是：每次落下的事物数量和踏板与投食口之间的距离。

如果改变一下核心指标，猪圈里还会出现同样的“小猪躺着大猪跑”的景象吗？试试看。

改变方案一：减量方案。投食仅原来的一半分量。结果是小猪大猪都不去踩踏板了。小猪去踩，大猪将会把食物吃完；大猪去踩，小猪将也会把食物吃完。谁去踩踏板，就意味着为对方贡献食物，所以谁也不会有踩踏板的动力了。

如果目的是想让猪们去多踩踏板，这个游戏规则的设计显然是失败的。

改变方案二：增量方案。投食为原来的一倍分量。结果是小猪、大猪都会去踩踏板。谁想吃，谁就会去踩踏板。反正对方不会一次把食物吃完。小猪和大猪相当于生活在物质相对丰富的“共产主义”社会，所以竞争意识却不会很强。

对于游戏规则的设计者来说，这个规则的成本相当高（每次提供双份的食物）；而且因为竞争不强烈，想让猪们去多踩踏板的效果并不好。

改变方案三：减量加移位方案。投食仅原来的一半分量，但同时将投食口移到踏板附近。结果呢，小猪和大猪都在拼命地抢着踩踏板。等待者不得食，而多劳者多得。每次的收获刚好消费完。

对于游戏设计者，这是一个最好的方案。成本不高，但收获最大。

原版的“智猪博弈”故事给了竞争中的弱者（小猪）以等待为最佳策略的启发。但是对于社会而言，因为小猪未能参与竞争，小猪搭便车时的社会资源配置的并不是最佳状态。为使资源最有效配置，规则的设计者是不愿看见有人搭便车的，政府如此，公司的老板也是如此。而能否完全杜绝“搭便车”现象，就要看游戏规则的核心指标设置是否合适了。
博弈论的经典模型：威慑模型
威慑博弈的完整名称是进入威慑博弈，是研究参与者想进入某领域，而与该领域已有竞争者的博弈模型。假定有两个参与人，一个想进入某行业，称之为进入者，另一个已在同一行业占有一席之地，称之为先入者。对进入者来说，不管先入者是否设置壁垒，其最优目标都是进入。而对先入者来说，要设置壁垒，必须付出巨大成本，否则不如默许。进入威慑博弈模型的启示是：要做一件事情，必须确定一个可行的目标，不怕困难，全力以赴向目标努力，目标就会实现。另外，不是所有的威慑都没有用处，付出巨大成本的威慑是起作用的，而要想使威慑起作用的，必须付出巨大成本。同时，进入威慑博弈也提出了一个问题，就是威胁和承诺的可信度问题，威胁实际上也是一种承诺。威胁和承诺是否可行，取决于其成本的大小，取决于其成本和收益的比较。一般而言，成本巨大的，或者成本高于收益的威胁和承诺，可信度就比较高，反之则低。实际生活中有些制度见效甚微，就是因为惩罚力度太小，使得违规者的违规收益高于违规成本。

博弈论的经典模型：斗鸡模型
斗鸡博弈（Chicken Game）.在西方，鸡是胆小的象征，斗鸡博弈指在竞争关系中，谁的胆小，谁先失败。现在假设，有两个人要过一条独木桥，这条桥一次只能过一个人，两个人同时相向而进，在河中间碰上了。这个博弈的结果第一种就是如果两个人继续前进，双方都会掉水里，双方丢面子，这是一种组合。第二种是，双方都退下来，双方也都是丢面子，但是都掉不到水里去。第三种结果，甲方退下来，丢面子，乙过去。第四种结果，乙退下来，丢面子，甲顺利通过。在这四种结果中，第一种是两败俱伤；三、四两种是一胜一败，第二种是两败不伤，这就是斗鸡博弈。在这个模型中，最优策略有两个，就是第三、第四两种选择，即甲退下来乙先过去，或者乙退下来甲先过去。因为两种选择对整个社会来说效益最大，损失最小。两虎相争勇者胜，如何处理竞争中的两虎关系呢？一般有四种办法：第一种是谈判，双方约定一个条件，其中一个先退下来；第二种是制度，建立一种制度，规定从南到北的先退，或者从北到南的先退，或者后上桥者先退；第三种是时间，双方僵持一段时间，谁先吃不住劲谁先退；第四种是妥协，妥协不一定是最优策略，但是至少可以保证取得次优结果。在工作生活中乃至处理国际关系时，得饶人处且饶人，退
博弈论的经典模型：情侣博弈
情侣博弈。假定一对热恋中的情侣，每周末见一次，必须见，否则活不下去。男的喜欢看足球，女的喜欢看电影。见面后，面临选择，看足球还是看电影？热恋中的情侣因为爱，会牺牲自己的爱好去满足对方。如果去看足球，男的满足程度为四个单位，女的满足程度是两个单位；去看电影，女的满足程度是四个单位，男的满足程度是两个单位。在这个博弈中，有三个变量非常重要。一个变量是顺序，就是谁先提出来，比如男的先提出来，女方尽管更愿意看电影，但是男方已经提出来了，她不愿意违背他，只好同意，结果他们就去看足球。相反的情况也是一样。第二个是一次博弈还是多次博弈。如果是多次博弈，双方就会大体上形成一种默契，这一周看电影，下一周看足球。第三个取决于感情的深度。处于依赖程度比较高的一方，对对方更加顺从照顾一些。一般而言，情侣之间的博弈是一个动态过程，因为恋爱就是双方之间较长时期的磨合、了解过程。如果我们假定情侣博弈是一个动态博弈，而且总是男的先决策，女的后决策，那么就会出现一种非常有趣的决策情景。就女方来说，无论男的是选择足球，还是选择电影，她的决策均为四个：一个是追随决策，就是男的选择什么，她就选择什么；二是对抗策略，就是男的选择什么，她偏不选什么；三是偏好策略，就是无论男的选什么，她都选电影，因为这是她的偏好；四是成全策略，就是无论男的选什么，她都选足球，因为足球是男的偏好，她宁可牺牲自己的偏好，而成全男方。情侣博弈在现实生活中到处存在，它让人们思考如何人去关心别人、理解别人，处理好人际关系。
一步还扩天空，都是从斗鸡博弈可以总结出的道理。

5. 高中物理经典模型

1、物质模型。物质可分为实体物质和场物质。
实体物质模型有力学中的质点、轻质弹簧、弹性小球等；电磁学中的点电荷、平行板电容器、密绕螺线管等；气体性质中的理想气体；光学中的薄透镜、均匀介质等。
场物质模型有如匀强电场、匀强磁场等都是空间场物质的模型。
2、状态模型。研究流体力学时，流体的稳恒流动（状态）；研究理想气体时，气体的平衡态；研究原子物理时，原子所处的基态和激发态等都属于状态模型。
3、过程模型。在研究质点运动时，如匀速直线运动、匀变速直线运动、匀速圆周运动、平抛运动、简谐运动等；在研究理想气体状态变化时，如等温变化、等压变化、等容变化、绝热变化等；还有一些物理量的均匀变化的过程，如某匀强磁场的磁感应强度均匀减小、均匀增加等；非均匀变化的过程，如汽车突然停止都属于理想的过程模型。

6. 经典的创业模型是什么

是遗憾最小化框架。

遗憾最小化框架是亚马逊CEO杰夫贝索斯提出的，它能让你在面向未来的基础上看待当下的现实，从而帮助你完成困难的决策。比如说，它会让你放弃现在的工作，去追求你已经想了两年半的一个梦想。杰夫在做决定时会将自己想象成80岁的模样，思考自己在一生中会感到遗憾的事件。

最小化可行性产品不是一个产品，而是一个测试你的猜想，保证产品需求的过程。开发产品时，先做出一个简单的原型，在通过测试收集反馈，快速更新，不断修正，最终得出一个适应市场需求的产品。这一过程中的原型就是最小化可行性产品。

创业注意事项：

1、积极利用现有资源

不少在职人员都选择了与工作密切相关的领域创业，工作中积累的经验和资源是最大的创业财富，要善于利用这些资源，以便近水楼台先得月。对能帮自己生存的项目，要优先进行考虑。不要在只能改善形象或者带来更大方便的项目上乱花费用。

切不可误用资源，在职老板不能将个人生意与单位生意混淆，更不能吃里扒外，唯利是图，否则不仅要冒道德上的风险，而且很可能会受到法律的制裁。在自己的地盘，时间、金钱和才能任由自己使用。但是，如果乱搞一气，自己的生意就会逆转而下。

2、自己业务渠道

有些上班族有投资资金或有一定的业务渠道，但苦于分身无术，因此会选择合作经营的创业方式。如果自己需要合伙人的钱来开办或维持企业，或者这个合伙人帮助自己设计了这个企业的构思，或者他有自己需要的技巧，或者自己需要他为自己鸣鼓吹号，那么就请他加入自己的公司。

这虽能让兼职老板轻松上阵，但要慎重选择创业搭档，在请帮手和自己亲自处理上，要有一个平衡点。首先要志同道合，其次要互相信任。不要聘用那些适合工作，却与自己合不来的人员，也不要聘用那些没有心理准备面对新办企业压力的人。

7. 深度学习之卷积神经网络经典模型

LeNet-5模型在CNN的应用中，文字识别系统所用的LeNet-5模型是非常经典的模型。LeNet-5模型是1998年，Yann LeCun教授提出的，它是第一个成功大规模应用在手写数字识别问题的卷积神经网络，在MNIST数据集中的正确率可以高达99.2%。

下面详细介绍一下LeNet-5模型工作的原理。
LeNet-5模型一共有7层，每层包含众多参数，也就是卷积神经网络中的参数。虽然层数只有7层，这在如今庞大的神经网络中可是说是非常少的了，但是包含了卷积层，池化层，全连接层，可谓麻雀虽小五脏俱全了。为了方便，我们把卷积层称为C层，下采样层叫做下采样层。
首先，输入层输入原始图像，原始图像被处理成32×32个像素点的值。然后，后面的隐层计在卷积和子抽样之间交替进行。C1层是卷积层，包含了六个特征图。每个映射也就是28x28个神经元。卷积核可以是5x5的十字形，这28×28个神经元共享卷积核权值参数，通过卷积运算，原始信号特征增强，同时也降低了噪声，当卷积核不同时，提取到图像中的特征不同；C2层是一个池化层，池化层的功能在上文已经介绍过了，它将局部像素值平均化来实现子抽样。
池化层包含了六个特征映射，每个映射的像素值为14x14，这样的池化层非常重要，可以在一定程度上保证网络的特征被提取，同时运算量也大大降低，减少了网络结构过拟合的风险。因为卷积层与池化层是交替出现的，所以隐藏层的第三层又是一个卷积层，第二个卷积层由16个特征映射构成，每个特征映射用于加权和计算的卷积核为10x10的。第四个隐藏层，也就是第二个池化层同样包含16个特征映射，每个特征映射中所用的卷积核是5x5的。第五个隐藏层是用5x5的卷积核进行运算，包含了120个神经元，也是这个网络中卷积运算的最后一层。
之后的第六层便是全连接层，包含了84个特征图。全连接层中对输入进行点积之后加入偏置，然后经过一个激活函数传输给输出层的神经元。最后一层，也就是第七层，为了得到输出向量，设置了十个神经元来进行分类，相当于输出一个包含十个元素的一维数组，向量中的十个元素即0到9。
AlexNet模型
AlexNet简介
2012年Imagenet图像识别大赛中，Alext提出的alexnet网络模型一鸣惊人，引爆了神经网络的应用热潮，并且赢得了2012届图像识别大赛的冠军，这也使得卷积神经网络真正意义上成为图像处理上的核心算法。上文介绍的LeNet-5出现在上个世纪，虽然是经典，但是迫于种种复杂的现实场景限制，只能在一些领域应用。不过，随着SVM等手工设计的特征的飞速发展，LeNet-5并没有形成很大的应用状况。随着ReLU与dropout的提出，以及GPU带来算力突破和互联网时代大数据的爆发，卷积神经网络带来历史的突破，AlexNet的提出让深度学习走上人工智能的最前端。
图像预处理
AlexNet的训练数据采用ImageNet的子集中的ILSVRC2010数据集，包含了1000类，共1.2百万的训练图像，50000张验证集，150000张测试集。在进行网络训练之前我们要对数据集图片进行预处理。首先我们要将不同分辨率的图片全部变成256x256规格的图像，变换方法是将图片的短边缩放到 256像素值，然后截取长边的中间位置的256个像素值，得到256x256大小的图像。除了对图片大小进行预处理，还需要对图片减均值，一般图像均是由RGB三原色构成，均值按RGB三分量分别求得，由此可以更加突出图片的特征，更方便后面的计算。
此外，对了保证训练的效果，我们仍需对训练数据进行更为严苛的处理。在256x256大小的图像中，截取227x227大小的图像，在此之后对图片取镜像，这样就使得原始数据增加了（256-224）x（256-224）x2= 2048倍。最后对RGB空间做PCA，然后对主成分做（0,0.1）的高斯扰动，结果使错误率下降1%。对测试数据而言，抽取以图像4个角落的大小为224224的图像，中心的224224大小的图像以及它们的镜像翻转图像，这样便可以获得10张图像，我们便可以利用softmax进行预测，对所有预测取平均作为最终的分类结果。
ReLU激活函数
之前我们提到常用的非线性的激活函数是sigmoid，它能够把输入的连续实值全部确定在0和1之间。但是这带来一个问题，当一个负数的绝对值很大时，那么输出就是0；如果是绝对值非常大的正数，输出就是1。这就会出现饱和的现象，饱和现象中神经元的梯度会变得特别小，这样必然会使得网络的学习更加困难。此外，sigmoid的output的值并不是0为均值，因为这会导致上一层输出的非0均值信号会直接输入到后一层的神经元上。所以AlexNet模型提出了ReLU函数，公式：f(x)=max(0,x)f(x)=max(0,x)。

用ReLU代替了Sigmoid，发现使用 ReLU 得到的SGD的收敛速度会比 sigmoid快很多，这成了AlexNet模型的优势之一。
Dropout
AlexNet模型提出了一个有效的模型组合方式，相比于单模型，只需要多花费一倍的时间，这种方式就做Dropout。在整个神经网络中，随机选取一半的神经元将它们的输出变成0。这种方式使得网络关闭了部分神经元，减少了过拟合现象。同时训练的迭代次数也得以增加。当时一个GTX580 GPU只有3GB内存，这使得大规模的运算成为不可能。但是，随着硬件水平的发展，当时的GPU已经可以实现并行计算了，并行计算之后两块GPU可以互相通信传输数据，这样的方式充分利用了GPU资源，所以模型设计利用两个GPU并行运算，大大提高了运算效率。
模型分析

AlexNet模型共有8层结构，其中前5层为卷积层，其中前两个卷积层和第五个卷积层有池化层，其他卷积层没有。后面3层为全连接层，神经元约有六十五万个，所需要训练的参数约六千万个。
图片预处理过后，进过第一个卷积层C1之后，原始的图像也就变成了55x55的像素大小，此时一共有96个通道。模型分为上下两块是为了方便GPU运算，48作为通道数目更加适合GPU的并行运算。上图的模型里把48层直接变成了一个面，这使得模型看上去更像一个立方体，大小为55x55x48。在后面的第二个卷积层C2中，卷积核的尺寸为5x5x48，由此再次进行卷积运算。在C1，C2卷积层的卷积运算之后，都会有一个池化层，使得提取特征之后的特征图像素值大大减小，方便了运算，也使得特征更加明显。而第三层的卷积层C3又是更加特殊了。第三层卷积层做了通道的合并，将之前两个通道的数据再次合并起来，这是一种串接操作。第三层后，由于串接，通道数变成256。全卷积的卷积核尺寸也就变成了13×13×25613×13×256。一个有4096个这样尺寸的卷积核分别对输入图像做4096次的全卷积操作，最后的结果就是一个列向量，一共有4096个数。这也就是最后的输出，但是AlexNet最终是要分1000个类，所以通过第八层，也就是全连接的第三层，由此得到1000个类输出。
Alexnet网络中各个层发挥了不同的作用，ReLU，多个CPU是为了提高训练速度，重叠pool池化是为了提高精度，且不容易产生过拟合，局部归一化响应是为了提高精度，而数据增益与dropout是为了减少过拟合。
VGG net
在ILSVRC-2014中，牛津大学的视觉几何组提出的VGGNet模型在定位任务第一名和分类任务第一名[[i]]。如今在计算机视觉领域，卷积神经网络的良好效果深得广大开发者的喜欢，并且上文提到的AlexNet模型拥有更好的效果，所以广大从业者学习者试图将其改进以获得更好地效果。而后来很多人经过验证认为，AlexNet模型中所谓的局部归一化响应浪费了计算资源，但是对性能却没有很大的提升。VGG的实质是AlexNet结构的增强版，它侧重强调卷积神经网络设计中的深度。将卷积层的深度提升到了19层，并且在当年的ImageNet大赛中的定位问题中获得了第一名的好成绩。整个网络向人们证明了我们是可以用很小的卷积核取得很好地效果，前提是我们要把网络的层数加深，这也论证了我们要想提高整个神经网络的模型效果，一个较为有效的方法便是将它的深度加深，虽然计算量会大大提高，但是整个复杂度也上升了，更能解决复杂的问题。虽然VGG网络已经诞生好几年了，但是很多其他网络上效果并不是很好地情况下，VGG有时候还能够发挥它的优势，让人有意想不到的收获。

与AlexNet网络非常类似，VGG共有五个卷积层，并且每个卷积层之后都有一个池化层。当时在ImageNet大赛中，作者分别尝试了六种网络结构。这六种结构大致相同，只是层数不同，少则11层，多达19层。网络结构的输入是大小为224*224的RGB图像，最终将分类结果输出。当然，在输入网络时，图片要进行预处理。
VGG网络相比AlexNet网络，在网络的深度以及宽度上做了一定的拓展，具体的卷积运算还是与AlexNet网络类似。我们主要说明一下VGG网络所做的改进。第一点，由于很多研究者发现归一化层的效果并不是很好，而且占用了大量的计算资源，所以在VGG网络中作者取消了归一化层；第二点，VGG网络用了更小的3x3的卷积核，而两个连续的3x3的卷积核相当于5x5的感受野，由此类推，三个3x3的连续的卷积核也就相当于7x7的感受野。这样的变化使得参数量更小，节省了计算资源，将资源留给后面的更深层次的网络。第三点是VGG网络中的池化层特征池化核改为了2x2，而在AlexNet网络中池化核为3x3。这三点改进无疑是使得整个参数运算量下降，这样我们在有限的计算平台上能够获得更多的资源留给更深层的网络。由于层数较多，卷积核比较小，这样使得整个网络的特征提取效果很好。其实由于VGG的层数较多，所以计算量还是相当大的，卷积层比较多成了它最显着的特点。另外，VGG网络的拓展性能比较突出，结构比较简洁，所以它的迁移性能比较好，迁移到其他数据集的时候泛化性能好。到现在为止，VGG网络还经常被用来提出特征。所以当现在很多较新的模型效果不好时，使用VGG可能会解决这些问题。
GoogleNet
谷歌于2014年Imagenet挑战赛（ILSVRC14）凭借GoogleNet再次斩获第一名。这个通过增加了神经网络的深度和宽度获得了更好地效果，在此过程中保证了计算资源的不变。这个网络论证了加大深度，宽度以及训练数据的增加是现有深度学习获得更好效果的主要方式。但是增加尺寸可能会带来过拟合的问题，因为深度与宽度的加深必然会带来过量的参数。此外，增加网络尺寸也带来了对计算资源侵占过多的缺点。为了保证计算资源充分利用的前提下去提高整个模型的性能，作者使用了Inception模型，这个模型在下图中有展示，可以看出这个有点像金字塔的模型在宽度上使用并联的不同大小的卷积核，增加了卷积核的输出宽度。因为使用了较大尺度的卷积核增加了参数。使用了1*1的卷积核就是为了使得参数的数量最少。

Inception模块
上图表格为网络分析图，第一行为卷积层，输入为224×224×3 ，卷积核为7x7，步长为2，padding为3，输出的维度为112×112×64，这里面的7x7卷积使用了 7×1 然后 1×7 的方式，这样便有(7+7)×64×3=2,688个参数。第二行为池化层，卷积核为3×33×3，滑动步长为2，padding为 1 ，输出维度：56×56×64，计算方式：1/2×(112+2×1?3+1)=56。第三行，第四行与第一行，第二行类似。第 5 行 Inception mole中分为4条支线，输入均为上层产生的 28×28×192 结果：第 1 部分，1×1 卷积层，输出大小为28×28×64；第 2 部分，先1×1卷积层，输出大小为28×28×96，作为输入进行3×3卷积层，输出大小为28×28×128；第 3部分，先1×1卷积层，输出大小为28×28×32，作为输入进行3×3卷积层，输出大小为28×28×32；而第3 部分3×3的池化层，输出大小为输出大小为28×28×32。第5行的Inception mole会对上面是个结果的输出结果并联，由此增加网络宽度。
ResNet
2015年ImageNet大赛中，MSRA何凯明团队的ResialNetworks力压群雄，在ImageNet的诸多领域的比赛中上均获得了第一名的好成绩，而且这篇关于ResNet的论文Deep Resial Learning for Image Recognition也获得了CVPR2016的最佳论文，实至而名归。
上文介绍了的VGG以及GoogleNet都是增加了卷积神经网络的深度来获得更好效果，也让人们明白了网络的深度与广度决定了训练的效果。但是，与此同时，宽度与深度加深的同时，效果实际会慢慢变差。也就是说模型的层次加深，错误率提高了。模型的深度加深，以一定的错误率来换取学习能力的增强。但是深层的神经网络模型牺牲了大量的计算资源，学习能力提高的同时不应当产生比浅层神经网络更高的错误率。这个现象的产生主要是因为随着神经网络的层数增加，梯度消失的现象就越来越明显。所以为了解决这个问题，作者提出了一个深度残差网络的结构Resial：

上图就是残差网络的基本结构，可以看出其实是增加了一个恒等映射，将原本的变换函数H(x)转换成了F(x)+x。示意图中可以很明显看出来整个网络的变化，这样网络不再是简单的堆叠结构，这样的话便很好地解决了由于网络层数增加而带来的梯度原来越不明显的问题。所以这时候网络可以做得很深，到目前为止，网络的层数都可以上千层，而能够保证很好地效果。并且，这样的简单叠加并没有给网络增加额外的参数跟计算量，同时也提高了网络训练的效果与效率。
在比赛中，为了证明自己观点是正确的，作者控制变量地设计几个实验。首先作者构建了两个plain网络，这两个网络分别为18层跟34层，随后作者又设计了两个残差网络，层数也是分别为18层和34层。然后对这四个模型进行控制变量的实验观察数据量的变化。下图便是实验结果。实验中，在plain网络上观测到明显的退化现象。实验结果也表明，在残差网络上，34层的效果明显要好于18层的效果，足以证明残差网络随着层数增加性能也是增加的。不仅如此，残差网络的在更深层的结构上收敛性能也有明显的提升，整个实验大为成功。

除此之外，作者还做了关于shortcut方式的实验，如果残差网络模块的输入输出维度不一致，我们如果要使维度统一，必须要对维数较少的进行増维。而增维的最好效果是用0来填充。不过实验数据显示三者差距很小，所以线性投影并不是特别需要。使用0来填充维度同时也保证了模型的复杂度控制在比较低的情况下。
随着实验的深入，作者又提出了更深的残差模块。这种模型减少了各个层的参数量，将资源留给更深层数的模型，在保证复杂度很低的情况下，模型也没有出现梯度消失很明显的情况，因此目前模型最高可达1202层，错误率仍然控制得很低。但是层数如此之多也带来了过拟合的现象，不过诸多研究者仍在改进之中，毕竟此时的ResNet已经相对于其他模型在性能上遥遥领先了。
残差网络的精髓便是shortcut。从一个角度来看，也可以解读为多种路径组合的一个网络。如下图：

ResNet可以做到很深，但是从上图中可以体会到，当网络很深，也就是层数很多时，数据传输的路径其实相对比较固定。我们似乎也可以将其理解为一个多人投票系统，大多数梯度都分布在论文中所谓的effective path上。
DenseNet
在Resnet模型之后，有人试图对ResNet模型进行改进，由此便诞生了ResNeXt模型。

这是对上面介绍的ResNet模型结合了GoogleNet中的inception模块思想，相比于Resnet来说更加有效。随后，诞生了DenseNet模型，它直接将所有的模块连接起来，整个模型更加简单粗暴。稠密相连成了它的主要特点。

我们将DenseNet与ResNet相比较:

从上图中可以看出，相比于ResNet，DenseNet参数量明显减少很多，效果也更加优越，只是DenseNet需要消耗更多的内存。
总结
上面介绍了卷积神经网络发展史上比较着名的一些模型，这些模型非常经典，也各有优势。在算力不断增强的现在，各种新的网络训练的效率以及效果也在逐渐提高。从收敛速度上看，VGG>Inception>DenseNet>ResNet,从泛化能力来看，Inception>DenseNet=ResNet>VGG，从运算量看来，Inception<DenseNet< ResNet<VGG，从内存开销来看，Inception<ResNet< DenseNet<VGG。在本次研究中，我们对各个模型均进行了分析，但从效果来看，ResNet效果是最好的，优于Inception，优于VGG，所以我们第四章实验中主要采用谷歌的Inception模型，也就是GoogleNet。

8. 13个经典思维模型

13个改变世界观的经典思维模型：

1、遗憾最小化框架（Regret Minimization Framework）

提出者：杰夫·贝索斯，亚马逊CEO

经典模型是什么

与经典模型是什么相关的内容