經典模型是什麼_深度學習之卷積神經網路經典模型

1. 測試模型的四種經典模型

W模型由Evolutif公司提出，相對於V模型，W模型更科學。W模型是V模型的發展，強調的是測試伴隨著整個軟體開發周期，而且測試的對象不僅僅是程序，需求、功能和設計同樣要測試。測試與開發是同步進行的，從而有利於盡早地發現問題。
W模型也有局限性。W模型和V模型都把軟體的開發視為需求、設計、編碼等一系列串列的活動，無法支持迭代、自發性以及變更調整。 H模型中, 軟體測試過程活動完全獨立,貫穿於整個產品的周期,與其他流程並發地進行,某個測試點准備就緒時,就可以從測試准備階段進行到測試執行階段。軟體測試可以盡早的進行,並且可以根據被測物的不同而分層次進行。
這個示意圖演示了在整個生產周期中某個層次上的一次測試「微循環」。圖中標注的其它流程可以是任意的開發流程,例如設計流程或者編碼流程。也就是說, 只要測試條件成熟了,測試准備活動完成了,測試執行活動就可以進行了。
H模型揭示了一個原理:軟體測試是一個獨立的流程,貫穿產品整個生命周期,與其他流程並發地進行。H模型指出軟體測試要盡早准備, 盡早執行。不同的測試活動可以是按照某個次序先後進行的,但也可能是反復的,只要某個測試達到准備就緒點,測試執行活動就可以開展。

2. 有誰知道初中幾何的經典模型有哪些比如，手拉手模型，飛鏢模型

平行線＋角平分線模型，平行線＋中點模型，三線合一模型，旋轉模型

3. 經典回歸模型基本假定是什麼

摘要親，你好，很高興為您解答

4. 博弈論的經典模型

經濟學中的「智豬博弈」（Pigs』payoffs）

這個例子講的是：豬圈裡有兩頭豬，一頭大豬，一頭小豬。豬圈的一邊有個踏板，每踩一下踏板，在遠離踏板的豬圈的另一邊的投食口就會落下少量的食物。如果有一隻豬去踩踏板，另一隻豬就有機會搶先吃到另一邊落下的食物。當小豬踩動踏板時，大豬會在小豬跑到食槽之前剛好吃光所有的食物；若是大豬踩動了踏板，則還有機會在小豬吃完落下的食物之前跑到食槽，爭吃到另一半殘羹。

那麼，兩只豬各會採取什麼策略？答案是：小豬將選擇「搭便車」策略，也就是舒舒服服地等在食槽邊；而大豬則為一點殘羹不知疲倦地奔忙於踏板和食槽之間。

原因何在？因為，小豬踩踏板將一無所獲，不踩踏板反而能吃上食物。對小豬而言，無論大豬是否踩動踏板，不踩踏板總是好的選擇。反觀大豬，已明知小豬是不會去踩動踏板的，自己親自去踩踏板總比不踩強吧，所以只好親力親為了。

「小豬躺著大豬跑」的現象是由於故事中的游戲規則所導致的。規則的核心指標是：每次落下的事物數量和踏板與投食口之間的距離。

如果改變一下核心指標，豬圈裡還會出現同樣的「小豬躺著大豬跑」的景象嗎？試試看。

改變方案一：減量方案。投食僅原來的一半分量。結果是小豬大豬都不去踩踏板了。小豬去踩，大豬將會把食物吃完；大豬去踩，小豬將也會把食物吃完。誰去踩踏板，就意味著為對方貢獻食物，所以誰也不會有踩踏板的動力了。

如果目的是想讓豬們去多踩踏板，這個游戲規則的設計顯然是失敗的。

改變方案二：增量方案。投食為原來的一倍分量。結果是小豬、大豬都會去踩踏板。誰想吃，誰就會去踩踏板。反正對方不會一次把食物吃完。小豬和大豬相當於生活在物質相對豐富的「共產主義」社會，所以競爭意識卻不會很強。

對於游戲規則的設計者來說，這個規則的成本相當高（每次提供雙份的食物）；而且因為競爭不強烈，想讓豬們去多踩踏板的效果並不好。

改變方案三：減量加移位方案。投食僅原來的一半分量，但同時將投食口移到踏板附近。結果呢，小豬和大豬都在拚命地搶著踩踏板。等待者不得食，而多勞者多得。每次的收獲剛好消費完。

對於游戲設計者，這是一個最好的方案。成本不高，但收獲最大。

原版的「智豬博弈」故事給了競爭中的弱者（小豬）以等待為最佳策略的啟發。但是對於社會而言，因為小豬未能參與競爭，小豬搭便車時的社會資源配置的並不是最佳狀態。為使資源最有效配置，規則的設計者是不願看見有人搭便車的，政府如此，公司的老闆也是如此。而能否完全杜絕「搭便車」現象，就要看游戲規則的核心指標設置是否合適了。
博弈論的經典模型：威懾模型
威懾博弈的完整名稱是進入威懾博弈，是研究參與者想進入某領域，而與該領域已有競爭者的博弈模型。假定有兩個參與人，一個想進入某行業，稱之為進入者，另一個已在同一行業佔有一席之地，稱之為先入者。對進入者來說，不管先入者是否設置壁壘，其最優目標都是進入。而對先入者來說，要設置壁壘，必須付出巨大成本，否則不如默許。進入威懾博弈模型的啟示是：要做一件事情，必須確定一個可行的目標，不怕困難，全力以赴向目標努力，目標就會實現。另外，不是所有的威懾都沒有用處，付出巨大成本的威懾是起作用的，而要想使威懾起作用的，必須付出巨大成本。同時，進入威懾博弈也提出了一個問題，就是威脅和承諾的可信度問題，威脅實際上也是一種承諾。威脅和承諾是否可行，取決於其成本的大小，取決於其成本和收益的比較。一般而言，成本巨大的，或者成本高於收益的威脅和承諾，可信度就比較高，反之則低。實際生活中有些制度見效甚微，就是因為懲罰力度太小，使得違規者的違規收益高於違規成本。

博弈論的經典模型：斗雞模型
斗雞博弈（Chicken Game）.在西方，雞是膽小的象徵，斗雞博弈指在競爭關系中，誰的膽小，誰先失敗。現在假設，有兩個人要過一條獨木橋，這條橋一次只能過一個人，兩個人同時相向而進，在河中間碰上了。這個博弈的結果第一種就是如果兩個人繼續前進，雙方都會掉水裡，雙方丟面子，這是一種組合。第二種是，雙方都退下來，雙方也都是丟面子，但是都掉不到水裡去。第三種結果，甲方退下來，丟面子，乙過去。第四種結果，乙退下來，丟面子，甲順利通過。在這四種結果中，第一種是兩敗俱傷；三、四兩種是一勝一敗，第二種是兩敗不傷，這就是斗雞博弈。在這個模型中，最優策略有兩個，就是第三、第四兩種選擇，即甲退下來乙先過去，或者乙退下來甲先過去。因為兩種選擇對整個社會來說效益最大，損失最小。兩虎相爭勇者勝，如何處理競爭中的兩虎關系呢？一般有四種辦法：第一種是談判，雙方約定一個條件，其中一個先退下來；第二種是制度，建立一種制度，規定從南到北的先退，或者從北到南的先退，或者後上橋者先退；第三種是時間，雙方僵持一段時間，誰先吃不住勁誰先退；第四種是妥協，妥協不一定是最優策略，但是至少可以保證取得次優結果。在工作生活中乃至處理國際關系時，得饒人處且饒人，退
博弈論的經典模型：情侶博弈
情侶博弈。假定一對熱戀中的情侶，每周末見一次，必須見，否則活不下去。男的喜歡看足球，女的喜歡看電影。見面後，面臨選擇，看足球還是看電影？熱戀中的情侶因為愛，會犧牲自己的愛好去滿足對方。如果去看足球，男的滿足程度為四個單位，女的滿足程度是兩個單位；去看電影，女的滿足程度是四個單位，男的滿足程度是兩個單位。在這個博弈中，有三個變數非常重要。一個變數是順序，就是誰先提出來，比如男的先提出來，女方盡管更願意看電影，但是男方已經提出來了，她不願意違背他，只好同意，結果他們就去看足球。相反的情況也是一樣。第二個是一次博弈還是多次博弈。如果是多次博弈，雙方就會大體上形成一種默契，這一周看電影，下一周看足球。第三個取決於感情的深度。處於依賴程度比較高的一方，對對方更加順從照顧一些。一般而言，情侶之間的博弈是一個動態過程，因為戀愛就是雙方之間較長時期的磨合、了解過程。如果我們假定情侶博弈是一個動態博弈，而且總是男的先決策，女的後決策，那麼就會出現一種非常有趣的決策情景。就女方來說，無論男的是選擇足球，還是選擇電影，她的決策均為四個：一個是追隨決策，就是男的選擇什麼，她就選擇什麼；二是對抗策略，就是男的選擇什麼，她偏不選什麼；三是偏好策略，就是無論男的選什麼，她都選電影，因為這是她的偏好；四是成全策略，就是無論男的選什麼，她都選足球，因為足球是男的偏好，她寧可犧牲自己的偏好，而成全男方。情侶博弈在現實生活中到處存在，它讓人們思考如何人去關心別人、理解別人，處理好人際關系。
一步還擴天空，都是從斗雞博弈可以總結出的道理。

5. 高中物理經典模型

1、物質模型。物質可分為實體物質和場物質。
實體物質模型有力學中的質點、輕質彈簧、彈性小球等；電磁學中的點電荷、平行板電容器、密繞螺線管等；氣體性質中的理想氣體；光學中的薄透鏡、均勻介質等。
場物質模型有如勻強電場、勻強磁場等都是空間場物質的模型。
2、狀態模型。研究流體力學時，流體的穩恆流動（狀態）；研究理想氣體時，氣體的平衡態；研究原子物理時，原子所處的基態和激發態等都屬於狀態模型。
3、過程模型。在研究質點運動時，如勻速直線運動、勻變速直線運動、勻速圓周運動、平拋運動、簡諧運動等；在研究理想氣體狀態變化時，如等溫變化、等壓變化、等容變化、絕熱變化等；還有一些物理量的均勻變化的過程，如某勻強磁場的磁感應強度均勻減小、均勻增加等；非均勻變化的過程，如汽車突然停止都屬於理想的過程模型。

6. 經典的創業模型是什麼

是遺憾最小化框架。

遺憾最小化框架是亞馬遜CEO傑夫貝索斯提出的，它能讓你在面向未來的基礎上看待當下的現實，從而幫助你完成困難的決策。比如說，它會讓你放棄現在的工作，去追求你已經想了兩年半的一個夢想。傑夫在做決定時會將自己想像成80歲的模樣，思考自己在一生中會感到遺憾的事件。

最小化可行性產品不是一個產品，而是一個測試你的猜想，保證產品需求的過程。開發產品時，先做出一個簡單的原型，在通過測試收集反饋，快速更新，不斷修正，最終得出一個適應市場需求的產品。這一過程中的原型就是最小化可行性產品。

創業注意事項：

1、積極利用現有資源

不少在職人員都選擇了與工作密切相關的領域創業，工作中積累的經驗和資源是最大的創業財富，要善於利用這些資源，以便近水樓台先得月。對能幫自己生存的項目，要優先進行考慮。不要在只能改善形象或者帶來更大方便的項目上亂花費用。

切不可誤用資源，在職老闆不能將個人生意與單位生意混淆，更不能吃裡扒外，唯利是圖，否則不僅要冒道德上的風險，而且很可能會受到法律的制裁。在自己的地盤，時間、金錢和才能任由自己使用。但是，如果亂搞一氣，自己的生意就會逆轉而下。

2、自己業務渠道

有些上班族有投資資金或有一定的業務渠道，但苦於分身無術，因此會選擇合作經營的創業方式。如果自己需要合夥人的錢來開辦或維持企業，或者這個合夥人幫助自己設計了這個企業的構思，或者他有自己需要的技巧，或者自己需要他為自己鳴鼓吹號，那麼就請他加入自己的公司。

這雖能讓兼職老闆輕松上陣，但要慎重選擇創業搭檔，在請幫手和自己親自處理上，要有一個平衡點。首先要志同道合，其次要互相信任。不要聘用那些適合工作，卻與自己合不來的人員，也不要聘用那些沒有心理准備面對新辦企業壓力的人。

7. 深度學習之卷積神經網路經典模型

LeNet-5模型在CNN的應用中，文字識別系統所用的LeNet-5模型是非常經典的模型。LeNet-5模型是1998年，Yann LeCun教授提出的，它是第一個成功大規模應用在手寫數字識別問題的卷積神經網路，在MNIST數據集中的正確率可以高達99.2%。

下面詳細介紹一下LeNet-5模型工作的原理。
LeNet-5模型一共有7層，每層包含眾多參數，也就是卷積神經網路中的參數。雖然層數只有7層，這在如今龐大的神經網路中可是說是非常少的了，但是包含了卷積層，池化層，全連接層，可謂麻雀雖小五臟俱全了。為了方便，我們把卷積層稱為C層，下采樣層叫做下采樣層。
首先，輸入層輸入原始圖像，原始圖像被處理成32×32個像素點的值。然後，後面的隱層計在卷積和子抽樣之間交替進行。C1層是卷積層，包含了六個特徵圖。每個映射也就是28x28個神經元。卷積核可以是5x5的十字形，這28×28個神經元共享卷積核權值參數，通過卷積運算，原始信號特徵增強，同時也降低了雜訊，當卷積核不同時，提取到圖像中的特徵不同；C2層是一個池化層，池化層的功能在上文已經介紹過了，它將局部像素值平均化來實現子抽樣。
池化層包含了六個特徵映射，每個映射的像素值為14x14，這樣的池化層非常重要，可以在一定程度上保證網路的特徵被提取，同時運算量也大大降低，減少了網路結構過擬合的風險。因為卷積層與池化層是交替出現的，所以隱藏層的第三層又是一個卷積層，第二個卷積層由16個特徵映射構成，每個特徵映射用於加權和計算的卷積核為10x10的。第四個隱藏層，也就是第二個池化層同樣包含16個特徵映射，每個特徵映射中所用的卷積核是5x5的。第五個隱藏層是用5x5的卷積核進行運算，包含了120個神經元，也是這個網路中卷積運算的最後一層。
之後的第六層便是全連接層，包含了84個特徵圖。全連接層中對輸入進行點積之後加入偏置，然後經過一個激活函數傳輸給輸出層的神經元。最後一層，也就是第七層，為了得到輸出向量，設置了十個神經元來進行分類，相當於輸出一個包含十個元素的一維數組，向量中的十個元素即0到9。
AlexNet模型
AlexNet簡介
2012年Imagenet圖像識別大賽中，Alext提出的alexnet網路模型一鳴驚人，引爆了神經網路的應用熱潮，並且贏得了2012屆圖像識別大賽的冠軍，這也使得卷積神經網路真正意義上成為圖像處理上的核心演算法。上文介紹的LeNet-5出現在上個世紀，雖然是經典，但是迫於種種復雜的現實場景限制，只能在一些領域應用。不過，隨著SVM等手工設計的特徵的飛速發展，LeNet-5並沒有形成很大的應用狀況。隨著ReLU與dropout的提出，以及GPU帶來算力突破和互聯網時代大數據的爆發，卷積神經網路帶來歷史的突破，AlexNet的提出讓深度學習走上人工智慧的最前端。
圖像預處理
AlexNet的訓練數據採用ImageNet的子集中的ILSVRC2010數據集，包含了1000類，共1.2百萬的訓練圖像，50000張驗證集，150000張測試集。在進行網路訓練之前我們要對數據集圖片進行預處理。首先我們要將不同解析度的圖片全部變成256x256規格的圖像，變換方法是將圖片的短邊縮放到 256像素值，然後截取長邊的中間位置的256個像素值，得到256x256大小的圖像。除了對圖片大小進行預處理，還需要對圖片減均值，一般圖像均是由RGB三原色構成，均值按RGB三分量分別求得，由此可以更加突出圖片的特徵，更方便後面的計算。
此外，對了保證訓練的效果，我們仍需對訓練數據進行更為嚴苛的處理。在256x256大小的圖像中，截取227x227大小的圖像，在此之後對圖片取鏡像，這樣就使得原始數據增加了（256-224）x（256-224）x2= 2048倍。最後對RGB空間做PCA，然後對主成分做（0,0.1）的高斯擾動，結果使錯誤率下降1%。對測試數據而言，抽取以圖像4個角落的大小為224224的圖像，中心的224224大小的圖像以及它們的鏡像翻轉圖像，這樣便可以獲得10張圖像，我們便可以利用softmax進行預測，對所有預測取平均作為最終的分類結果。
ReLU激活函數
之前我們提到常用的非線性的激活函數是sigmoid，它能夠把輸入的連續實值全部確定在0和1之間。但是這帶來一個問題，當一個負數的絕對值很大時，那麼輸出就是0；如果是絕對值非常大的正數，輸出就是1。這就會出現飽和的現象，飽和現象中神經元的梯度會變得特別小，這樣必然會使得網路的學習更加困難。此外，sigmoid的output的值並不是0為均值，因為這會導致上一層輸出的非0均值信號會直接輸入到後一層的神經元上。所以AlexNet模型提出了ReLU函數，公式：f(x)=max(0,x)f(x)=max(0,x)。

用ReLU代替了Sigmoid，發現使用 ReLU 得到的SGD的收斂速度會比 sigmoid快很多，這成了AlexNet模型的優勢之一。
Dropout
AlexNet模型提出了一個有效的模型組合方式，相比於單模型，只需要多花費一倍的時間，這種方式就做Dropout。在整個神經網路中，隨機選取一半的神經元將它們的輸出變成0。這種方式使得網路關閉了部分神經元，減少了過擬合現象。同時訓練的迭代次數也得以增加。當時一個GTX580 GPU只有3GB內存，這使得大規模的運算成為不可能。但是，隨著硬體水平的發展，當時的GPU已經可以實現並行計算了，並行計算之後兩塊GPU可以互相通信傳輸數據，這樣的方式充分利用了GPU資源，所以模型設計利用兩個GPU並行運算，大大提高了運算效率。
模型分析

AlexNet模型共有8層結構，其中前5層為卷積層，其中前兩個卷積層和第五個卷積層有池化層，其他卷積層沒有。後面3層為全連接層，神經元約有六十五萬個，所需要訓練的參數約六千萬個。
圖片預處理過後，進過第一個卷積層C1之後，原始的圖像也就變成了55x55的像素大小，此時一共有96個通道。模型分為上下兩塊是為了方便GPU運算，48作為通道數目更加適合GPU的並行運算。上圖的模型里把48層直接變成了一個面，這使得模型看上去更像一個立方體，大小為55x55x48。在後面的第二個卷積層C2中，卷積核的尺寸為5x5x48，由此再次進行卷積運算。在C1，C2卷積層的卷積運算之後，都會有一個池化層，使得提取特徵之後的特徵圖像素值大大減小，方便了運算，也使得特徵更加明顯。而第三層的卷積層C3又是更加特殊了。第三層卷積層做了通道的合並，將之前兩個通道的數據再次合並起來，這是一種串接操作。第三層後，由於串接，通道數變成256。全卷積的卷積核尺寸也就變成了13×13×25613×13×256。一個有4096個這樣尺寸的卷積核分別對輸入圖像做4096次的全卷積操作，最後的結果就是一個列向量，一共有4096個數。這也就是最後的輸出，但是AlexNet最終是要分1000個類，所以通過第八層，也就是全連接的第三層，由此得到1000個類輸出。
Alexnet網路中各個層發揮了不同的作用，ReLU，多個CPU是為了提高訓練速度，重疊pool池化是為了提高精度，且不容易產生過擬合，局部歸一化響應是為了提高精度，而數據增益與dropout是為了減少過擬合。
VGG net
在ILSVRC-2014中，牛津大學的視覺幾何組提出的VGGNet模型在定位任務第一名和分類任務第一名[[i]]。如今在計算機視覺領域，卷積神經網路的良好效果深得廣大開發者的喜歡，並且上文提到的AlexNet模型擁有更好的效果，所以廣大從業者學習者試圖將其改進以獲得更好地效果。而後來很多人經過驗證認為，AlexNet模型中所謂的局部歸一化響應浪費了計算資源，但是對性能卻沒有很大的提升。VGG的實質是AlexNet結構的增強版，它側重強調卷積神經網路設計中的深度。將卷積層的深度提升到了19層，並且在當年的ImageNet大賽中的定位問題中獲得了第一名的好成績。整個網路向人們證明了我們是可以用很小的卷積核取得很好地效果，前提是我們要把網路的層數加深，這也論證了我們要想提高整個神經網路的模型效果，一個較為有效的方法便是將它的深度加深，雖然計算量會大大提高，但是整個復雜度也上升了，更能解決復雜的問題。雖然VGG網路已經誕生好幾年了，但是很多其他網路上效果並不是很好地情況下，VGG有時候還能夠發揮它的優勢，讓人有意想不到的收獲。

與AlexNet網路非常類似，VGG共有五個卷積層，並且每個卷積層之後都有一個池化層。當時在ImageNet大賽中，作者分別嘗試了六種網路結構。這六種結構大致相同，只是層數不同，少則11層，多達19層。網路結構的輸入是大小為224*224的RGB圖像，最終將分類結果輸出。當然，在輸入網路時，圖片要進行預處理。
VGG網路相比AlexNet網路，在網路的深度以及寬度上做了一定的拓展，具體的卷積運算還是與AlexNet網路類似。我們主要說明一下VGG網路所做的改進。第一點，由於很多研究者發現歸一化層的效果並不是很好，而且佔用了大量的計算資源，所以在VGG網路中作者取消了歸一化層；第二點，VGG網路用了更小的3x3的卷積核，而兩個連續的3x3的卷積核相當於5x5的感受野，由此類推，三個3x3的連續的卷積核也就相當於7x7的感受野。這樣的變化使得參數量更小，節省了計算資源，將資源留給後面的更深層次的網路。第三點是VGG網路中的池化層特徵池化核改為了2x2，而在AlexNet網路中池化核為3x3。這三點改進無疑是使得整個參數運算量下降，這樣我們在有限的計算平台上能夠獲得更多的資源留給更深層的網路。由於層數較多，卷積核比較小，這樣使得整個網路的特徵提取效果很好。其實由於VGG的層數較多，所以計算量還是相當大的，卷積層比較多成了它最顯著的特點。另外，VGG網路的拓展性能比較突出，結構比較簡潔，所以它的遷移性能比較好，遷移到其他數據集的時候泛化性能好。到現在為止，VGG網路還經常被用來提出特徵。所以當現在很多較新的模型效果不好時，使用VGG可能會解決這些問題。
GoogleNet
谷歌於2014年Imagenet挑戰賽（ILSVRC14）憑借GoogleNet再次斬獲第一名。這個通過增加了神經網路的深度和寬度獲得了更好地效果，在此過程中保證了計算資源的不變。這個網路論證了加大深度，寬度以及訓練數據的增加是現有深度學習獲得更好效果的主要方式。但是增加尺寸可能會帶來過擬合的問題，因為深度與寬度的加深必然會帶來過量的參數。此外，增加網路尺寸也帶來了對計算資源侵佔過多的缺點。為了保證計算資源充分利用的前提下去提高整個模型的性能，作者使用了Inception模型，這個模型在下圖中有展示，可以看出這個有點像金字塔的模型在寬度上使用並聯的不同大小的卷積核，增加了卷積核的輸出寬度。因為使用了較大尺度的卷積核增加了參數。使用了1*1的卷積核就是為了使得參數的數量最少。

Inception模塊
上圖表格為網路分析圖，第一行為卷積層，輸入為224×224×3 ，卷積核為7x7，步長為2，padding為3，輸出的維度為112×112×64，這裡面的7x7卷積使用了 7×1 然後 1×7 的方式，這樣便有(7+7)×64×3=2,688個參數。第二行為池化層，卷積核為3×33×3，滑動步長為2，padding為 1 ，輸出維度：56×56×64，計算方式：1/2×(112+2×1?3+1)=56。第三行，第四行與第一行，第二行類似。第 5 行 Inception mole中分為4條支線，輸入均為上層產生的 28×28×192 結果：第 1 部分，1×1 卷積層，輸出大小為28×28×64；第 2 部分，先1×1卷積層，輸出大小為28×28×96，作為輸入進行3×3卷積層，輸出大小為28×28×128；第 3部分，先1×1卷積層，輸出大小為28×28×32，作為輸入進行3×3卷積層，輸出大小為28×28×32；而第3 部分3×3的池化層，輸出大小為輸出大小為28×28×32。第5行的Inception mole會對上面是個結果的輸出結果並聯，由此增加網路寬度。
ResNet
2015年ImageNet大賽中，MSRA何凱明團隊的ResialNetworks力壓群雄，在ImageNet的諸多領域的比賽中上均獲得了第一名的好成績，而且這篇關於ResNet的論文Deep Resial Learning for Image Recognition也獲得了CVPR2016的最佳論文，實至而名歸。
上文介紹了的VGG以及GoogleNet都是增加了卷積神經網路的深度來獲得更好效果，也讓人們明白了網路的深度與廣度決定了訓練的效果。但是，與此同時，寬度與深度加深的同時，效果實際會慢慢變差。也就是說模型的層次加深，錯誤率提高了。模型的深度加深，以一定的錯誤率來換取學習能力的增強。但是深層的神經網路模型犧牲了大量的計算資源，學習能力提高的同時不應當產生比淺層神經網路更高的錯誤率。這個現象的產生主要是因為隨著神經網路的層數增加，梯度消失的現象就越來越明顯。所以為了解決這個問題，作者提出了一個深度殘差網路的結構Resial：

上圖就是殘差網路的基本結構，可以看出其實是增加了一個恆等映射，將原本的變換函數H(x)轉換成了F(x)+x。示意圖中可以很明顯看出來整個網路的變化，這樣網路不再是簡單的堆疊結構，這樣的話便很好地解決了由於網路層數增加而帶來的梯度原來越不明顯的問題。所以這時候網路可以做得很深，到目前為止，網路的層數都可以上千層，而能夠保證很好地效果。並且，這樣的簡單疊加並沒有給網路增加額外的參數跟計算量，同時也提高了網路訓練的效果與效率。
在比賽中，為了證明自己觀點是正確的，作者控制變數地設計幾個實驗。首先作者構建了兩個plain網路，這兩個網路分別為18層跟34層，隨後作者又設計了兩個殘差網路，層數也是分別為18層和34層。然後對這四個模型進行控制變數的實驗觀察數據量的變化。下圖便是實驗結果。實驗中，在plain網路上觀測到明顯的退化現象。實驗結果也表明，在殘差網路上，34層的效果明顯要好於18層的效果，足以證明殘差網路隨著層數增加性能也是增加的。不僅如此，殘差網路的在更深層的結構上收斂性能也有明顯的提升，整個實驗大為成功。

除此之外，作者還做了關於shortcut方式的實驗，如果殘差網路模塊的輸入輸出維度不一致，我們如果要使維度統一，必須要對維數較少的進行増維。而增維的最好效果是用0來填充。不過實驗數據顯示三者差距很小，所以線性投影並不是特別需要。使用0來填充維度同時也保證了模型的復雜度控制在比較低的情況下。
隨著實驗的深入，作者又提出了更深的殘差模塊。這種模型減少了各個層的參數量，將資源留給更深層數的模型，在保證復雜度很低的情況下，模型也沒有出現梯度消失很明顯的情況，因此目前模型最高可達1202層，錯誤率仍然控製得很低。但是層數如此之多也帶來了過擬合的現象，不過諸多研究者仍在改進之中，畢竟此時的ResNet已經相對於其他模型在性能上遙遙領先了。
殘差網路的精髓便是shortcut。從一個角度來看，也可以解讀為多種路徑組合的一個網路。如下圖：

ResNet可以做到很深，但是從上圖中可以體會到，當網路很深，也就是層數很多時，數據傳輸的路徑其實相對比較固定。我們似乎也可以將其理解為一個多人投票系統，大多數梯度都分布在論文中所謂的effective path上。
DenseNet
在Resnet模型之後，有人試圖對ResNet模型進行改進，由此便誕生了ResNeXt模型。

這是對上面介紹的ResNet模型結合了GoogleNet中的inception模塊思想，相比於Resnet來說更加有效。隨後，誕生了DenseNet模型，它直接將所有的模塊連接起來，整個模型更加簡單粗暴。稠密相連成了它的主要特點。

我們將DenseNet與ResNet相比較:

從上圖中可以看出，相比於ResNet，DenseNet參數量明顯減少很多，效果也更加優越，只是DenseNet需要消耗更多的內存。
總結
上面介紹了卷積神經網路發展史上比較著名的一些模型，這些模型非常經典，也各有優勢。在算力不斷增強的現在，各種新的網路訓練的效率以及效果也在逐漸提高。從收斂速度上看，VGG>Inception>DenseNet>ResNet,從泛化能力來看，Inception>DenseNet=ResNet>VGG，從運算量看來，Inception<DenseNet< ResNet<VGG，從內存開銷來看，Inception<ResNet< DenseNet<VGG。在本次研究中，我們對各個模型均進行了分析，但從效果來看，ResNet效果是最好的，優於Inception，優於VGG，所以我們第四章實驗中主要採用谷歌的Inception模型，也就是GoogleNet。

8. 13個經典思維模型

13個改變世界觀的經典思維模型：

1、遺憾最小化框架（Regret Minimization Framework）

提出者：傑夫·貝索斯，亞馬遜CEO

經典模型是什麼

與經典模型是什麼相關的內容