台山饰良建材有限公司

GPT的背后,從命運多舛到顛覆世界,人工神經網絡的跌宕80年

今天,ChatGPT等大型語言預訓練神經網絡模型已經成為廣為人知的名字,GPT背后的算法內核——人工神經網絡算法,在此之前,卻曾經歷了跌宕沉浮的80年,這80年間,除了少數的幾個爆發時刻,大部分時候,這個理論處于沉寂、無人問津,甚至經費“毒藥”的狀態。

人工神經網絡的誕生,來自不羈天才皮特斯與當時已功成名就的神經生理學專家麥卡洛克的黃金組合,然而,他們的理論超越了他們那個時代的技術水平,因而沒能獲得廣泛關注與實證驗證。


(相關資料圖)

幸而,在誕生之初的二十多年里,不停地有研究者進來添磚加瓦,人工神經網絡領域從最初最簡單的神經元數學模型和學習算法進化到了具有學習能力的感知機模型,然而,來自其他研究者的質疑與“感知機”創始人之一羅森布拉特在航行中隕難共同襲來,在那之后,這個領域陷入了二十多年的寒冬,直到反向傳播算法被引入人工神經網絡的訓練過程中。

在那之后,經歷了沉寂的20年,人工神經網絡方面的研究才終于又獲得重啟,蓄力的近20年中,卷積神經網絡與遞歸神經網絡依次登場。

但該領域在學術界與產業界的飛速發展還是要等到17年前,硬件方面的突破——通用計算GPU芯片的出現,于是,才有了今天,隨著ChatGPT等大型語言預訓練神經網絡模型,成為廣為人知的名字。

從一定意義上,人工神經網絡的成功是一種幸運,因為,不是所有的研究,都能等到核心的關鍵突破,等到萬事齊備。在更多的領域,技術的突破出現得太早或是太晚,導致只能慢慢消亡。然而,這幸運中,不能被忽略地是那些身處其中的研究者們的堅定與執著,靠著這些研究者們的理想主義,人工神經網絡才走過了它跌宕沉浮的80年,終得正果。

麥卡洛克-皮特斯神經元

1941年,沃倫·斯特吉斯·麥卡洛克(Warren Sturgis McCulloch)跳槽到美國芝加哥大學醫學院,擔任神經生理學教授。搬到芝加哥后不久,一位朋友介紹他認識了沃爾特·皮特斯(Walter Pitts)。正在芝加哥大學攻讀博士的皮特斯與麥卡洛克對神經科學與邏輯學有共同的興趣,于是二人一拍即合,成為了科研上志同道合的好友和伙伴。皮特斯生性好學,12歲時便在圖書館讀完了羅素與懷特黑德所著的《數學原理》,并致信羅素,指出書中的幾處錯誤。羅素很欣賞這位小讀者的來信,回信邀請他到劍橋大學讀書(盡管皮特斯只有12歲)。然而,皮特斯的家人受教育程度低,無法理解皮特斯的求知欲、反而時常惡語相向。皮特斯與原生家庭關系逐漸惡化,他15歲便離家出走。自那之后,皮特斯成為了芝加哥大學校園里的一名流浪漢,白天選擇喜歡的大學課程旁聽,晚上隨便找個課室睡覺。在皮特斯認識麥卡洛克時,他雖然已是學校在冊博士生,但仍沒有固定住處。麥卡洛克了解到這個情況后,便邀請皮特斯到自家居住。

二人認識的時候,麥卡洛克已經發表了多篇關于神經系統的論文,是該領域有名的專家。而皮特斯雖然還是一名博士生,但他已經在數理邏輯領域有所建樹,并獲得包括馮諾依曼等領域大牛們的賞識。盡管二人專業領域非常不同,但他們都對人腦的工作原理深感興趣,并堅信數學模型可以描述、模擬大腦的功能。在這個共同的信念的驅使下,二人合作發表了多篇論文。他們建立了第一個人工神經網絡模型。他們的工作為現代人工智能與機器學習領域奠定了基礎,而他們二人也因此被公認為神經科學與人工智能領域的開創者。

1943年,麥卡洛克和皮特斯提出了最早的人工神經網絡模型:麥卡洛克-皮特斯神經元(McCulloch-Pitts Neuron)模型[1]。該模型旨在用二進制開關的“開”與“關”的機制來模擬神經元的工作原理。該模型的主要組成部分為:接收信號的輸入節點,通過預設閾值處理輸入信號的中間節點,以及生成輸出信號的輸出節點。在論文中,麥卡洛克與皮特斯證明了該簡化模型可以用于實現基礎邏輯(如“與”、“或”、“非”)運算。除此以外,該模型還可以用于解決簡單問題,如模式識別與圖像處理。

麥卡洛克-皮特斯神經元(圖源:www.cs.cmu.edu/~./epxing/Class/10715/reading/McCulloch.and.Pitts.pdf)

赫布式學習(Hebbian Learning)

1949年,加拿大心理學家唐納德·赫布(Donald Hebb)出版了一本題為《行為的組織(The Organization of Behavior)》,并在書中提出了著名的赫布式學習(Hebbian Learning)理論[2]。該理論認為“共同激活的神經元往往是相互連接的(Cells that fire together, wire together)”,也就是神經元具有突觸可塑性(synaptic plasticity,?突觸是神經元之間相互連接進行信息傳遞的關鍵部位),并認為突觸可塑性是大腦學習與記憶功能的基礎。

機器學習理論中的關鍵步驟是如何使用不同的更新算法(update rule)來更新模型。使用神經網絡模型進行機器學習時,需設定初始模型的架構與參數。在模型訓練過程中,每一個來自訓練數據集中的輸入數據都會導致模型更新各項參數。這個過程,就需要使用到更新算法。赫布式學習理論為機器學習提供了最初更新算法:Δw = η x xpre x xpost。Δw為突觸模型的參數的變化大小,?η為學習速率,xpre 為突觸前神經元活動值大小,xpost為突觸后神經元活動值大小。

赫布更新算法為利用人工神經網絡來模仿大腦神經網絡的行為提供了理論基礎。赫布式學習模型是一種無監督學習模型——該模型通過調節其感知到的輸入數據之間聯系程度的強弱來實現學習目的。也正因為如此,赫布式學習模型在對輸入數據中的子類別聚類分析尤其擅長。隨著神經網絡的研究逐漸加深,赫布式學習模型后來也被發現適用于強化學習等其他多個細分領域。

感知機?(Perceptron)

1957年,美國心理學家弗蘭克·羅森布拉特(Frank Rosenblatt)首次提出感知機(Perceptron)模型,并且首次使用了感知機更新算法[3]。感知機更新算法延伸了赫布更新算法的基礎,通過利用迭代、試錯過程來進行模型訓練。在模型訓練時,感知機模型對于每一個新的數據,計算出模型預測的該數據輸出值與實際測得的該數據輸出值的差值,然后使用該差值更新模型中的系數。具體方程如下:Δw = η x (t - y) x x。在提出最初的感知機模型后,羅森布拉特繼續深入探討、發展感知機相關理論。1959年,羅森布拉特成功研發出一臺使用感知機模型識別英文字母的神經計算機Mark1。

感知機模型與麥卡洛克-皮特斯神經元類似,也是基于神經元的生物學模型,以接收輸入信號,處理輸入信號,生成輸出信號為基本運作機理。感知機模型與麥卡洛克-皮特斯神經元模型的區別在于后者的輸出信號只能為0或1——超過預設閾值為1,否則為零——而感知機模型則使用了線性激活函數,使得模型的輸出值可以與輸入信號一樣為連續變化值。另外,感知機對每一條輸入信號都設置了系數,該系數能影響每條輸入信號對于輸出信號的作用程度。最后,感知機是學習算法,因為其各輸入信號的系數可以根據所看到的數據進行調整;而麥卡洛克-皮特斯神經元模型因沒有設置系數,所以其行為無法根據數據反饋進行動態更新。

1962年,羅森布拉特將多年關于感知機模型的研究集結成《神經動力學原理:感知機與大腦原理(Principles of Neurodynamics: Perceptrons and the theory of brain mechanisms)》一書。感知機模型在人工智能領域是一項重大的進步,因為它是第一種具有學習能力的算法模型,能自主學習接收到的數據中的規律與特點。并且,它具有模式分類的能力,可以將數據根據其特點自動分為不同的類別。另外,感知機模型相對簡單,所需計算資源也較少。

盡管感知機具有種種優點與潛力,但它畢竟是一個相對簡化的模型,存在許多局限性。1969年,計算機科學家馬文·明斯基(Marvin Minsky)與西摩爾·派普特(Seymour Papert)合作出版了《感知機(Perceptron)》一書[5]。在書中,兩位作者對感知機模型進行了深入的批判,分析了以感知機為代表的單層神經網絡的局限,包括但不限于“異或”邏輯的實現以及線性不可分問題。但是,二位作者與羅森布拉特都已經意識到,多層神經網絡可以解決這些單層神經網絡不能解決的問題??上У氖牵陡兄獧C》一書對感知機模型的負面評價影響巨大,使得公眾與政府機構對于感知機研究一下子失去了興趣。1971年,感知機理論的提出者兼頭號支持者羅森布拉特不幸在一次出海航行中遇難,享年43歲。在《感知機》一書與羅森布拉特之死的雙重打擊下,與感知機相關的論文發表數目逐年迅速減少。人工神經網絡的發展進入了“寒冬”。

感知機模型(圖源:towardsdatascience.com)

反向傳播算法

多層神經網絡能夠解決單層神經網絡無法解決的問題,但它帶來了新的問題:更新多層神經網絡模型的每一層神經元的權重涉及到大量精確計算,而普通的計算方法費時費力,使得神經網絡學習過程變得非常緩慢,實用性很差。

為了解決這個問題,美國社會學家、機器學習工程師保羅·韋伯(Paul Werbos)在1974年的哈佛大學的博士論文《Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences》中提出了反向傳播算法(backpropagation)[6]。該算法的基本思想是通過將預測到的輸出值與實際輸出值之間的誤差從輸出層反向傳播,從而調整神經網絡各個神經元的權重。這個算法的本質是根據微積分中常用的鏈式法則從輸出層到輸入層反向(沿著負梯度方向)實現對由多層感知機組成的神經網絡的訓練。

令人感到遺憾的是,韋伯的論文在發表后很長一段時間內都沒有得到足夠的關注。直到1985年,加州大學圣地亞哥分校的心理學家大衛·魯梅爾哈特(David Rumelhart)、認知心理學家與計算機學家杰弗里·辛頓(Geoffrey Hinton),以及計算機學家羅納德·威廉姆斯(Ronald Williams)合作發表了一篇關于反向傳播算法在神經網絡中的應用的論文[7]。這篇論文在人工智能領域獲得了很大的反響。魯梅爾哈特等人的想法與韋伯的想法本質上是相似的,但魯梅爾哈特他們沒有引用韋伯的論文,這一點近來常常為人詬病。

反向傳播算法在人工神經網絡的發展中起著關鍵作用,并使得深度學習模型的訓練成為可能。自從反向傳播算法于八十年代重新受到人們的重視以來,它被廣泛應用于訓練多種神經網絡網絡。除了最初的多層感知機神經網絡以外,反向傳播算法還適用于卷積神經網絡、循環神經網絡等。由于反向傳播算法的重要地位,韋伯與魯梅爾哈特等人被認為是神經網絡領域的先驅之一。

事實上,反向傳播算法是人工智能領域的“文藝復興”時代(20世紀80年代和90年代期間)的重要成果。并行分布式處理(Parallel Distributed Processing)是這段時間的主要方法論。該方法論關注多層神經網絡,并推崇通過并行處理計算來加速神經網絡的訓練過程與應用。這與先前的人工智能領域的主流思想背道而馳,因而具有劃時代的意義。另外,該方法論受到了計算機科學以外,包括心理學、認知科學,以及神經科學等不同領域的學者的歡迎。因此,這段歷史常常被后人認為是人工智能領域的文藝復興。

反向傳播算法原理(圖源:www.i2tutorials.com)

卷積神經網絡(Convolutional Neural Network, CNN)

如果把麥卡洛克·皮特斯神經元作為人工智能誕生的標志,那么美國可以說是人工神經網絡的發源地。人工神經網絡誕生后的三十年里,美國在人工智能領域一直扮演著主角,孕育了感知機、反向傳播算法等關鍵技術。但在第一個人工智能的"寒冬"中,包括政府、學術界在內的美國各方人士對人工神經網絡的潛能失去了信心,大大放緩了對神經網絡技術迭代的支持與投入。也因為如此,在這個席卷美國的”寒冬“中,其他國家的人工神經網絡的研究走到了歷史發展的聚光燈之下。卷積神經網絡與遞歸神經網絡就是在這樣的背景下出場的。

卷積神經網絡是一種包含了卷積層,池化層,以及全連接層等多種獨特結構的多層神經網絡模型。該模型利用卷積層提取出輸入信號的局部特征,然后通過池化層降低數據的維度與復雜性,最后通過全連接層將數據轉化為一維的特征向量并生成輸出信號(一般為預測或分類結果)。卷積神經網絡的獨特結構使得它在處理具有網格結構屬性的數據(圖像,時間序列等)時尤有優勢。

卷積神經網絡(圖源:https://www.analyticsvidhya.com/blog/2022/01/convolutional-neural-network-an-overview/)

最早的卷積神經網絡是日本計算機科學家福島邦彥(Kunihiko Fukushima)于1980年提出[8]。福島所提出的模型包含卷積層與下采樣層,是當今主流卷積神經網絡結構仍然一直沿用的結構。福島的模型與今日的卷積神經網絡唯一不同之處在于前者沒有使用反向傳播算法——如前文所敘,反向傳播算法要等到1986年才受到關注。由于福島的卷積神經網絡模型沒有該算法的助力,該模型與當時的其他多層神經網絡一樣存在訓練時間長、計算復雜的問題。

1989年,任職于美國貝爾實驗室法國計算機科學家楊·立昆(Yann LeCun)及其團隊提出了名為LeNet-5的卷積神經網絡模型,并在該模型中使用了反向傳播算法進行訓練[9]。立昆證明了該神經網絡可以用于識別手寫數字與字符。這標志著卷積神經網絡在圖像識別中的廣泛應用的開始。

遞歸神經網絡(Recursive Neural Network, RNN)

與卷積神經網絡一樣,遞歸神經網絡也是一類具有獨特結構特征的神經網絡。該類神經網絡的主要結構特征在于各層級間具有遞歸關系,而不是順序關系。由于以上這些特殊結構特征,遞歸神經網絡特別適于處理自然語言以及其他文本類的數據。

1990年,美國認知科學家、心理語言學家杰弗里·艾爾曼(Jeffrey Elman)提出了艾爾曼網絡模型(又稱為簡化遞歸網絡)[10]。艾爾曼網絡模型是首個遞歸神經網絡。艾爾曼利用該模型證明了遞歸神經網絡能夠在訓練時維持數據本身的先后順序性質,為日后該類模型在自然語言處理領域的應用奠定了基礎。

遞歸神經網絡存在梯度消失現象。在使用反向傳播算法訓練神經網絡時,離輸入近的層級的權重更新梯度逐漸變得近似于零,使得這些權重變化很慢,導致訓練效果變差。為了解決這個問題,1997年,德國計算機科學家瑟普·霍克賴特(Sepp Hochreiter)及其博士導師于爾根·施密德胡伯(Jürgen Schmidhuber)提出了長短期記憶網絡[11]。該模型為一種特殊的遞歸神經網絡模型。它引入了記憶節點,使得模型具有更好的長期記憶存留的能力,從而化解了梯度消失現象。該模型目前仍是使用最普遍的遞歸神經網絡模型之一。

通用計算GPU芯片

2006年,美國英偉達公司(NVIDIA)推出了第一款通用計算GPU(圖形處理單元)芯片并將其命名為CUDA(Compute Unified Device Architecture)。在此之前,GPU本是專門用于圖形渲染與計算的芯片處理器,常用于計算機圖形學相關的應用(如圖像處理,游戲場景實時計算渲染,視頻播放與處理等)。CUDA允許通用目的的并行計算,使原本僅能調用CPU(中央處理單元)的任務可以通過GPU來完成計算。GPU的強大的并行計算能力使其能夠同時執行多個計算任務,并且計算速度比CPU更快,適合矩陣運算。神經網絡的訓練往往需要進行大規模矩陣和張量運算。在通用GPU出現之前,人工神經網絡的發展長期受到傳統的CPU有限計算能力的限制。這種限制包括了對于理論研究的創新以及對現有模型的產品化、產業化的應用。而GPU的出現,讓這兩方面的掣肘被大大削弱了。

2010年,施密德胡伯團隊中的博士后研究員丹·奇雷尚(Dan Ciresan)利用GPU實現了對卷積神經網絡訓練的顯著加速[12]。但GPU真正在人工神經網絡領域里聲名大噪是在2012年。那一年,加拿大計算機科學家亞歷克斯·克里澤夫斯基(Alex Krizhevsky)、伊利亞·蘇茨克維(Ilya Sutskever)以及前文提到過的杰弗里·辛頓提出了亞歷克斯網絡模型(AlexNet)[13]。亞歷克斯網絡模型本質上是一類卷積網絡模型??死餄煞蛩够热嗽谟柧毮P蜁r使用了GPU,并用該模型參加了一個國際著名的圖像分類與標記的競賽(ImageNet ILSVRC)。令人意外的是,該模型最后竟以大比分的優勢獲得了冠軍。亞歷克斯網絡模型的成功極大地激發了各界對于人工神經網絡在計算機視覺領域應用的興趣與關注。

生成式神經網絡與大型語言模型

遞歸神經網絡可以逐字連續生成文本序列,因此常常被認為是早期的生成式神經網絡模型。然而,盡管遞歸神經網絡善于處理、生成自然語言數據,但它對于長序列數據一直無法有效捕捉全局信息(對于距離較遠的信息無法進行有效聯系)。

變壓器模型? 圖源:[14]

2017年,美國谷歌公司的研究員阿希瑟·瓦斯瓦尼(Ashish Vaswani)等人提出了變壓器模型(Transformer)[14]。該大型神經網絡分為編碼器與解碼器兩個主要部分。編碼器對輸入序列進行編碼處理,通過自注意力層等來進一步處理編碼后的信息。此后,信息傳至解碼器,并經過解碼器部分的自注意力層等網絡結構來生成輸出序列。該模型的重要創新在于自注意力層(self-attention)。自注意力層使得神經網絡模型能擺脫順序處理文本的局限性,而是直接去文本中的不同位置抓取信息并捕捉各處信息之間的依賴關系,并且并行化計算不同位置之間在語義上的相關性。變壓器模型的橫空出世對自然語言處理領域乃至整個人工智能領域產生了巨大影響。在短短的幾年里,變壓器模型已經被廣泛用在各類人工智能大模型中。

在層出不窮基于變壓器結構的大型語言模型中,OpenAI公司推出的聊天機器人ChatGPT最為出名。ChatGPT所基于的語言模型為GPT-3.5(生成式預訓練變壓器模型-3.5)。OpenAI公司在訓練該模型時用了大量的語料庫數據,使其最終具備了廣泛的語言理解能力與生成能力,包括提供信息、交流,文本創作、完成軟件代碼寫作、以及輕松勝任各類涉及語言理解相關的考試。

尾聲

幾周前,我去參加一個中學生與科研人員共進午餐的志愿者活動?;顒由?,我與幾名十五六歲的中學生聊天。很自然的我們就聊到了ChatGPT。我問他們:”你們用ChatGPT嗎?你們可以跟我說實話,我不會告訴你們的老師的。"其中一位男生靦腆的笑了笑,說他現在已經離不開ChatGPT了。

80年前,四處流浪的皮特斯只能想象著那能夠模擬大腦功能的數學模型。而在今天年輕人的世界里,神經網絡不再僅是虛幻的數學公式,而變得無時無出不在。下一個80年會發生什么?人工神經網絡中會像人類的神經網絡一樣產生意識嗎?碳基大腦會持續主宰硅基大腦嗎?還是會被硅基大腦主宰?

參考文獻:

1.Warren S. McCulloch and Walter Pitts. "A Logical Calculus of Ideas Immanent in Nervous Activity." The Bulletin of Mathematical Biophysics, vol. 5, no. 4, 1943, pp. 115-133.

2.Donald O. Hebb. "The Organization of Behavior: A Neuropsychological Theory." Wiley, 1949.

3.Frank Rosenblatt. "The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain." Psychological Review, vol. 65, no. 6, 1958, pp. 386-408.

4.Frank Rosenblatt. "Principles of Neurodynamics: Perceptrons and the theory of brain mechanisms." MIT Press, 1962.

5.Marvin Minsky and Seymour Papert. "Perceptrons: An Introduction to Computational Geometry." MIT Press, 1969.

6.Paul Werbos. "Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences.". Harvard University, 1974.

7.David E. Rumelhart, Geoffrey E. Hinton, and Ronald J. Williams. "Learning representations by back-propagating errors." Nature, vol. 323, no. 6088, 1986, pp. 533-536.

8.Kunihiko Fukushima. "Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position." Biological Cybernetics, vol. 36, no. 4, 1980, pp. 193-202.

9.Yann LeCun, Léon Bottou, Yoshua Bengio, and Patrick Haffner. "Gradient-based learning applied to document recognition." Proceedings of the IEEE, vol. 86, no. 11, 1998, pp. 2278-2324.

10.Jeffrey L. Elman. "Finding Structure in Time." Cognitive Science, vol. 14 1990, pp. 179-211.

11.Sepp Hochreiter and Jürgen Schmidhuber. "Long Short-Term Memory." Neural Computation, vol. 9, no. 8, 1997, pp. 1735-1780.

12.Dan C. Ciresan, Ueli Meier, Luca Maria Gambardella, and Jürgen Schmidhuber. "Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition." Neural Computation, vol. 22, no. 12, 2010, pp. 3207-3220.

13.Alex Krizhevsky, Ilya Sutskever, and Geoffrey E. Hinton. "ImageNet Classification with Deep Convolutional Neural Networks." Advances in Neural Information Processing Systems, 2012, pp. 1097-1105.

14.Vaswani, Ashish, et al. "Attention is All You Need." Advances in Neural Information Processing Systems, 2017, pp. 5998-6008.

本文來源:知識分子,作者:孫睿晨,原標題:《GPT的背后,從命運多舛到顛覆世界,人工神經網絡的跌宕80年》

風險提示及免責條款 市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。

關鍵詞: