<table id="ej5zp"></table>

  • 展會信息港展會大全

    可構建AI的“AI”誕生:幾分之一秒內,就能預測新網絡的參數
    來源:互聯網   發布日期:2022-02-07 10:49:34   瀏覽:18973次  

    導讀:作者:Anil Ananthaswamy 譯者:劉媛媛 原文出處:quantamagazine.org 人工智能在很大程度上是一場數字游戲。當深度神經網絡在 10 年前開始超越傳統算法,是因為我們終于有了足夠的數據和處理能力來充分利用它們。 今天的神經網絡更依賴于數據和算力。訓練網...

    作者:Anil Ananthaswamy

    譯者:劉媛媛

    原文出處:quantamagazine.org

    可構建AI的“AI”誕生:幾分之一秒內,就能預測新網絡的參數

    人工智能在很大程度上是一場數字游戲。當深度神經網絡在 10 年前開始超越傳統算法,是因為我們終于有了足夠的數據和處理能力來充分利用它們。

    今天的神經網絡更依賴于數據和算力。訓練網絡時,需要仔細調整表征網絡的數百萬甚至數十億參數值,這些參數代表人工神經元之間連接的強度。目標是為它們找到接近理想的值,這個過程稱為優化。但訓練網絡要達到這一點并不容易。倫敦 DeepMind 的研究科學家 Petar Veli kovi 說:“訓練可能需要花費幾天、幾周甚至幾個月的時間”。

    但上述這種情況可能很快就會改變。安大略省圭爾夫大學的 Boris Knyazev 和他的同事設計并訓練了一個“超網絡”一種其他神經網絡的“霸主”,該網絡可以加快訓練過程。給定一個為某些任務設計的新的、未經訓練的深度神經網絡,超網絡可以在幾分之一秒內預測新網絡的參數,理論上可以使訓練變得不必要。由于超網絡學習了深度神經網絡設計中極其復雜的模式,因此這項工作也可能具有更深層次的理論意義。這項研究題為Parameter Prediction for Unseen Deep Architectures。

    目前,超網絡在某些環境中表現的出人意料地好,但仍有增長空間。Veli kovi 說:“如果他們能解決相應問題,這將對機器學習產生很大的影響”。

    獲得“超能力”

    目前,訓練和優化深度神經網絡的最佳方法是一種稱為隨機梯度下降技術(SGD)的變體。訓練涉及在給定任務中(例如:圖像識別)最小化網絡誤差。SGD 算法通過大量標記數據來調整網絡參數,并減少誤差或損失。梯度下降是損失函數從高值向下降到某個最小值的迭代過程,它代表了足夠好的(有時甚至時最好的)參數值。

    但是這種技術只有在網絡需要優化時才有效。為了構建最初的神經網絡(一般由從輸入到輸出的多層人工神經元組成),工程師必須依靠直覺和經驗法則。這些架構在神經元層數、每層神經元數等方面可能有所不同。

    可構建AI的“AI”誕生:幾分之一秒內,就能預測新網絡的參數

    圖1 梯度下降算法用來降低網絡的“損失函數”,其中較高的值表示較大的損失。該算法試圖找到全局最小值以最小化損失。

    理論上,一個人可以從很多架構開始,然后優化每個架構并選擇最好的。但現任 Google Brain 的訪問研究員 MengYe Ren 說:“訓練需要花費相當多的時間,訓練和測試每個候選網絡架構是不可能的。它不能很好地擴展,尤其是考慮到數百萬種可能的設計。”

    所以在 2018 年,Ren 和他在多倫多大學的前同事 Chris Zhang 及他們的顧問 Raquel Urtasun 嘗試了一種不同的方法。他們設計了所謂的圖超網絡(Graph Hypernetwork: GHN),可以在給定一組候選架構的情況下,找到解決某些任務的最佳深度神經網絡架構。

    該名稱概述了他們的方法。“圖”指的是深度神經網絡的架構,可以被認為是一個數學圖由線或邊連接的點或節點的集合。這里的節點代表計算單元(通常是神經網絡的整個層),邊代表這些單元互連的方式。

    圖超網絡的工作原理是首先對于任何需要優化的架構(稱其為候選架構),它盡最大努力預測候選者的理想參數。然后將實際神經網絡的參數設置為預測值,并在給定任務上對其進行測試。Ren 的團隊表明,這種方法可用于對候選架構進行排名,并選擇表現最佳的架構。

    當 Knyazev 和他的同事看到圖超網絡的想法時,他們意識到可以在此基礎上進行構建。在他們的新論文中,該團隊展示了如何使用 GHN,不僅從一組樣本中找到最佳架構,還可以預測最佳網絡的參數,使其在絕對意義上表現良好。在還沒有達到最好的情況下,其可以使用梯度下降進一步訓練網絡。

    Ren 說:“這是一篇非常扎實的論文,它包含了更多我們所做的實驗?吹綀D超網絡在非常努力地提升絕對性能,我們大家都很高興。”

    訓練“教練”

    Knyazev 和他的團隊將他們的超網絡命名為 GHN-2,它改進了Ren及其同事構建的圖超網絡的兩個重要方面。

    首先,他們依賴 Ren 等人將神經網絡架構描繪為圖的技術。圖中的每個節點都是關于執行某種特定類型計算的神經元子集的編碼信息。圖的邊緣描繪了信息如何從一個節點到另一個節點,從輸入到輸出。

    第二,他們借鑒了訓練超網絡預測新的候選架構的方法。這需要另外兩個神經網絡。第一個啟用對原始候選圖的計算,從而更新與每個節點相關的信息,第二個將更新的節點作為輸入,并預測候選神經網絡的相應計算單元的參數。這兩個網絡也有自己的參數,必須在超網絡正確預測參數值之前對其進行優化。

    具體流程如下,首先你需要訓練數據候選人工神經網絡(Artifical Neural Network: ANN)架構的隨機樣本。對于示例中的每一個架構,先從一個圖開始,之后使用圖超神經網絡預測參數,并使用預測的參數初始化候選 ANN。使用 ANN 來執行一些特定的任務,如圖像識別。通過計算 ANN 的損失函數,來更新做出預測的超網絡參數,而不是更新 ANN 的參數做出預測。這樣可以使超網絡在每一次迭代后做的更好;然后,通過迭代標記過的訓練數據集中的每一個圖像和架構的隨機樣本中的每一個 ANN,來減少每一步的損失,直到達到最優。一般這個情況下,你就可以得到一個訓練有素的超網絡。

    因為 Ren 的團隊沒有公開源代碼,所以 Knyazev 的團隊采納了這些想法,從頭開始編寫了自己的軟件,并對其進行了改進。首先,他們確定了 15 種類型的節點,通過混合、匹配可以構建任何現代深度神經網絡。他們還在提高預測的準確性上取得了一些進步。

    最重要的是,為了確保 GHN-2 學會預測各種目標神經網絡架構的參數,Knyazev 及其同事創建了一個包含 100 萬個可能架構的獨特數據集。Knyazev 說:“為了訓練我們的模型,我們創建了盡可能多樣化的隨機架構”。

    因此,GHN-2 的預測能力更有可能被很好地推廣到看不見的目標架構。谷歌研究院大腦團隊的研究科學家 Thomas Kipf 說:“例如,它們可以解釋人們使用的所有典型的最先進的架構,這是一個重大貢獻。”

    可構建AI的“AI”誕生:幾分之一秒內,就能預測新網絡的參數

    圖2 圖神經網絡

    令人印象深刻的結果

    當然,真正的考驗是讓 GHN-2 發揮作用。一旦 Knyazev 和他的團隊訓練它預測給定任務的參數,例如,對特定數據集中的圖像進行分類,他們就測試了它為任何隨機候選架構預測參數的能力。這個新的候選者可能具有與訓練數據集中的百萬架構相似的屬性,或者可能不同有點離群值。在前一種情況下,目標架構被認為是在分發中;在后者中,它已無法分發。深度神經網絡在對后者進行預測時經常會失敗,因此在此類數據上測試 GHN-2 非常重要。

    借助經過全面訓練的 GHN-2 模型,該團隊預測了 500 個以前看不見的隨機目標網絡架構的參數。然后將這 500 個網絡(其參數設置為預測值)與使用隨機梯度下降訓練的相同網絡進行對比。盡管有些結果更加復雜,但新的超網絡通?梢缘钟鶖登Т SGD 迭代,有時甚至做得更好。

    可構建AI的“AI”誕生:幾分之一秒內,就能預測新網絡的參數

    圖3 安大略省圭爾夫大學的 Boris Knyazev ,幫助建立了一個超網絡,旨在預測未經訓練的神經網絡的參數。

    對于圖像數據集 CIFAR-10 ,GHN-2 在分布式架構上的平均準確率為 66.9%,而使用接近 2,500 次 SGD 迭代訓練的網絡,所達到的平均準確率為 69.2%。對于非分布式架構,GHN-2 的表現出人意料地好,達到了大約 60% 的準確率。特別是,它對一種特定知名深度神經網絡架構 ResNet-50 實現了 58.6% 的可觀準確率。Knyazev 在該領域的旗艦會議 NeurIPS 2021 上說:“鑒于 ResNet-50 比我們的平均訓練架構大大約 20 倍,所以 ResNet-50 的泛化效果出奇地好,”。

    GHN-2 在 ImageNet 上表現不佳,ImageNet 是一個相當大的數據集。平均而言,它的準確率只有 27.2% 左右。盡管如此,這與使用 5,000 步 SGD 訓練的相同網絡的 25.6% 的平均準確度相比也是有利的。 (當然,如果你繼續使用 SGD,你最終可以以相當大的成本獲得 95% 的準確率。)最關鍵的是,GHN-2 在不到一秒的時間內做出了 ImageNet 預測,而使用 SGD 在圖形處理單元上預測參數,來獲得相同的性能,平均花費時間比 GHN-2 要長 10,000 倍。

    Veli kovi 說:“結果絕對令人印象深刻,他們基本上大大降低了能源成本。”

    當 GHN-2 從架構樣本中為一項任務找到最佳神經網絡,而該最佳選擇還不夠好時,至少模型已經得到了部分訓練并且可以進一步優化。與其在使用隨機參數初始化的網絡上釋放 SGD,不如使用 GHN-2 的預測作為起點。Knyazev 說:“基本上我們模仿的是預訓練”。

    超越 GHN-2

    盡管取得了這些成功,Knyazev 認為機器學習社區一開始會抵制使用圖超網絡。他將其比作 2012 年之前深度神經網絡面臨的阻力。當時,機器學習從業者更喜歡手工設計的算法,而不是神秘的深度網絡。但是,當對大量數據進行訓練的大型深度網絡開始超越傳統算法時,這種情況發生了變化。Knyazev :“這可以走同樣的路。”

    與此同時,Knyazev 看到了很多改進的機會。例如,GHN-2 只能被訓練來預測參數以解決給定的任務,例如對 CIFAR-10 或 ImageNet 圖像進行分類,但不能同時進行。在未來,他設想在更多樣化的架構和不同類型的任務(例如圖像識別、語音識別自然語言處理)上訓練圖超網絡。然后根據目標架構和手頭的特定任務來進行預測。

    如果這些超網絡真的成功,新的深度神經網絡的設計和開發,將不再局限于財力雄厚和能夠訪問大數據的公司。任何人都可以參與其中。Knyazev 非常清楚這種“使深度學習民主化”的潛力,稱其為長期愿景。

    然而,如果像 GHN-2 這樣的超網絡真的成為優化神經網絡的標準方法,Veli kovi 強調了一個潛在的大問題。他說:“你有一個神經網絡本質上是一個黑盒子,再使用圖超網絡去預測另一個神經網絡的參數。當它出錯時,你無法解釋[它]。”

    當然,在很大程度上這已經是神經網絡的特點了。Veli kovi 說:“我不會稱之為弱點,而稱之為警告信號。”

    然而,Kipf 看到了一線希望。“一些其他的事物讓我對此感到最興奮,即 GHN-2 展示了圖神經網絡在復雜數據中尋找模式的能力。”

    通常,深度神經網絡會在圖像、文本或音頻信號中找到模式,這些是相當結構化的信息類型。而 GHN-2 在完全隨機的神經網絡架構圖中找到模式。這是非常復雜的數據。

    然而,GHN-2 可以泛化這意味著它可以對看不見的、甚至分布式網絡架構以外的參數做出合理的預測。Kipf 說:“這項工作向我們展示了許多模式在不同的架構中以某種方式相似,并且模型可以學習如何將知識從一種架構轉移到不同的架構,這可能會激發一些神經網絡的新理論。”

    如果是這樣的話,它可能會讓我們對這些黑匣子產生新的、更深入的理解。

    點這里關注我記得標星~

    贊助本站

    人工智能實驗室
    AiLab云推薦
    展開
    Copyright © 2010-2022 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯系我們 | 廣告服務 | 公司動態 | 免責聲明 | 隱私條款 | 工作機會 | 展會港
    18禁无遮拦无码国产在线播放

    <table id="ej5zp"></table>