四虎综合网,老子影院午夜伦不卡国语,色花影院,五月婷婷丁香六月,成人激情视频网,动漫av网站免费观看,国产午夜亚洲精品一级在线

每日經(jīng)濟(jì)新聞

要聞

每經(jīng)網(wǎng)首頁 > 要聞 > 正文

不只是統(tǒng)計(jì)機(jī)器！MIT研究人員重磅論文引圍觀：大型語言模型是“世界模型”，甚至有獨(dú)立的“時(shí)間和空間神經(jīng)元”

每日經(jīng)濟(jì)新聞 2023-10-06 23:06:38

◎ MIT研究人員發(fā)現(xiàn)，大語言模型內(nèi)部有一個(gè)世界模型。

每經(jīng)記者蔡鼎每經(jīng)編輯蘭素英

近年來，大型語言模型（下稱LLMs）的能力不斷提高，引發(fā)了各界關(guān)于它們是否只是學(xué)習(xí)了表面的統(tǒng)計(jì)規(guī)律，還是形成了包含數(shù)據(jù)生成過程的內(nèi)在模型（即世界模型）的爭(zhēng)論。近日，來自麻省理工（下稱MIT）的研究人員公布了他們的研究，就此給出了答案。

MIT研究人員Wes Gurnee和Max Tegmark于10月3日提交在預(yù)印本arXiv上的論文稱，他們通過分析三個(gè)空間數(shù)據(jù)集（世界、美國、紐約市的地點(diǎn)）和三個(gè)時(shí)間數(shù)據(jù)集（歷史人物、藝術(shù)作品、新聞標(biāo)題）在Llama-2系列模型中的學(xué)習(xí)表征，發(fā)現(xiàn)了世界模型的證據(jù)。

研究人員發(fā)現(xiàn)，LLMs學(xué)習(xí)了空間和時(shí)間的線性表征，并且這些表征在不同的尺度和實(shí)體類型（如城市和地標(biāo)）之間是統(tǒng)一的。此外，作者還識(shí)別出了單個(gè)的“空間神經(jīng)元”和“時(shí)間神經(jīng)元”，它們可靠地編碼了空間和時(shí)間坐標(biāo)。論文稱，現(xiàn)代LLMs獲取了關(guān)于空間和時(shí)間這些基本維度的結(jié)構(gòu)化知識(shí)，證明LLMs學(xué)習(xí)的不僅僅是表面統(tǒng)計(jì)規(guī)律，而是真正的世界模型。

LLMs中存在“時(shí)間和空間神經(jīng)元”

在空間和時(shí)間數(shù)據(jù)集層面，研究人員在實(shí)驗(yàn)中構(gòu)建了六個(gè)數(shù)據(jù)集，包含有對(duì)應(yīng)空間或時(shí)間坐標(biāo)的地點(diǎn)或事件的名稱，分別涵蓋了不同的空間或時(shí)間尺度，包括全球范圍內(nèi)的地點(diǎn)、美國國內(nèi)的地點(diǎn)，以及紐約市范圍內(nèi)的地點(diǎn)；過去3000年內(nèi)去世的歷史人物；1950年以來發(fā)布的歌曲、電影和書籍；以及2010年至2020年發(fā)布的新聞標(biāo)題。

圖片來源：arXiv網(wǎng)站論文

對(duì)于每個(gè)數(shù)據(jù)集，研究人員納入了多種類型的實(shí)體，例如城市等人口密集場(chǎng)所和湖泊等自然地標(biāo)，以研究不同對(duì)象類型的統(tǒng)一表征情況。此外，研究人員還維護(hù)并豐富了相關(guān)的元數(shù)據(jù)，以便通過更詳細(xì)的分類分析數(shù)據(jù)。

研究人員使用標(biāo)準(zhǔn)的探測(cè)技術(shù)，即在LLMs的內(nèi)部激活上擬合一個(gè)簡(jiǎn)單的模型來預(yù)測(cè)與輸入數(shù)據(jù)相關(guān)聯(lián)的目標(biāo)標(biāo)簽。具體來說，給定一個(gè)激活數(shù)據(jù)集A和一個(gè)目標(biāo)Y，包含時(shí)間或二維經(jīng)緯度坐標(biāo)，作者擬合線性回歸探測(cè)器得到一個(gè)線性預(yù)測(cè)器。在未提示過的數(shù)據(jù)上強(qiáng)大的預(yù)測(cè)性表明，LLMs中有可被線性解碼出來的空間和時(shí)間信息。

作者首先探測(cè)了Llama-2-{7B, 13B, 70B}每一層對(duì)每個(gè)空間和時(shí)間數(shù)據(jù)集的預(yù)測(cè)性能。結(jié)果顯示，在所有數(shù)據(jù)集上，空間和時(shí)間特征都可以被線性探測(cè)器恢復(fù)，而且這些表達(dá)隨著模型規(guī)模增大而變得更準(zhǔn)確，并且在達(dá)到穩(wěn)定狀態(tài)之前，模型前半層的表達(dá)質(zhì)量會(huì)平穩(wěn)提高。例如，他們發(fā)現(xiàn)，Llama-2-70B竟然能夠描繪出真實(shí)世界的文字地圖。

總結(jié)來說，MIT研究人員的研究顯示：LLMs不僅僅是隨機(jī)的模型——Llama-2已經(jīng)是包含世界的詳細(xì)模型，甚至包含獨(dú)立的“時(shí)間神經(jīng)元”和“空間神經(jīng)元”！

論文作者之一、MIT研究大模型優(yōu)化的博士生Wes Gurnee的論文一經(jīng)arXiv和推特（現(xiàn)X）發(fā)布，便引發(fā)廣泛關(guān)注。其推文概述了論文的內(nèi)容，截至發(fā)稿，已經(jīng)有近300萬次閱讀。

LLMs學(xué)習(xí)的空間和時(shí)間線性表征在不同實(shí)體類型間是統(tǒng)一的

此外，作者還研究了Llama-2的這些空間或時(shí)間表征是否對(duì)提示詞敏感，即是否可以通過上下文來引發(fā)或抑制這些事實(shí)回憶。直覺上，對(duì)于任何實(shí)體詞，自回歸模型都有動(dòng)機(jī)產(chǎn)生一個(gè)適合應(yīng)對(duì)任何未來可能的上下文或問題的表達(dá)。

為了研究這一點(diǎn)，研究人員創(chuàng)建了新的激活數(shù)據(jù)集，其中在每個(gè)實(shí)體詞前加上不同的提示。在所有情況下，作者都包括了一個(gè)“空”提示，只包含實(shí)體詞（和一個(gè)序列開始符號(hào)）。然后，作者包括了一個(gè)詢問模型回憶相關(guān)事實(shí)的提示，例如“<地點(diǎn)>的經(jīng)緯度是多少”或“<作者>的<書籍>發(fā)布于何時(shí)”。對(duì)于美國和紐約市數(shù)據(jù)集，作者還包括了詢問這個(gè)地點(diǎn)在美國或紐約市哪里的提示，試圖消除一些地點(diǎn)名稱的歧義（例如City Hall）。

作為基準(zhǔn)的模型，作者囊括了10個(gè)隨機(jī)提示詞作為提示。為了確定是否可以模糊主題，對(duì)于一些數(shù)據(jù)集，作者將所有實(shí)體名稱全部大寫。最后，對(duì)于標(biāo)題數(shù)據(jù)集，作者嘗試在最后一個(gè)詞和在標(biāo)題后面加上句號(hào)兩種情況下進(jìn)行測(cè)試。研究人員發(fā)現(xiàn)，顯式地提示模型信息，或者給出消除歧義的提示，對(duì)Llama-2的輸出結(jié)果幾乎沒有影響。然而，作者驚訝地發(fā)現(xiàn)隨機(jī)干擾詞和將實(shí)體大寫會(huì)降低其輸出內(nèi)容的質(zhì)量。唯一明顯改善性能的修改是在標(biāo)題后面加上句號(hào)進(jìn)行探測(cè)，這表明句號(hào)被用來包含句子結(jié)束。

圖片來源：arXiv

Wes Gurnee和Max Tegmark在論文的“討論”章節(jié)指出，他們提供的證據(jù)表明，LLMs學(xué)習(xí)的空間和時(shí)間線性表征在不同實(shí)體類型之間是統(tǒng)一的，并且對(duì)提示詞具有相當(dāng)敏感的反應(yīng)，而且存在對(duì)這些特征高度敏感的單個(gè)神經(jīng)元。由此推論，在模型和數(shù)據(jù)量足夠大的情況下，LLMs僅靠下一個(gè)標(biāo)記的預(yù)測(cè)就足以學(xué)習(xí)世界的文字地圖。

“我們的分析為今后的工作提出了許多有趣的問題。雖然我們表明可以線性地重建樣本在空間或時(shí)間中的絕對(duì)位置，而且一些神經(jīng)元使用了這些探測(cè)方向，但空間和時(shí)間表征的真正范圍和結(jié)構(gòu)仍不清楚。特別是，我們推測(cè)這種結(jié)構(gòu)的最典型形式是離散化的分層網(wǎng)狀結(jié)構(gòu)，其中任何樣本都被表示為其最近基點(diǎn)的線性組合。此外，LLMs可以也確實(shí)在使用這種坐標(biāo)系，以線性探針（linear probe）的方式使用正確的基點(diǎn)方向線性組合來表示絕對(duì)位置。我們預(yù)計(jì)，隨著LLMs規(guī)模的擴(kuò)大，這一坐標(biāo)系將通過更多的基點(diǎn)、更多的粒度以及更精確的實(shí)體到模型坐標(biāo)的映射而得到增強(qiáng)。”研究人員寫道。

Wes Gurnee和Max Tegmark的論文標(biāo)題圖片來源：arXiv

作者還指出，在他們的分析以及更廣泛的研究中，另一個(gè)干擾因素是他們的數(shù)據(jù)集中存在許多模型本身并不知道的“實(shí)體”，從而“污染”了他們的激活數(shù)據(jù)集。

“我們對(duì)這些了解空間和時(shí)間維度的世界模型是如何學(xué)習(xí)或使用的理解也僅僅觸及了其表面。在初步的實(shí)驗(yàn)中，我們發(fā)現(xiàn)我們的模型在不依賴多步推理的情況下難以回答基本的時(shí)空關(guān)系問題，這使得因果干預(yù)分析變得復(fù)雜，但我們認(rèn)為這是理解何時(shí)以及如何使用這些特征的關(guān)鍵步驟。”論文作者補(bǔ)充道。

封面圖片來源：視覺中國-VCG111421248465

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

美國大模型

上一篇文章

2023法定節(jié)假日已用盡中秋+國慶國內(nèi)超8億人次出游，“3C游”出圈

返回每經(jīng)網(wǎng)首頁

下一篇文章

美股短線沖高，三大指數(shù)集體轉(zhuǎn)漲

相關(guān)文章

熱文精選

點(diǎn)擊排行

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

關(guān)注我們
辟謠專區(qū)

加入我們
招聘專頁

Copyright ? 2024 每日經(jīng)濟(jì)新聞報(bào)社版權(quán)所有，未經(jīng)許可不得轉(zhuǎn)載使用，違者必究。

廣告熱線? 北京: 010-57613265，?上海: 021-61283008，?廣州: 020-84201861，?深圳: 0755-83520159，?成都: 028-86512112

網(wǎng)絡(luò)社會(huì)征信網(wǎng)

兒童色情信息舉報(bào)專區(qū)

成都市互聯(lián)網(wǎng)不良與違法信息舉報(bào)中心

四川省互聯(lián)網(wǎng)舉報(bào)中心

中國互聯(lián)網(wǎng)舉報(bào)中心

每日經(jīng)濟(jì)新聞互聯(lián)網(wǎng)不良與違法信息舉報(bào)中心

互聯(lián)網(wǎng)新聞信息服務(wù)許可證：51120190017 網(wǎng)站備案號(hào)：蜀ICP備19004508號(hào)-3 川公網(wǎng)安備 51019002002026號(hào)

新聞職業(yè)道德監(jiān)督熱線：400 889 0008 郵箱：zbb@nbd.com.cn

<cite id="gyawq"></cite>