OpenAI發(fā)布炸裂研究：讓AI解釋AI黑箱，人類無(wú)法理解，語(yǔ)言無(wú)法描述

作者：Founder Park 來(lái)源：極客公園 173305/10

就算在新產(chǎn)品滿天飛，商業(yè)文明正在被 AI 重建的當(dāng)下，我們?nèi)匀徊恢?，這些令人驚嘆的技術(shù)是如何運(yùn)作的。AI，語(yǔ)言模型，它是個(gè)黑箱（black box），人類無(wú)法理解，我們甚至不知道怎樣研究才能夠理解。但如果，研究這個(gè)黑箱的不是人類，而是 A

標(biāo)簽： AI 機(jī)器 GPT-4

就算在新產(chǎn)品滿天飛，商業(yè)文明正在被 AI 重建的當(dāng)下，我們?nèi)匀徊恢溃@些令人驚嘆的技術(shù)是如何運(yùn)作的。

AI，語(yǔ)言模型，它是個(gè)黑箱（black box），人類無(wú)法理解，我們甚至不知道怎樣研究才能夠理解。

但如果，研究這個(gè)黑箱的不是人類，而是 AI 自己呢？

這是一個(gè)令人好奇但又非常危險(xiǎn)的想法。因?yàn)槟闵踔敛恢?，這一研究方法產(chǎn)生的結(jié)果，是否會(huì)徹底顛覆多年來(lái)人類對(duì)人腦和 AI 的理解。

但是有人這樣做了。幾小時(shí)前，OpenAI 發(fā)布了最新的研究成果，他們用 GPT-4 解釋 GPT-2 的行為，獲得了初步的成果。

毫不夸張地說，人們震驚極了：「求求你們讓它離覺醒遠(yuǎn)點(diǎn)吧！」

「AI 理解 AI，然后很快，AI 訓(xùn)練 AI，然后再過幾年，AI 創(chuàng)造新的 AI。」

但客觀來(lái)說，學(xué)術(shù)界為之感到興奮：「瘋了，OpenAI 剛剛搞定了可解釋性問題?！?/p>

人與機(jī)器之間是 GPT-4

OpenAI 剛剛在官網(wǎng)發(fā)布博客文章《語(yǔ)言模型可以解釋語(yǔ)言模型中的神經(jīng)元》（Language models can explain neurons in language models）。

簡(jiǎn)單來(lái)說，他們開發(fā)了一個(gè)工具，調(diào)用 GPT-4 來(lái)計(jì)算出其他架構(gòu)更簡(jiǎn)單的語(yǔ)言模型上神經(jīng)元的行為，這次針對(duì)的是 GPT-2，發(fā)布于 4 年前的開源大模型。

大模型（LLM）和人腦一樣，由「神經(jīng)元」（neurons）組成，這些神經(jīng)元會(huì)觀察文本中的特定規(guī)律，進(jìn)而影響到模型本身生產(chǎn)的文本。

舉例來(lái)說，如果有一個(gè)針對(duì)「漫威超級(jí)英雄」的神經(jīng)元，當(dāng)用戶向模型提問「哪個(gè)超級(jí)英雄的能力最強(qiáng)」時(shí)，這個(gè)神經(jīng)元就會(huì)提高模型在回答中說出漫威英雄的概率。

OpenAI 開發(fā)的工具利用這種規(guī)則制定了一套評(píng)估流程。

開始之前，先讓 GPT-2 運(yùn)行文本序列，等待某個(gè)特定神經(jīng)元被頻繁「激活」的情況。

然后有三個(gè)評(píng)估步驟：

*步，讓 GPT-4 針對(duì)這段文本，生成解釋。比如在下面的案例中，神經(jīng)元主要針對(duì)漫威內(nèi)容。GPT-4 接收到文本和激活情況后，判斷這與電影、角色和娛樂有關(guān)。

第二步，用 GPT-4 模擬這個(gè) GPT-2 的神經(jīng)元接下來(lái)會(huì)做什么。下圖就是 GPT-4 生成的模擬內(nèi)容。

最后一步，對(duì)比評(píng)估打分。對(duì)比 4 代模擬神經(jīng)元和 2 代真實(shí)神經(jīng)元的結(jié)果，看 GPT-4 猜的有多準(zhǔn)。

通過這樣的方法，OpenAI 對(duì)每個(gè)神經(jīng)元的行為作出了初步的自然語(yǔ)言解釋，并對(duì)這種解釋和實(shí)際行為的匹配程度進(jìn)行了評(píng)分。

最終他們對(duì) GPT-2 中 307200 個(gè)神經(jīng)元全部進(jìn)行了解釋，這些解釋匯編成數(shù)據(jù)集，與工具代碼一起在 GitHub 上發(fā)布。

超越語(yǔ)言的機(jī)器

人類無(wú)法理解的機(jī)器

據(jù) OpenAI 在博客文章中表示，目前 GPT-4 生成的解釋還不*，尤其要解釋比 GPT-2 更大的模型時(shí)，表現(xiàn)效果很差，「可能是因?yàn)楹竺娴?layer 更難解釋」。

對(duì)于 GPT-2 解釋的評(píng)分大多也非常低，僅有 1000 個(gè)左右的解釋獲得了較高的評(píng)分（0.8 以上）。

OpenAI 可拓展對(duì)齊團(tuán)隊(duì)的 Jeff Wu 表示，「大多數(shù)解釋的得分很低，或者無(wú)法解釋實(shí)際神經(jīng)元那么多的行為。比如，許多神經(jīng)元以一種難以判斷的方式保持活躍，它們?cè)谖辶律媳３旨せ?，但卻沒有可以辨別的模式。有時(shí)候存在明顯的模式，但 GPT-4 有無(wú)法找到它。」

雖然現(xiàn)階段成績(jī)不好，但是 OpenAI 卻比較有信心，他們認(rèn)為可以使用機(jī)器學(xué)習(xí)的方式提高 GPT-4 產(chǎn)出解釋的能力。

比如通過反復(fù)產(chǎn)出解釋，并根據(jù)激活情況修改解釋；或者使用更大的模型作出解釋；以及調(diào)整解釋模型的結(jié)構(gòu)等等。

OpenAI 還提到，這一方法目前還有很多局限性。

使用簡(jiǎn)短的自然語(yǔ)言進(jìn)行解釋，也許并不匹配神經(jīng)元可能非常復(fù)雜的行為，不能簡(jiǎn)潔地進(jìn)行描述。神經(jīng)元可能會(huì)具備多個(gè)不同概念，也可能，會(huì)具備一個(gè)人類沒有語(yǔ)言描述甚至無(wú)法理解的概念。

最終 OpenAI 希望能夠自動(dòng)化找到并解釋能夠?qū)崿F(xiàn)復(fù)雜行為的整個(gè)神經(jīng)回路，而目前的方法只解釋了神經(jīng)元的行為，并沒有涉及下游影響。

解釋了神經(jīng)元的行為，但沒有解釋產(chǎn)生這種行為的機(jī)制。這意味著即使是拿了高分的解釋，也只能描述相關(guān)性。

整個(gè)過程是計(jì)算密集型的。

在論文中，OpenAI 表示：「語(yǔ)言模型可能代表了人類無(wú)法用語(yǔ)言表達(dá)的陌生概念。這可能是因?yàn)檎Z(yǔ)言模型關(guān)心不同的事情，比如統(tǒng)計(jì)結(jié)構(gòu)對(duì)下一個(gè)token預(yù)測(cè)任務(wù)有用，或者因?yàn)槟Ｐ鸵呀?jīng)發(fā)現(xiàn)了人類尚未發(fā)現(xiàn)的自然的抽象，例如在不同領(lǐng)域的類似概念家族?！?/p>

它把 LLM 的這種屬性，稱為 Alien Feature，在生物領(lǐng)域翻譯為「異類特征」。

Founder Park 微信后臺(tái)回復(fù)「解釋神經(jīng)元論文」，獲取論文鏈接和中英對(duì)照 PDF 鏈接（機(jī)翻）。

把對(duì)齊問題也交給 AI

「我們正試圖開發(fā)預(yù)測(cè)『AI 系統(tǒng)會(huì)出現(xiàn)什么問題』的方法，」OpenAI 可解釋性團(tuán)隊(duì)負(fù)責(zé)人 William Saunders 對(duì)媒體說，「我們希望能夠真正做到，讓這些模型的行為和生產(chǎn)的回答是可以被信任的。」

Sam Altman 也轉(zhuǎn)發(fā)博客文章稱：GPT-4 對(duì) GPT-2 做了一些可解釋性工作。

可解釋性（interpretability）是機(jī)器學(xué)習(xí)的研究子領(lǐng)域，指的是對(duì)模型的行為有清晰的理解和對(duì)模型結(jié)果的理解能力。

簡(jiǎn)單來(lái)說，目的就是解釋機(jī)器學(xué)習(xí)模型「如何做到」（how）。

2019 年開始，可解釋性成為機(jī)器學(xué)習(xí)的重要領(lǐng)域，相關(guān)研究有助于開發(fā)人員對(duì)模型進(jìn)行優(yōu)化和調(diào)整。針對(duì)當(dāng)下 AI 模型大規(guī)模應(yīng)用時(shí)，亟需解決的可信度（trust）、安全性（safety）和決策參考（decision making）等問題。

如果我們不知道 AI 是如何作出決策的，始終把它當(dāng)做一個(gè)黑箱，那么就算 AI 在各種場(chǎng)景下表現(xiàn)得再*，也無(wú)法解決部分人類的信任問題。

OpenAI 這次使用 GPT-4 來(lái)解決可解釋性的問題，就是希望能夠使用自動(dòng)化的方式，讓機(jī)器完成 AI 研究。

「這是我們對(duì)齊研究的第三支柱的一部分：我們希望自動(dòng)化對(duì)齊研究。令人期待的是，這一方向能讓它（對(duì)齊）與 AI 發(fā)展的步伐相匹配。」

在 2022 年夏天，OpenAI 曾發(fā)布文章《我們做對(duì)齊研究的方法》（Our approach to alignment research）。

文中提到，宏觀來(lái)看，OpenAI 的對(duì)齊研究將由三大支柱支撐：

1、利用人工反饋訓(xùn)練 AI

2、訓(xùn)練 AI 系統(tǒng)協(xié)助人類評(píng)估

3、訓(xùn)練 AI 系統(tǒng)進(jìn)行對(duì)齊研究

「語(yǔ)言模型非常適合自動(dòng)化對(duì)齊研究，因?yàn)樗鼈兺ㄟ^閱讀互聯(lián)網(wǎng)『預(yù)裝』了大量有關(guān)人類價(jià)值觀的知識(shí)和信息。開箱即用，它們不是獨(dú)立代理，因此不會(huì)在世界上追求自己的目標(biāo)。」

太快了

連認(rèn)知都范式革命了

雖然 OpenAI 本意很好，但是這樣的研究成果著實(shí)嚇壞了網(wǎng)友。

OpenAI 的推文下梗圖橫飛，有不少人在認(rèn)真地建議 OpenAI 搞慢點(diǎn)。

「用我們不理解的東西，解釋另一個(gè)我們不理解的東西，這合理嗎？」

「護(hù)欄都被你撤了」

「這太迷人了，但也讓我感到極度不適?！?/p>

「自然創(chuàng)造了人類來(lái)理解自然。我們創(chuàng)造了 GPT-4 來(lái)理解自己?！?/p>

「我們要怎么判斷解釋者是好的？這就像... 誰(shuí)監(jiān)督著監(jiān)督者？」（who watches the watchers)

還有人看到了更深的一層：

「大模型很快就能比人類更好地解釋他們自己的思維過程，我想知道我們未來(lái)要?jiǎng)?chuàng)造多少新的詞匯，來(lái)描述那些 AI 發(fā)現(xiàn)的概念（概念本身也不準(zhǔn)確）？我們還沒有一個(gè)合適的詞描述它們。或者，我們是否會(huì)覺得這些概念有意義？它們又能教會(huì)我們?nèi)绾握J(rèn)識(shí)自己呢？」

另一網(wǎng)友回應(yīng)道：「人類本身對(duì)自己行為的解釋，大多是謊言、捏造、幻覺、錯(cuò)誤的記憶、事后推理，就像 AI 一樣?！?/p>

免責(zé)聲明：本網(wǎng)轉(zhuǎn)載合作媒體、機(jī)構(gòu)或其他網(wǎng)站的公開信息，并不意味著贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性，信息僅供參考，不作為交易和服務(wù)的根據(jù)。轉(zhuǎn)載文章版權(quán)歸原作者所有，如有侵權(quán)或其它問題請(qǐng)及時(shí)告之，本網(wǎng)將及時(shí)修改或刪除。凡以任何方式登錄本網(wǎng)站或直接、間接使用本網(wǎng)站資料者，視為自愿接受本網(wǎng)站聲明的約束。聯(lián)系電話 010-57193596，謝謝。

首頁(yè)

資訊

財(cái)中號(hào)

品牌

專題

投資學(xué)院

發(fā)布文章

APP下載

熱點(diǎn)

國(guó)資

產(chǎn)業(yè)

券商

基金

金融

上市公司

財(cái)富

專題

OpenAI發(fā)布炸裂研究：讓AI解釋AI黑箱，人類無(wú)法理解，語(yǔ)言無(wú)法描述

2023年中國(guó)經(jīng)濟(jì)面臨巨大挑戰(zhàn)，只有知道如何破局，才能縱橫股市

首頁(yè)

資訊

財(cái)中號(hào)

品牌

專題

投資學(xué)院

發(fā)布文章

APP下載

OpenAI發(fā)布炸裂研究：讓AI解釋AI黑箱，人類無(wú)法理解，語(yǔ)言無(wú)法描述

您可能感興趣的文章

OpenAI發(fā)布炸裂研究：讓AI解釋AI黑箱，人類無(wú)法理解，語(yǔ)言無(wú)法描述