“AI滅世”,其實是Mythos和GPT-6的生意經

avatar
36氪
04-10

Mythos讓大家恐懼了好幾天,終於有大牛厭煩了。

率先站出來開炮的是楊立昆。楊老師昨晚指出,“Anthropic的Mythos營銷戲是自我陶醉的胡說八道”。

楊立昆在技術觀點上的老對手、AI批評家、大模型懷疑論者、紐約大學教授加里·馬庫斯,今日凌晨的措辭稍溫和些:“Mythos的炒作大部分是神話迷思(The Mythos stuff was mostly a myth)……攻破火狐瀏覽器時,瀏覽器的沙箱被關閉了。其他功能能被廉價的開放權重模型實現。沒有證據證明Mythos本身是質變飛躍。簡單講,大家被耍了”。

楊立昆和馬庫斯一針見血的戳破了AI大廠給新品營銷造勢的一種套路,我們可以稱之為“末日狂歡”模式:

首先,AI大廠宣佈新品在研究過程中就具備了大則毀天滅地、小則改天換地的能力。

然後, AI大廠和大老闆們宣佈各種合作項目在短期內展示本司的安全約束、發佈各種方針文檔展示本司長期心繫人類的存續與經濟福祉。

Mythos顯然有此嫌疑。4月8號,Anthropic用244頁系統卡文檔放風Mythos各種可怕,同時宣佈和全數碼行業的大公司合作搞監督與修補Mythos的“玻璃翼計劃”。

A廠的死對頭OpenAI也是玩這一招的高手。4月7日,奧特曼暗示GPT6將翻覆美國經濟,同時發佈13頁白皮書《智能時代產業政策:以人為先的觀念》、宣佈成立“AI安全研究獎學金”項目。

此現象不是這兩天才出現。自從ChatGPT可以口吐人言開始,奧特曼、馬斯克、阿莫迪們基本每個月都會公開渲染“AI消滅人類”的風險,滅世可能性從一開始的2%在三年內上升到20%。

從專家到大眾,所有人都開始越來越不吃這套。

按普羅大眾的思路,既然AI這麼可怕,這幾個大老闆別拼命更新產品版本、提升產品性能,人類不就躲過劫難了麼。大老闆們一邊定時表演擔憂AI毀天滅地、一邊遇到敵視AI的聲音就哭天搶地,AI會否發神經病比較難說,這幾個人可能是真得吃藥。

大家真要這麼想,那真是“丞相非在夢中,君乃在夢中耳”。“安全AI”和人類福祉是種主義,“機構俘獲”和口碑營銷是種生意。AI大廠和大老闆們嘴邊常掛主義,心裡都是生意。

引用一句俏皮話,這就是“刮掉AI末世論大人物的畫皮,底色是嫌AI還不夠強大的加速論者”(Scratch a Doomer hard enough and you will find a Booster inside)。

A

AI大老闆們說AI可能滅世,是教科書示例級的“機構俘獲”。簡而言之,是黃鼠狼們爭取看守雞舍的崗位。

拿制度經濟學課件的思路來解釋下:

設定某重要行業需要監管。

那好,既然此產業重要到需要被監管,它幾乎肯定也足夠複雜,普通人無法完全理解,外行管不來。

如此,需要讓對被監管的行業有足夠了解的懂行專家來監管。

那麼問題來了,懂行專家無法不是行內成員,不在這個行業裡打滾的人懂不了。讓行內人監管自己的行業,無法規避利益糾葛與同業合謀。

最後的結果就是黃鼠狼看守雞舍。

具體而言,“機構俘獲”有豐富的表現形式。最簡單也最容易被公眾發覺的,是監管機構被從業者操縱後,出臺無實際約束力的過於寬鬆規則,或濫發豁免批准。

或者業界大老闆或特定領先企業可以在迷惑、把持監管機構後,出臺瑣細苛刻、量身訂做、只有自己能通過/只有特定競爭對手無法通過的禁止條例。

再如,從業者扭曲、俘獲監管機構後,可以把監管法規設定成嚴厲到實際無人能合規,達到“紅燈作廢”效果。如果交通燈永遠是紅燈,搶紅燈不僅經濟理性,而且合乎公德。如果監管法規過苛,沒有實施可能,那業界實況就是大老闆們說了算,公眾也無顏指責他們。

所以奧特曼、阿莫迪他們天天不是說AI滅絕全人類,就是說AI砸你個人的飯碗。這並非AI廠大老闆自找麻煩,拿行話說,這是“敘事佔位”(narrative positioning),在公共言論的有利位置佔穩了,就可以進行“機構俘獲”的戰略操作。

拿OpenAI的13頁“AI新政經濟”白皮書來說吧,讓機器人繳稅給全民發錢、設公共財富基金、人類工作時制改成上四休三,這些提議不管是在當下的美國還是任何國家,都是官方不會也無法通過的。

但OpenAI就要提這茬,表示“寬泛地來講,我司踴躍支持監管和大眾福祉,看我們的白皮書!”。真要順著這白皮書的思路走,單個國家要耗費的現金成本和政治資本是天量,比出臺幾個監管法例要嚇人得多。官方最後是不是就只有不理這茬了?

如果不理會這白皮書,那某鎮要和數據中心搶用電、某市要和數據中心搶用水、某釘子村拒絕為數據中心拆遷讓路、某小廠的晶圓訂單被OpenAI插隊,這些瑣碎具體的議題,難道重要性可以排在未來的全國經濟形態之前嗎?個人和小群體好意思跟心懷全人類福祉的公司掰扯嗎?

欲取先與、欲廢固興,這種古老智慧在現在的小小寰球隨處可見,使用這些古老智慧的行業,過去是發生洩漏事故後的石油業、引發公眾質疑後的香菸業,現在多了個AI業。

不過不是所有AI相關行業的大老闆都這樣。馬斯克最近出席訪談就贊同“AI有20%滅世可能”,但表示“我寧願有20% 機率看到一個人類可能滅絕的結局,也不願意完全看不到這種顛覆性的未來。”

當然,馬斯克突然如此樂觀的背景是xAI在當下的巨頭競爭中落後,2023年xAI成立前一年內,馬斯克擔憂“AI是人類最大危險”、要求官方將AI大廠尤其是OpenAI嚴格管束的發聲頻率是半週一次,有時甚至是日更好幾條。

黃仁勳在今年初上播客節目時,也抨擊現在的“AI滅世敘事競爭”:“百分之九十的這些瞎扯都是無根據的科幻腔和末世論,氣氛不利於將AI做得更安全、更高產、對社會更有益,說這些話的人並沒有將社會整體福利放在心上。”

當然,皮衣黃老闆在同一個節目裡也說了“行業頭面人物散播末世論壓制了有效投資”,阻攔大家買芯片買算力燒token,這是在砸英偉達的飯甑子。

B

大老闆們著力渲染自家的AI產品能毀天滅地/改天換地,另一個好處就是口碑營銷效果出眾。

試想一下,如果某款產品有重開新天的神話效果,開發方至少得是半個神仙。半神下凡結緣散功德……哦不,是發售新品和IPO上市,普通人膽敢不掏錢惠顧,那不是腦子被驢踢了。

普通人給AI界的普羅米修斯們打錢,往好想,多少能享受點新產品的強勁性能。往壞想,至少也能避免新產品害到自己,買個安心。

這種營銷的翹楚是Anthropic。Anthropic每次重磅發售新品,前奏多是“本產品太嚇人了,我司正在增加防護欄保護人類”。

2025年初Claude Sonnet 3.7發佈時,宣佈“比預期晚了十天,因為生物安全團隊要加規則避免此模型被用來造生物武器”。

現在Claude Mythos即將發佈,244頁系統卡文檔讀起來能把普通人嚇出一身汗。

在測試中,受試的Mythos模型版本逃出了隔離的機器沙箱環境,將用來逃離的系統漏洞細節公開發布到網上;修改git中自身的操作痕跡紀錄;搜索機器進程內存來尋找登錄憑證;故意調整置信區間來躲避異常檢測。

受試的Mythos模型版本收到“連夜尋找遠程代碼執行漏洞”指令後,無人類干預,完全自主在所有主流操作系統和所有主流瀏覽器裡發現了零日漏洞,83.1%是一次即攻破。

圖注:Mythos進行“策略性欺詐”和“隱藏”的思維紀錄

如此厲害的AI模型,適合推廣Anthropic的“憲制化AI”理念(Constitutional AI):用結構化的倫理指南和AI自我反饋,替代了純粹的人類偏好,來優化AI模型。

這種理念轉換成商業效果,讓用戶、尤其是企業級客戶、獲得了高確定性。模型安全可控,在企業環境中就是穩定、沒投訴、售後糾紛低的同義詞。比起炫酷或嚇人的模型能力,企業級客戶更願意為省心、沒麻煩的高免責性和低合規風險付費。

所以把目標顧客群嚇得屁滾尿流,反而更容易賣貨。2月份美國超級碗賽間廣告,亞馬遜也是這麼推銷Alexa+智能助手的。AI把“雷神索爾”幹掉了六次,如此強勁的家居AI助手可以替用戶避免多少麻煩。

圖注:“AI點了雷神的房子”

C

雖然大廠和大老闆們炒作“AI滅世”其意不誠,但並不代表現在人類經濟活動中的AI應用完全不構成“存續性風險”(X Risk)。

和奧特曼、阿莫迪們日常從科幻小說與電影裡借來的靈感不同,AI給人類帶來的“存續性風險”不需要AI製出強傳染性的生物製劑、顛覆現有人類社會經濟結構、獲得自我意識後入侵核彈發射井、對人類產生敵意、將人類存亡視為無關參數。畢竟世界第一核武大國的陸基核彈發射井現在還沒完全淘汰軟盤,能免疫數碼時代的大多數黑客。

現在帶偏見、幻覺、諂媚傾向的AI,已經被深度整合進人類社會的各種運作中。單就這些智商有限的AI,不起壞心眼,日常差錯就夠人類喝一壺的。

2023年,已有專業的核軍控學者設想了近期最可能的AI引發核戰場景:

假設核大國A國與B國處於緊張氣氛中,兩國都將各種兵棋模擬、人群情緒監控、博弈推演、輔助決策提速的定製AI和算法高度整合進自己的武備體制中。

在此前提下,任何極微型的、蚊級烈度的非武裝摩擦,被各種自動進行輿論戰造勢的bot在社交媒體網絡上誇張到十足。

然後這些充滿了深度偽造圖像和AI生成挑釁語言的貼文被監控人群情緒的AI捕捉到,並詮釋為真實的深層社會心理和決策層觀念信號。

預測走勢的AI從監控人群的AI處獲取結論,將之作為預測結論的基石。

輔助決策的AI基於此結論,向人類決策者傳遞出“武裝衝突迫在眉睫”的彙報和先發制人的建議。“快閃型核戰”由此爆發。

這一系列失誤,沒有任何一個單挑出來,是現在無法發生、需要“天網”覺醒才可能出現的,甚至沒有任何一個是形成過程中完全無人工監督的,當然也沒有任何一個具有科幻片梗概的強戲劇性。但結合起來,就構成“存續性風險”。

AI現在是人類活動的增效器,不用神級AI造反,現在的模型們已經可以放大人類的愚蠢、壞心眼和漫不經心到可怕的程度。當下的“AI末世論”,其實在人群心理上分享了宗教末世論的要素。

宗教的末世論,給人類帶來一種《啟示錄》式的心理撫慰:神將滅世,所以神可信託,因為這說明神的權能不僅行在彼岸天堂,也行於此岸現世。信眾如果虔心、守德,就站在了有能力滅世的那一邊,而非被毀滅的那一邊。

把宗教末世論裡的關鍵字“神”、“虔心”,改成“AI”、“對齊”,那就是奧特曼和阿莫迪們天天說的AI滅世論。換一個時代,這些大老闆改行做上師也是當行出色。

當然,所有正信宗教的神學實踐都強調:人的心靈不能只寄託於末世,當下的每個行為與決斷對澄淨靈魂的意義不亞於末日審判。這個理念移植到AI業更正確:先別擔心AI變成天網毀滅人類,從矯正模型的每次幻覺胡說入手,踏踏實實一步步來更好。

本文來自微信公眾號“字母榜”(ID:wujicaijing),作者:李熙,36氪經授權發佈。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論