avatar
头雁
21,116個推特粉絲
關注
科技 / AI / BTC / ZK
動態
avatar
头雁
12-12
Openai發佈了最新的GPT5.2版本 這個版本主要在通用智能,長上下文理解,智能體和視覺上有很大改進。 -該模型在製作電子表格、設計演示文稿、編寫代碼、識別圖像、理解長文本上下文、使用工具以及處理複雜的多步驟項目方面表現更佳。 -GPT‑5.2 在眾多基準測試中都刷新了行業水平,包括 GDPval。在該評測中,它在涵蓋 44 個職業的明確知識型工作任務上超越了行業專家。 -GPT‑5.2 Thinking 在 SWE-bench Pro 測試取得了 55.6% 的新成績。SWE-bench Pro 是一項嚴格評估真實軟件工程能力的基準測試。與只測試 Python 的 SWE-bench Verified 不同,SWE-bench Pro 涵蓋四種語言,旨在更具抗汙染性、更具挑戰性、更具多樣性,也更貼近真實工業場景 -GPT‑5.2 Thinking 在前端軟件工程方面也優於 GPT‑5.1 Thinking。早期測試者發現,它在前端開發以及複雜或非傳統的 UI 工作上表現更強(尤其是涉及 3D 元素的場景) -GPT‑5.2 Thinking 在長上下文推理方面樹立了新的技術標杆 -在真實任務中,例如深度文檔分析(需要跨數十萬 Token 關聯信息),GPT‑5.2 Thinking 的準確性顯著高於 GPT‑5.1 Thinking -GPT‑5.2 Thinking 是迄今最強大的視覺模型,在圖表推理和軟件界面理解方面將錯誤率大幅降低,約減少了一半 ChatGPT 中的 GPT‑5.2 -GPT‑5.2 Instant 是一款高效而強大的日常工作與學習“主力模型”,在信息查詢、操作指南、步驟講解、技術寫作以及翻譯方面都有顯著提升,並延續了 GPT‑5.1 Instant 更溫暖、更自然的對話風格。早期測試者特別指出,其解釋更清晰,能夠在一開始就呈現出關鍵信息。 -GPT‑5.2 Thinking 專為更深入的工作而打造,幫助用戶以更高的完成度處理複雜任務,擅長編碼、長文檔總結、回答上傳文件相關問題、逐步推導數學與邏輯問題,以及通過更清晰的結構和更有用的細節支持規劃與決策。 -GPT‑5.2 Pro 是應對高難度問題時最智能、最可靠的選擇,在需要高質量答案的場景中尤為適合。早期測試顯示,它的重大錯誤更少,在編程等複雜領域的表現也更為出色。
OpenAI
@OpenAI
12-12
GPT-5.2 is now rolling out to everyone. https://openai.com/index/introducing-gpt-5-2/…
avatar
头雁
12-01
Bobbin @bobbinth @0xMiden 核心開發者,CEO。之前大家普遍瞭解的是他在polygon @0xPolygon 做miden的經歷,他是非常典型的自學成長的ZK開發者,非常善於在實踐中學習zk技術(理論)。併成功募集了2500萬美金,做了一條基於隱私技術的L2。下面看看bobbin的成長經歷。 Bobbin 的 Web3 之旅大約從 2018 年開始,那時他還不是全職區塊鏈從業者,而是作為獨立研究者和開源貢獻者活躍。 他對零知識證明的興趣源於對“計算完整性”(computational integrity)的痴迷,特別是 SNARKs 和 STARKs 等通用證明系統。 Bobbin回憶道:“我一接觸到零知識證明,就立刻意識到這對區塊鏈至關重要——它能讓你驗證計算,而無需其他人重新運行整個過程“ 。 他的第一個里程碑是 genSTARK(2018-2019 年左右),這是他發佈的首個開源 STARK 證明器(prover)。genSTARK 是一個實驗性工具,用於生成和驗證 STARK 證明,解決了當時 ZK 領域的一個痛點:缺乏高效的開源實現。Bobbin 當時是獨立開發者,沒有大公司背景,他通過自學 Rust 編程語言來構建它。 他的這項工作讓他在 ZK 社區嶄露頭角,被視為“第一個實用 STARK 證明器”的先驅。緊接著,他開發了 Distaff VM(2020 年初)。這是一個基於 STARK 的虛擬機原型(我最早就是通過這個zkvm學習了zkvm的實現原理),靈感來源於 RISC-V 架構,旨在支持通用計算的 ZK 證明。Distaff 是 Miden VM 的前身,Bobbin 在開發過程中進行了多次迭代和用戶測試,甚至親自編寫了 AirScript(一種簡單彙編語言)和 AirAssembly 來簡化 VM 的編程。 2020 年底,Bobbin 加入 Meta( Facebook)的 Novi 項目,作為核心 ZK 研究員。Novi 是 Meta 的數字錢包和區塊鏈實驗部門,旨在探索 Libra(後 Diem)生態的隱私技術。這裡是他“高光起點”——他領導了 Winterfell 的開發,這是一個高性能的通用 STARK 證明器和驗證器。它支持並行證明生成,性能比早期 STARK 實現快數倍。Bobbin 在團隊中負責架構設計和優化,處理從電路編譯到證明聚合的整個流程。這段經歷讓他掌握了企業級 ZK 部署。 在之後就是前面分享過被polygon收購,實現miden的經歷了。
META
5.42%
avatar
头雁
12-01
主題貼
Openai的founder Ilya最近一起的訪談利用週末時間好好細讀了下。Ilya的這個訪談值得好好看幾遍,除了講了從scaling時代正邁向研究時代(不能只靠算力不斷的擴展來實現更智能),我印象最深的是他的關於“研究品味“。 這個品味,是在研究過程中,讓他能在研究高度不確定的事物時,如何通過自己的品味(信念和經驗)自上而下的去驗證,這個信念在AI裡核心就是神經網絡的擬人化(人的大腦的原理)。這些品味的感覺是基礎的,當實驗與信念不一致時,有時可能因為數據本身出了bug導致的,但如果只看當下和能看到的數據等已知事物,可能就無法找到真正正確的路線。 這個研究品味不單單可以用在AI LLM研究上,不管你是創業,你是做投資,擼空投,做新產品等等,這些都是在面對高度不確定的事情。你的品味,就是你對事物基本的本質認知,或則一些事物的基本規律等等基礎維度。 比如當你是一個產品經理,當你看到一個功能幾乎沒人用,如果以此推論,可能用戶沒有這個需求,你把他砍掉了,但也有可能是你的設計出了問題,用戶沒有注意到這個功能。當你是一個沒有產品品味的人時,可能只看你能看到的局部信息來做了決策和選擇。 回想很多年前,在csdn上看到深度學習的技術文章講解的是如果通過RNN實現加減乘除的計算,當時只是覺得很神奇,但是Ilya當時的好奇心已經聯想到既然能做加減乘除的預測,就應該能做其他更復雜的事情。並且他意識到神經網絡基礎是來自於模擬大腦的結構作為理論基礎,這兩個點對Ilya探索LLM的智能化研究起到了重要的基礎品味的積累。
LLM
0%
loading indicator
Loading..