avatar
头雁
21,116个推特粉丝
关注
科技 / AI / BTC / ZK
动态
avatar
头雁
12-12
Openai发布了最新的GPT5.2版本 这个版本主要在通用智能,长上下文理解,智能体和视觉上有很大改进。 -该模型在制作电子表格、设计演示文稿、编写代码、识别图像、理解长文本上下文、使用工具以及处理复杂的多步骤项目方面表现更佳。 -GPT‑5.2 在众多基准测试中都刷新了行业水平,包括 GDPval。在该评测中,它在涵盖 44 个职业的明确知识型工作任务上超越了行业专家。 -GPT‑5.2 Thinking 在 SWE-bench Pro 测试取得了 55.6% 的新成绩。SWE-bench Pro 是一项严格评估真实软件工程能力的基准测试。与只测试 Python 的 SWE-bench Verified 不同,SWE-bench Pro 涵盖四种语言,旨在更具抗污染性、更具挑战性、更具多样性,也更贴近真实工业场景 -GPT‑5.2 Thinking 在前端软件工程方面也优于 GPT‑5.1 Thinking。早期测试者发现,它在前端开发以及复杂或非传统的 UI 工作上表现更强(尤其是涉及 3D 元素的场景) -GPT‑5.2 Thinking 在长上下文推理方面树立了新的技术标杆 -在真实任务中,例如深度文档分析(需要跨数十万 Token 关联信息),GPT‑5.2 Thinking 的准确性显著高于 GPT‑5.1 Thinking -GPT‑5.2 Thinking 是迄今最强大的视觉模型,在图表推理和软件界面理解方面将错误率大幅降低,约减少了一半 ChatGPT 中的 GPT‑5.2 -GPT‑5.2 Instant 是一款高效而强大的日常工作与学习“主力模型”,在信息查询、操作指南、步骤讲解、技术写作以及翻译方面都有显著提升,并延续了 GPT‑5.1 Instant 更温暖、更自然的对话风格。早期测试者特别指出,其解释更清晰,能够在一开始就呈现出关键信息。 -GPT‑5.2 Thinking 专为更深入的工作而打造,帮助用户以更高的完成度处理复杂任务,擅长编码、长文档总结、回答上传文件相关问题、逐步推导数学与逻辑问题,以及通过更清晰的结构和更有用的细节支持规划与决策。 -GPT‑5.2 Pro 是应对高难度问题时最智能、最可靠的选择,在需要高质量答案的场景中尤为适合。早期测试显示,它的重大错误更少,在编程等复杂领域的表现也更为出色。
OpenAI
@OpenAI
12-12
GPT-5.2 is now rolling out to everyone. https://openai.com/index/introducing-gpt-5-2/…
avatar
头雁
12-01
Bobbin @bobbinth @0xMiden 核心开发者,CEO。之前大家普遍了解的是他在polygon @0xPolygon 做miden的经历,他是非常典型的自学成长的ZK开发者,非常善于在实践中学习zk技术(理论)。并成功募集了2500万美金,做了一条基于隐私技术的L2。下面看看bobbin的成长经历。 Bobbin 的 Web3 之旅大约从 2018 年开始,那时他还不是全职区块链从业者,而是作为独立研究者和开源贡献者活跃。 他对零知识证明的兴趣源于对“计算完整性”(computational integrity)的痴迷,特别是 SNARKs 和 STARKs 等通用证明系统。 Bobbin回忆道:“我一接触到零知识证明,就立刻意识到这对区块链至关重要——它能让你验证计算,而无需其他人重新运行整个过程“ 。 他的第一个里程碑是 genSTARK(2018-2019 年左右),这是他发布的首个开源 STARK 证明器(prover)。genSTARK 是一个实验性工具,用于生成和验证 STARK 证明,解决了当时 ZK 领域的一个痛点:缺乏高效的开源实现。Bobbin 当时是独立开发者,没有大公司背景,他通过自学 Rust 编程语言来构建它。 他的这项工作让他在 ZK 社区崭露头角,被视为“第一个实用 STARK 证明器”的先驱。紧接着,他开发了 Distaff VM(2020 年初)。这是一个基于 STARK 的虚拟机原型(我最早就是通过这个zkvm学习了zkvm的实现原理),灵感来源于 RISC-V 架构,旨在支持通用计算的 ZK 证明。Distaff 是 Miden VM 的前身,Bobbin 在开发过程中进行了多次迭代和用户测试,甚至亲自编写了 AirScript(一种简单汇编语言)和 AirAssembly 来简化 VM 的编程。 2020 年底,Bobbin 加入 Meta( Facebook)的 Novi 项目,作为核心 ZK 研究员。Novi 是 Meta 的数字钱包和区块链实验部门,旨在探索 Libra(后 Diem)生态的隐私技术。这里是他“高光起点”——他领导了 Winterfell 的开发,这是一个高性能的通用 STARK 证明器和验证器。它支持并行证明生成,性能比早期 STARK 实现快数倍。Bobbin 在团队中负责架构设计和优化,处理从电路编译到证明聚合的整个流程。这段经历让他掌握了企业级 ZK 部署。 在之后就是前面分享过被polygon收购,实现miden的经历了。
META
4.53%
avatar
头雁
12-01
主题贴
Openai的founder Ilya最近一起的访谈利用周末时间好好细读了下。Ilya的这个访谈值得好好看几遍,除了讲了从scaling时代正迈向研究时代(不能只靠算力不断的扩展来实现更智能),我印象最深的是他的关于“研究品味“。 这个品味,是在研究过程中,让他能在研究高度不确定的事物时,如何通过自己的品味(信念和经验)自上而下的去验证,这个信念在AI里核心就是神经网络的拟人化(人的大脑的原理)。这些品味的感觉是基础的,当实验与信念不一致时,有时可能因为数据本身出了bug导致的,但如果只看当下和能看到的数据等已知事物,可能就无法找到真正正确的路线。 这个研究品味不单单可以用在AI LLM研究上,不管你是创业,你是做投资,撸空投,做新产品等等,这些都是在面对高度不确定的事情。你的品味,就是你对事物基本的本质认知,或则一些事物的基本规律等等基础维度。 比如当你是一个产品经理,当你看到一个功能几乎没人用,如果以此推论,可能用户没有这个需求,你把他砍掉了,但也有可能是你的设计出了问题,用户没有注意到这个功能。当你是一个没有产品品味的人时,可能只看你能看到的局部信息来做了决策和选择。 回想很多年前,在csdn上看到深度学习的技术文章讲解的是如果通过RNN实现加减乘除的计算,当时只是觉得很神奇,但是Ilya当时的好奇心已经联想到既然能做加减乘除的预测,就应该能做其他更复杂的事情。并且他意识到神经网络基础是来自于模拟大脑的结构作为理论基础,这两个点对Ilya探索LLM的智能化研究起到了重要的基础品味的积累。
LLM
0%
loading indicator
Loading..