2일간의 오도 끝에 GPT-4o 웬셩투 모델이 너무 강력해졌어요

03-29

이 기사는 기계로 번역되었습니다

원문 표시

엊그제, ChatGPT의 이미지 생성 기능에 관한 기사를 썼습니다.

지식인에 게시한 후, 2021년 연간 베스트 답변자가 의문을 제기했습니다. 내가 사용한 모델이 최신 버전이 아닐 수 있다고 지적했는데, 새로운 버전과 이전 버전 사이에 큰 차이가 있다고 말했습니다.

그는 최신 버전의 이미지 생성 능력이 매우 뛰어나며, 내가 보여준 결과는 프롬프트 이해도가 낮고 생성된 텍스트에도 많은 오류가 있다고 지적했습니다.

그는 "두 사람이 서로를 밀치는" 같은 간단한 개념의 프롬프트도 진정한 최신 버전 모델은 정확하게 표현할 수 있어야 한다고 예를 들었습니다. 또한 최신 모델을 사용하고 있는지 확인해보라며 최신 버전 인터페이스 링크를 제공했습니다.

그는 또 다음과 같은 검증 방법을 공유했습니다:

100개 이상의 영어 단어를 입력했을 때, 텍스트가 완전히 엉망이면 다른 모델(예: DALL·E)이고, 한두 글자만 틀리면 최신 버전의 ChatGPT라고 했습니다.

그는 내 프롬프트로 생성한 결과를 두 번 공유하며 "우연성"으로 설명할 수 없다고 의문을 제기했습니다. 그의 말에 모델을 잘못 사용했다고 의심하게 되었고, 이전에 사용하던 ChatGPT 클라이언트로 생성한 것과 비교해보니 확실히 차이가 있었습니다. 그래서 다시 시도해보기로 했습니다.

[이하 생략]

第一次它好像卡住了，跟我说：抱歉，我处理不了你的要求，要不你再试试？

估计是用的人太多了。我重新开个窗口，这回它很快就有反应了。问题是，第一张照片处理得挺干净，但第二张直接被忽略了。

这下我可不干了，直接把要求说得清清楚楚，一共四点：

把两只手都去掉，只留下水杯；水杯的细节、质感和光影得保留好，看着得自然；背景要简单干净，突出水杯；两个水杯放在一起，比例要协调，画面得好看。还特别提醒它，尺寸要4:3的。

结果它花了大概40秒，就搞定了。看到结果时，真的只能惊叹："这也太厉害了"，设计师要下岗了。

你觉得怎么样？速度、效率远比人工抠图搞的快。

我又试了试Chat GPT 4o新出的知识图功能，官方吹的吹得神乎其神，说有了这功能，AI生成图片能把现实世界里的知识用起来，更懂用户想啥，做出来的图也更靠谱、更合乎常理。

简单说：AI画画会琢磨现实里的那些细节，比如地方在哪儿、啥文化背景，还有物理规律那些。

这次，让deepseek来，我说，你帮我写一个带因果逻辑的文生图的提示词。有一个细节就是图片比例依然是4:3。这是它随机给到的：

内容是一个阳光明媚的下午，一个小男孩坐在公园的长椅上，手里拿着一个冰淇淋，脸上露出开心的笑容。
因为他刚在游乐场玩得很开心，现在正享受着美味的冰淇淋。画面采用温馨的色调，背景是绿树成荫的公园，远处有几个小朋友在玩耍。图片比例为4:3，整体风格清新自然。

额，这看不出什么因果逻辑。怎么办？重新来过。索性直接把「定律」加在图中间。这是deepseek给我的两个提示词：

一个是杠杆定律：生成一张图，一个小孩在跷跷板上，通过杠杆原理把一个重物抬起来。小孩用力往下压，重物被抬高，体现杠杆原理。背景简单，比例4:3。

如上图。这看着像吗？的确很杠杆。给豆包后，它说：

这图是说，有个小孩在压跷跷板一头，想把另一头的大重物撬起来。就像玩跷跷板，坐一头能把另一头的人翘起来，利用这个方法，不用费老不用费老大劲就能把重东西抬起来，是一种省力的小窍门。

的确有点强。不过兴许有些简单，换一个：就拿「相对论的时间膨胀效应」来测试。

提示词：

生成一张图，展示两个人：Alice 在地球上，Bob 在高速飞行的宇宙飞船里。因为相对论的时间膨胀效应，Bob 看起来比 Alice 年轻。地球上 Alice 在慢慢变老，而飞船里的 Bob 几乎没变。背景简单，比例4:3。

你能看得出来吗？

反正我能看得懂。不过，第一次生成时，Alice的名字被放在了脚下面，看起来有点奇怪。经过二次对话微调后，成功地把名字放到了正确的位置。

我认为还能在进化，比如：指定人物的性别等等。

除了文生图、图片与图片合成、以及生成理解物理世界规律的图以外，还有没有其他玩法呢？

试试风格转换。比如：将一张人物照片转换为动漫风格，或者将一张图片的风格与另一张图片的内容融合，这种技术在艺术创作和设计时非常受用。

问题是怎么转换呢？我现在有一张个人形象照，把问题甩给DeepSeek，让它帮我想想。

DeepSeek说：如果你想测试OpenAI的ChatGPT文生图模型的能力，可以出一个稍微复杂一点但又具体明确的问题，这样既能考验模型的理解能力，又能测试它的生成能力。

比如：我有一张个人形象照，我想把它变成动漫风格。希望你能帮我把照片里的我变成一个动漫角色，头发换成深蓝色的，整体风格有点赛博朋克那种酷酷的感觉。图片比例是4:3就行。

不管了，一股脑甩给ChatGPT 4o来处理。这好像有点翻车了。不过，可能我要求太高了。

的确有点抽象，你怎么看？

不管怎么说，非自回归模型（Non-autoregressive models）的进化速度确实很快，它改变了核心架构。

这个架构会先理解整个图的结构和细节，有点像学生先听完老师讲完题目，把整张画的轮廓勾勒出来，然后再一点点填充细节。

国内很多产品也在用这种能力了，希望能抓紧时间赶上并超越它。作为个人，我们也要思考一下：

如何快速掌握AI生成图片的能力，并把它用到工作场景中。说到这儿，问题就来了：你会用它做什么呢？快去试试吧，记得，用ChatGPT 4o模型才有。

本文来自微信公众号 "王智远"（ID：Z201440），作者：王智远，36氪经授权发布。

第一次它好像卡住了，跟我说：抱歉，我处理不了你的要求，要不你再试试？ 추정컨대 사용자가 너무 많았던 것 같다. 새 창을 열었더니 이번에는 빠르게 반응했다. 문제는 첫 번째 사진은 꽤 깔끔하게 처리되었지만, 두 번째 사진은 완전히 무시되었다. 이번에는 내가 참지 못하고 요구사항을 명확하게 말했다. 총 네 가지였다: 두 손을 모두 제거하고 물컵만 남기기; 물컵의 디테일, 질감, 빛과 그림자를 잘 보존하여 자연스럽게 보이게 하기; 배경은 간단하고 깨끗하게 하여 물컵을 강조하기; 두 개의 물컵을 함께 배치하되 비율을 조화롭게 하여 화면을 보기 좋게 만들기. 크기는 4:3으로 특별히 강조했다. 결과적으로 약 40초 만에 완성했다. 결과를 보고 진짜 놀랐다: "이건 너무 대단해", 디자이너는 실직해야 할 판이다. 어떻게 생각하나? 속도와 효율성은 인공 이미지 편집보다 훨씬 빠르다. (이하 생략)

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트