Sau khi bị lừa dối trong hai ngày, mô hình GPT-4o Wenshengtu trở nên mạnh mẽ đến vậy

03-29

Bài viết này được dịch máy

Xem bản gốc

Hôm kia, tôi đã viết một bài viết về chức năng biểu đồ văn bản của ChatGPT.

Sau khi tôi đăng bài lên Zhihu, một người trả lời kiến thức mới thường niên năm 2021 đã đặt câu hỏi cho rằng có thể tôi không sử dụng phiên bản mới nhất vì có khoảng cách lớn giữa phiên bản mới và phiên bản cũ.

Ông chỉ ra rằng phiên bản mới nhất của hình ảnh tạo ra từ văn bản có khả năng mạnh mẽ, trong khi kết quả tôi đưa ra lại có khả năng hiểu kém các từ gợi ý và có nhiều lỗi trong văn bản tạo ra.

Ví dụ, ông cho biết một khái niệm đơn giản như lời nhắc "hai người đẩy nhau" sẽ được thể hiện chính xác bằng mô hình mới nhất. Anh ấy cũng gợi ý tôi kiểm tra xem mình có đang sử dụng phiên bản mới hay không và đưa cho tôi liên kết tới phiên bản mới nhất của giao diện.

Ông cũng chia sẻ phương pháp xác minh:

Nhập hơn 100 từ tiếng Anh. Nếu các từ đều bị viết sai thì đó là một mô hình khác (như DALL·E). Nếu chỉ có một hoặc hai chữ cái sai thì đó là phiên bản mới nhất của ChatGPT .

Anh ấy cũng đăng lần kết quả được tạo ra dựa trên lời nhắc của tôi, đặt câu hỏi liệu tất cả chúng có thể được giải thích bằng "tính ngẫu nhiên" hay không. Sau khi nghe những lời anh ấy nói, tôi nghi ngờ rằng mình đã sử dụng sai mô hình. Tôi đã sử dụng máy trạm ChatGPT trước đây và so sánh với kết quả do ứng dụng này tạo ra, kết quả thực sự khác biệt nên tôi quyết định thử lại.

Đầu tiên, tôi sử dụng những gợi ý mà người trả lời mới đưa ra như sau:

Được rồi, đây là phiên bản rút gọn: 12 bông hoa xếp thành lưới 4x3 trên khay gỗ có đáy bằng kính và lớp mỡ động vật. Từ trên xuống dưới
hoa ngọc lan tây, hoa mộc tê, hoa champaca vàng; hoa huệ, hoa dành dành, hoa nhài; hoa cẩm chướng, hoa mẫu đơn, hoa lục bình; diên vĩ xanh, tím, tử đằng. Bức ảnh chụp vào một buổi chiều nắng

Nghĩa gốc tiếng Anh khá dài, bản dịch tiếng Trung rút gọn là:

12 loại hoa được chụp từ trên cao và được sắp xếp thành bốn hàng và ba cột. Hàng đầu tiên có hoa ngọc lan tây, hoa mộc tê và hoa sứ; hàng thứ hai có hoa huệ, hoa dành dành và hoa nhài;

Hàng thứ ba có hoa cẩm chướng, hoa mẫu đơn và hoa lục bình màu hồng; hàng thứ tư có hoa diên vĩ xanh, hoa violet và hoa tử đằng. Tất cả các loại hoa được đặt trên một khay gỗ có đáy bằng thủy tinh và một lớp mỡ động vật trong suốt. Bức ảnh được chụp vào một buổi chiều nắng và khay được chiếu sáng hoàn toàn bởi ánh nắng mặt trời.

ChatGPT đã nhanh chóng đưa ra câu trả lời. Điểm khác biệt của thế hệ lần là nó bổ sung thêm một câu: Theo mô tả của bạn, tác giả của thế hệ này là DALL·E. DALL·E là mô hình tạo hình ảnh của OpenAI.

Có vẻ như không chỉ tôi gặp phải vấn đề nhầm lẫn mô hình được đề cập hôm kia mà tôi đoán bạn bè nước ngoài của tôi cũng gặp phải những tình huống tương tự.

Từ đây, chúng ta có thể rút ra kết luận: bản dùng thử miễn phí các mô hình phi hồi quy mới nhất được chính thức ChatGPT đề cập dường như không hỗ trợ hoặc có một số hạn chế nhất định.

Vì vậy, tôi đã trực tiếp hỏi ChatGPT: Làm thế nào để sử dụng mô hình đồ thị văn bản mới nhất? Nó đưa ra ba câu trả lời:

Đầu tiên là sử dụng trực tiếp chức năng tạo hình ảnh tích hợp của ChatGPT. Chỉ cần nhập mô tả chi tiết và nó sẽ tạo ra hình ảnh bằng cách sử dụng mô hình mới nhất. Bạn có thể tối ưu hóa lời nhắc, ví dụ:

Mô tả chủ đề, bối cảnh, ánh sáng, phong cách, v.v.
Chỉ định thành phần, chẳng hạn như "Nhìn từ trên xuống" hoặc "Ống kính góc rộng"
Chọn một phong cách nghệ thuật, chẳng hạn như "Tranh sơn dầu" hoặc "Cyberpunk"

Thứ hai là sử dụng API, bạn có thể tạo chúng theo từng đợt hoặc tập trung chúng vào công việc; phần thứ ba là phần giới thiệu thuần túy, trong đó đề cập đến việc mô hình hình ảnh văn hóa mới đã kết hợp đa phương thức để tạo ra những hình ảnh liên tục có câu chuyện, sử dụng AI để tạo ra các bản phác thảo trước rồi tinh chỉnh chúng thành những hình minh họa tinh tế.

Không suy nghĩ nhiều, tôi chỉ làm theo yêu cầu của nó và giao nhiệm vụ cho Kimi, nhờ Kimi giúp tôi tạo ra một từ gợi ý:

Trong căn phòng làm việc tối tăm mang phong cách cổ điển, một chiếc đèn bàn phát ra ánh sáng ấm áp dịu nhẹ, chiếu sáng chiếc bàn gỗ cũ. Có một vài quyển sách đã ố vàng và một chiếc bút lông vũ nằm rải rác trên bàn, bên cạnh đó là một tách trà đen đang bốc khói. Bức tranh sử dụng phong cách sơn dầu, tạo nên bầu không khí yên tĩnh và hoài niệm, như thể thời gian đã dừng lại ở đây.

Hình ảnh được tạo ra bởi ChatGPT như sau, nhưng nội dung vẫn là câu đó. Đây là hình ảnh do DALL·E tạo ra, cho thấy bầu không khí học tập hoài cổ mà bạn đã mô tả; ChatGPT sẽ sớm ra mắt mô hình tạo hình ảnh mới với chi tiết và khả năng kiểm soát kiểu dáng tốt hơn.

Do đó, kết luận là: mô hình ChatGPT không thể sử dụng mô hình đồ thị văn bản mới nhất. phải làm gì? Để xác minh độ chính xác, tôi đã không nạp tiền ChatGPT trong một thời gian dài, vì vậy tôi quyết định trở thành thành viên thêm một tháng nữa.

Khi hoàn tất, hãy chuyển sang giao diện hộp thoại ChatGPT 4o và nhập từ nhắc:

Tại một thị trấn ven biển yên tĩnh, ánh hoàng hôn còn sót lại chiếu rọi lên ngọn hải đăng cổ kính, bóng của ngọn hải đăng in rất dài. Trên mặt biển xa xa, một vài chiếc thuyền nhỏ đang chậm rãi lướt trên những con sóng vàng, và một vài đám mây hồng trôi bồng bềnh trên bầu trời. Bức tranh được vẽ theo phong cách màu nước, với tông màu nhẹ nhàng, ấm áp, tạo nên bầu không khí yên bình, mơ màng.

Tốc độ phản hồi hơi chậm, nhưng hình ảnh tạo ra thực sự mang tính nghệ thuật:

Do đó, cần phải có ChatGPT 4o để sử dụng và GPT vẫn là phiên bản cũ của mô hình DALL·E. Sau đó tôi đưa ra lời nhắc của một nhân vật hoạt hình:

Một chú mèo con hoạt hình dễ thương và sống động với đôi mắt xanh to và đôi tai hồng mềm mại, mặc bộ quần áo yếm màu đỏ và đôi bốt nhỏ màu vàng.
Nó nằm trong một khu rừng kỳ diệu, xung quanh là những cây nấm đầy màu sắc và đom đóm nhấp nháy. Đồ họa theo phong cách hoạt hình với màu sắc tươi sáng, tạo nên bầu không khí kỳ ảo và vui tươi. Tỷ lệ màn hình là 4:3.

Tôi tò mò muốn biết nó có thể tạo ra loại hình ảnh nào. Bạn nghĩ sao?

Thật sự rất khó để tôi có thể đưa ra đánh giá tốt. Tôi chỉ có thể nói rằng bức tranh này thật dễ thương, tràn đầy sự vui tươi của trẻ thơ và màu sắc ấm áp. Nếu được sử dụng trong sách thiếu nhi, sách tranh hoặc giáo trình tương tác và đồ dùng thủ công cho giáo dục trẻ nhỏ thì chắc chắn sẽ đủ.

Sau đó tôi đưa bức ảnh cho Doubao, bảo anh ấy suy nghĩ độ sâu rồi nói: Bạn đánh giá hiệu ứng thế nào? Tôi sử dụng mô hình đồ thị văn bản mới nhất từ ChatGPT 4o.

Doubao nói:

Bức ảnh này khá đẹp. Biểu cảm của mèo con và chi tiết trang phục rất sống động, nấm và đom đóm cũng rất sống động. Chú mèo con có tông màu ấm áp và cảnh đêm mát mẻ tạo nên sự kết hợp màu sắc hài hòa, tạo nên bầu không khí mơ màng và đáng yêu.
Chú mèo con ở giữa bức tranh, bố cục trông rất thoải mái và chủ đề rất nổi bật. Chất lượng tổng thể của hình ảnh khá cao và có thể sử dụng ở nhiều nơi. Hiệu quả mà mô hình này mang lại rất tốt. “

Nhưng vấn đề ở đây là. Chúng ta không thể thấy được sức mạnh của nó chỉ bằng cách kiểm tra bức ảnh của Vincent. Thế còn khả năng ghép hai bức ảnh thì sao?

Tôi tình cờ tải xuống hình ảnh hai cốc nước từ Baidu. Cả hai chiếc cốc đều ở trong những cảnh thật và mỗi chiếc cốc đều được cầm bằng một bàn tay. Tôi muốn xem liệu nó có thể tháo tay cầm và đặt hai chiếc cốc lên cùng một bề mặt hay không.

Sau đó tôi đưa nó cho Kimi và yêu cầu anh ấy viết một lời nhắc cho tôi:

Vui lòng tháo phần tay trong hai hình ảnh cốc nước và chỉ giữ lại cốc nước để đảm bảo các chi tiết của cốc nước rõ ràng và đầy đủ. Bối cảnh được giữ đơn giản để có thể sử dụng cho thiết kế poster thương mại điện tử. Ánh sáng, bóng tối và kết cấu của ly nước cần được giữ nguyên để đảm bảo bức tranh tổng thể tự nhiên và hấp dẫn.

Lần có vẻ như nó bị kẹt và nói với tôi: Xin lỗi, tôi không thể xử lý yêu cầu của bạn, bạn thử lại nhé?

Tôi đoán là vì có quá nhiều người sử dụng nó. Tôi mở lại cửa sổ và lần này nó phản hồi nhanh hơn. Vấn đề là bức ảnh đầu tiên được xử lý khá sạch sẽ, nhưng bức ảnh thứ hai thì lại bị bỏ qua.

Tôi sẽ không bỏ cuộc ngay bây giờ nên tôi sẽ nêu rõ yêu cầu của mình, tổng cộng có bốn điểm:

Bỏ cả hai tay ra và chỉ giữ lại cốc nước; các chi tiết, kết cấu, ánh sáng và bóng tối của cốc nước phải được giữ nguyên để trông tự nhiên; bối cảnh phải đơn giản và sạch sẽ để làm nổi bật cốc nước; ghép hai cốc nước lại với nhau theo tỷ lệ hài hòa và có hình ảnh đẹp mắt. Tôi cũng đặc biệt nhắc nhở nó rằng kích thước phải là 4:3.

Phải mất khoảng 40 giây để hoàn thành. Khi nhìn thấy kết quả, tôi chỉ có thể thốt lên: "Thật quá tuyệt vời!" Nhà thiết kế sắp bị sa thải.

Bạn nghĩ sao? Tốc độ và hiệu quả nhanh hơn nhiều so với việc cắt thủ công.

Tôi cũng đã thử tính năng biểu đồ kiến thức mới của Chat GPT 4o. Lời quảng cáo chính thức về tính năng này là hình ảnh do AI tạo ra có thể sử dụng kiến thức từ thế giới thực, hiểu rõ hơn suy nghĩ của người dùng và hình ảnh thu được sẽ đáng tin cậy và hợp lý hơn.

Nói một cách đơn giản: AI vẽ tranh sẽ xem xét các chi tiết của thực tế, chẳng hạn như địa điểm đó ở đâu, bối cảnh gì và các định luật vật lý.

Lần, tôi đã nhờ deepseek giúp tôi viết lời nhắc cho đồ họa logic nhân quả. Một chi tiết nữa là tỷ lệ hình ảnh vẫn là 4:3. Đây là những gì nó cung cấp ngẫu nhiên:

Nội dung là một buổi chiều đầy nắng, một cậu bé đang ngồi trên ghế đá công viên, cầm một cây kem trên tay và nở nụ cười vui vẻ.
Bởi vì cậu bé vừa có một khoảng thời gian tuyệt vời ở công viên giải trí và bây giờ đang thưởng thức món kem ngon lành của mình. Bức ảnh sử dụng tông màu ấm áp, với công viên rợp bóng cây bối cảnh và một vài đứa trẻ đang chơi đùa ở đằng xa. Tỷ lệ hình ảnh là 4:3, phong cách tổng thể tươi mới và tự nhiên.

Ờ, không có logic nhân quả nào ở đây cả. phải làm gì? Bắt đầu lại. Chỉ cần thêm "luật" trực tiếp vào giữa hình ảnh. Đây là hai lời nhắc mà deepseek đã đưa cho tôi:

Một là định luật đòn bẩy: tạo ra hình ảnh một đứa trẻ đang ngồi trên một chiếc bập bênh, nâng một vật nặng theo nguyên lý đòn bẩy. Đứa trẻ ấn mạnh xuống và vật nặng được nâng lên, phản ánh nguyên lý đòn bẩy. Bối cảnh đơn giản và tỷ lệ là 4:3.

Như hình minh họa ở trên. Trông có giống thế này không? Đây thực sự là đòn bẩy. Sau khi đưa cho nó chiếc túi đậu, nó nói:

Bức ảnh này cho thấy một đứa trẻ đang ấn xuống một đầu của một chiếc bập bênh, cố gắng nhấc một vật nặng ở đầu kia lên. Giống như trò chơi bập bênh, ngồi ở một đầu có thể nâng người ở đầu bên kia lên. Bằng phương pháp này, bạn có thể nâng vật nặng mà không cần phải tốn nhiều sức lực. Đây là một mẹo nhỏ để tiết kiệm công sức.

Quả thực là hơi mạnh. Nhưng có lẽ hơi đơn giản, chúng ta hãy thử một cách khác: hãy lấy "hiệu ứng giãn nở thời gian của thuyết tương đối" làm một bài kiểm tra.

Mẹo:

Tạo một biểu đồ hiển thị hai người: Alice trên Trái Đất và Bob trên một con tàu vũ trụ di chuyển với tốc độ cao. Do hiệu ứng giãn nở thời gian của thuyết tương đối, Bob trông trẻ hơn Alice. Alice trên Trái Đất đang già đi, trong khi Bob trên tàu vũ trụ hầu như không thay đổi. Bối cảnh đơn giản và tỷ lệ là 4:3.

Bạn có nhìn thấy nó không?

Dù sao thì tôi cũng có thể hiểu được. Tuy nhiên, khi lần tạo ra, tên của Alice được đặt dưới chân cô ấy, trông có vẻ hơi lạ. Sau lần vòng tinh chỉnh, cái tên đã được đặt đúng vị trí.

Tôi cho rằng nó có thể được phát triển hơn nữa, ví dụ: chỉ định giới tính của nhân vật, v.v.

Ngoài cách biểu diễn đồ họa, tổng hợp hình ảnh và tạo đồ thị để hiểu các quy luật của thế giới vật lý, còn có cách chơi nào khác không?

Hãy thử chuyển đổi phong cách. Ví dụ: chuyển đổi ảnh của một người sang phong cách anime hoặc kết hợp phong cách của một bức ảnh với nội dung của một bức ảnh khác. Công nghệ này rất hữu ích trong sáng tạo nghệ thuật và thiết kế.

Câu hỏi là làm thế nào để chuyển đổi? Bây giờ tôi có một bức ảnh cá nhân và tôi chuyển vấn đề đó cho DeepSeek để nó giúp tôi suy nghĩ.

DeepSeek cho biết: Nếu bạn muốn kiểm tra khả năng của mô hình chuyển văn bản thành đồ thị ChatGPT của OpenAI, bạn có thể đặt một câu hỏi phức tạp hơn một chút nhưng cụ thể hơn, có thể kiểm tra cả khả năng hiểu và khả năng tạo ra mô hình.

Ví dụ: Tôi có một bức ảnh chân dung cá nhân và tôi muốn biến nó thành phong cách anime. Tôi hy vọng bạn có thể giúp tôi biến hình ảnh trong ảnh thành một nhân vật anime, đổi tóc thành màu xanh đậm và phong cách tổng thể có cảm giác cyberpunk thú vị. Tỷ lệ hình ảnh là 4:3.

Không sao cả, hãy để ChatGPT 4o xử lý. Có vẻ như đây là một sự đảo ngược. Nhưng có lẽ tôi đang đòi hỏi quá nhiều.

Quả thực có phần trừu tượng, bạn nghĩ sao?

Trong mọi trường hợp, sự phát triển của các mô hình không tự hồi quy thực sự diễn ra rất nhanh, điều này làm thay đổi kiến trúc cốt lõi.

Khung này trước tiên sẽ hiểu cấu trúc và các chi tiết của toàn bộ bức tranh, giống như một học sinh lần đầu lắng nghe giáo viên giải thích xong chủ đề, phác thảo phác thảo toàn bộ bức tranh, rồi tô màu từng chút một.

Nhiều sản phẩm trong nước cũng đang sử dụng khả năng này. Tôi hy vọng chúng ta có thể bắt kịp và vượt qua nó sớm nhất có thể. Với tư cách cá nhân, chúng ta cũng cần suy nghĩ về:

Cách nhanh chóng nắm vững khả năng tạo hình ảnh của AI và áp dụng vào các tình huống công việc. Lúc này, câu hỏi đặt ra là: bạn sẽ làm gì với nó? Hãy thử ngay nhé. Hãy nhớ rằng tính năng này chỉ khả dụng với model ChatGPT 4o.

Bài viết này trích từ tài khoản công khai WeChat "Vương Chí Nguyên" (ID: Z201440) , tác giả: Vương Chí Nguyên, và được 36Kr cho phép xuất bản.

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan

ODAILY

Tại sao lại có sự chênh lệch giá lớn như vậy giữa các tổ chức khi mua HYPE? Từ 40 đô la đến 360 đô la.

HYPE

15.43%

ODAILY

Trade.xyz 220 ngày sau khi ra mắt, Hyperliquid đang trở thành "Nasdaq mới".

ETH

0.14%

Tin Tức Bitcoin

Whale loracle.hl tăng vị thế short HYPE lên 100 triệu USD, lỗ chưa thực hiện vượt 23 triệu USD