Vào năm 2024, ChatGPT của OpenAI đã liên tục đạt được những bước tiến mới trong lĩnh vực mô hình lớn, ra mắt nhiều tính năng sáng tạo như cửa hàng chatbot cá nhân hóa, chức năng tăng cường trí nhớ, khả năng xử lý đa phương thức, và cũng liên tục cải thiện về an toàn, ổn định và hiệu quả. Hãy cùng nhìn lại những điểm nổi bật này!
Vào năm 2024, các mô hình lớn đã trở nên gắn kết sâu sắc với cuộc sống hàng ngày của chúng ta.
Với tư cách là nhà lãnh đạo, ChatGPT luôn là ngọn hải đăng của giới mô hình lớn, không chỉ là các phiên bản mô hình lớn như o1-pro, Sora Turbo được ra mắt năm ngoái, mà còn có các tính năng nhỏ như chế độ video, ngắt lời nói, thậm chí là mức giá cao 200 USD mỗi tháng, mỗi sự kiện ra mắt của OpenAI đều mang lại những điều mới mẻ và gây ấn tượng cho các tín đồ trí tuệ nhân tạo.
Dưới đây chúng ta sẽ cùng nhìn lại những bản cập nhật quan trọng mà OpenAI đã phát hành trong năm 2024, để chứng kiến hành trình tiến hóa của các mô hình lớn!
Tháng 1
Cửa hàng GPT: Người dùng có thể đăng tải các chatbot cá nhân hóa (GPT) do họ xây dựng, và tìm kiếm theo các danh mục như viết lách, lối sống và giáo dục.
Công cụ Bảo vệ (liên quan đến bầu cử): OpenAI đã cập nhật chính sách, cấm người dùng và nhà sản xuất của ChatGPT, DALL-E và các công cụ khác giả mạo ứng viên hoặc chính quyền địa phương, không được sử dụng các công cụ này cho các hoạt động vận động tranh cử hoặc vận động, cũng không được sử dụng để cản trở hoặc làm sai lệch quá trình bỏ phiếu.
Gắn thẻ nội tuyến (Inline tagging): Người dùng có thể nhập "@" trong hộp chat để kích hoạt tính năng đề cập GPT, hệ thống sẽ hiển thị danh sách các mô hình GPT có sẵn, người dùng có thể tích hợp và tương tác với nhiều mô hình AI trong một cuộc trò chuyện.
Đọc to phản hồi (ứng dụng di động): Thêm tính năng đọc to nội dung phản hồi, tăng tính tiện lợi cho người dùng khi truy xuất thông tin.
Quy trình khiếu nại tự phục vụ của GPT: Người dùng có thể tự nộp đơn khiếu nại về các vấn đề gặp phải khi sử dụng GPT.
Kế hoạch của nhóm: Dừng cung cấp phiên bản thử nghiệm của plugin ChatGPT.
Tháng 2
Phát hành tính năng Trí nhớ (sunshine): Có thể tăng cường khả năng ghi nhớ của mô hình về các cuộc trò chuyện trước đó, giúp tương tác trở nên liền mạch hơn, từ đó hiểu rõ hơn về ngữ cảnh và nhu cầu của người dùng.
Phát hành giao diện mới (Hedgehog)
Tính năng phản hồi: Thêm cơ chế để người dùng đánh giá và phản hồi về các GPT, giúp cải thiện chúng.
Xác minh tác giả: Đưa vào tính năng xác minh danh tính xã hội đối với hồ sơ cá nhân của người tạo GPT, tăng độ tin cậy của danh tính và uy tín nội dung.
Phát hành Sora: Có thể nhanh chóng tạo ra video chất lượng cao kéo dài tới 1 phút dựa trên mô tả văn bản đơn giản, tuân thủ tốt hơn theo chỉ dẫn của người dùng, tạo ra các hiệu ứng hình ảnh sống động, bao gồm cả các cảnh phức tạp, tương tác đa nhân vật và các loại chuyển động cụ thể.
Chế độ tối và sáng: Tối ưu hóa hiệu ứng trực quan của giao diện, phù hợp với các tình huống sử dụng và sở thích của người dùng.
Lịch sử phiên bản GPT: Giúp người dùng theo dõi quá trình lặp đi lặp lại của GPT, truy tìm các thay đổi về tính năng.
Tháng 3
Tùy chỉnh chỉ thị (GPT-4): Người dùng có thể tùy chỉnh một số chỉ thị cho ChatGPT ở cấp độ hệ thống, bao gồm thông tin cá nhân và yêu cầu về định dạng phản hồi.
Điều khiển DALL·E 3 (phong cách & tỷ lệ khung hình), trình chỉnh sửa & inpainting: Cung cấp cho người dùng nhiều lựa chọn phong cách được xác định trước; người dùng có thể tinh chỉnh khu vực cụ thể bằng lời nhắc văn bản tự nhiên, như thêm, xóa hoặc thay đổi các đặc điểm.
Đọc to (trên nền tảng web): Tự động phát hiện ngôn ngữ của văn bản đang đọc, sau đó đọc to bằng ngôn ngữ tương ứng; cung cấp 5 giọng đọc khác nhau.
Chương trình chia sẻ doanh thu: Chia sẻ doanh thu dựa trên mức độ sử dụng GPT, cung cấp một kênh kiếm tiền mới cho các nhà phát triển, từ đó khuyến khích tạo ra các dịch vụ GPT chất lượng hơn.
Tháng 4
Truy cập không cần tài khoản: Trải nghiệm ChatGPT thuận tiện hơn, nhưng chỉ có thể sử dụng phiên bản miễn phí GPT-3.5, các tính năng cao cấp như Dall-E 3 vẫn cần tài khoản.
Kiểm soát dữ liệu v2: Người dùng có thể chọn không đưa dữ liệu của mình vào việc huấn luyện mô hình, mà vẫn có thể xem lịch sử trò chuyện; thêm tùy chọn dữ liệu giọng nói di động, mặc định là tắt.
Thống nhất miền tên miền sang chatgpt.com, thống nhất thương hiệu và điểm truy cập dịch vụ.
Phát hành GPT-4 Turbo: Tốc độ sinh ra nội dung nhanh hơn gấp đôi GPT-4, có cửa sổ ngữ cảnh lớn hơn, lên đến 128k token, chỉ bằng 1/3 giá cả.
Tháng 5
Người dùng miễn phí cũng có thể chọn mô hình đối thoại mặc định, chẳng hạn như chuyển đổi sang GPT-4o-mini và GPT-4o, tùy chỉnh mô hình đối thoại theo nhu cầu của mình, tăng hiệu quả và tính nhất quán.
Ứng dụng kết nối: Chỉ dành cho người dùng ChatGPT Plus, nhóm và doanh nghiệp, có thể trực tiếp tải tệp từ Google Drive và Microsoft OneDrive lên ChatGPT, giúp người dùng phân tích và xử lý các tệp lưu trữ trên nền tảng đám mây.
Phát hành ứng dụng để bàn cho hệ điều hành macOS.
Phát hành GPT-4o, có khả năng đa phương thức, có thể xử lý đồng thời thông tin dạng văn bản, âm thanh và hình ảnh, thể hiện xuất sắc trong thoại âm thanh, tự nhiên và lưu loát, có thể thể hiện cảm xúc và hiểu được cảm xúc trong giọng nói, hỗ trợ 50 ngôn ngữ, và giá API rẻ hơn, tăng hiệu suất gấp đôi, tăng giới hạn tốc độ gấp 5 lần.
Thiết kế lại giao diện ChatGPT, mã hiệu Fruit Juice
Người dùng có thể sử dụng các mô hình khác nhau để tạo lại câu trả lời cho cùng một lời nhắc.
Không còn cung cấp tùy chọn giọng đọc "Sky" cho người dùng, lý do chưa được công bố.
Người dùng có thể chuyển đổi giữa các mô hình trong cùng một cuộc trò chuyện, tùy theo diễn biến và nhu cầu, tăng tính linh hoạt và hiệu quả của cuộc đối thoại.
Người dùng miễn phí có thể sử dụng một số công cụ và GPT trước đây chỉ dành cho người dùng trả phí, như truy cập internet, tải lên và phân tích hình ảnh, tạo biểu đồ, phân tích dữ liệu nâng cao, kích hoạt chức năng trí nhớ, truy cập cửa hàng GPT, v.v.
Tháng 6
Tại Hội nghị Nhà phát triển Toàn cầu (WWDC) 2024 của Apple, họ đã công bố hợp tác với OpenAI để tích hợp ChatGPT vào Siri; yêu cầu của người dùng sẽ không được OpenAI lưu trữ, địa chỉ IP của người dùng sẽ được mờ, và người dùng có thể chọn kết nối tài khoản ChatGPT hoặc không.
Độ dài Token tối đa mà mô hình có thể ghi nhớ được tăng lên 8k, giúp duy trì thông tin ngữ cảnh tốt hơn khi xử lý văn bản dài và đối thoại phức tạp, tránh trường hợp trả lời không đầy đủ hoặc quên nội dung trước đó do giới hạn bộ nhớ.
Starter Prompts v2: Cung cấp các lời nhắc khởi đầu mới và phong phú hơn, hướng dẫn người dùng đặt câu hỏi và yêu cầu chất lượng cao hơn.
ChatGPT thông báo đang phát triển các bộ kết nối đồng bộ mới với Google Drive và Slack, cho phép người dùng truy cập nội dung tài liệu một cách liền mạch, nâng cao hiệu quả làm việc nhóm.
Tháng 9
OpenAI đã cập nhật chế độ giọng nói cao cấp của ChatGPT, bổ sung các tính năng video và chia sẻ màn hình, có thể hiểu các giọng điệu và ngữ điệu khác nhau và chuyển đổi chính xác thành văn bản, đồng thời hỗ trợ dịch thuật thời gian thực, giúp giao tiếp quốc tế dễ dàng hơn.
OpenAI ra mắt o1-preview, được thiết kế đặc biệt để xử lý các tác vụ có độ phức tạp cao và yêu cầu suy luận sâu sắc, như phân tích pháp lý, nghiên cứu học thuật và ra quyết định phức tạp; có thể xử lý nhiều định dạng dữ liệu như hình ảnh, âm thanh; nhà phát triển có thể tùy chỉnh mô hình theo nhu cầu cụ thể của doanh nghiệp, phù hợp với các ứng dụng như đề xuất sản phẩm thương mại điện tử, thiết kế khóa học đào tạo, v.v.
o1-mini kinh tế hơn, chi phí giảm khoảng 80% so với o1-preview, phù hợp với các môi trường có tài nguyên tính toán hạn chế nhưng cần khả năng suy luận cấu trúc, và thể hiện xuất sắc trong các nhiệm vụ suy luận cơ bản như toán học và lập trình.
Thêm hai lệnh nhanh: "/picture" có thể gọi mô hình DALL-E để tạo ra hình ảnh; "/search" có thể chuyển đầu vào của người dùng thành truy vấn tìm kiếm.
Tháng 10
Triển khai tính năng giọng nói cao cấp trên nền tảng máy tính để bàn macOS và Windows, người dùng có thể thiết lập các lệnh tùy chỉnh để điều chỉnh phong cách giọng nói, tốc độ nói, v.v. của mô hình.
Dựa trên GPT-4o, ra mắt tính năng Canvas (gpt-4o-canmore), cho phép người dùng vẽ, tạo sơ đồ tư duy, sơ đồ quy trình, v.v.; cung cấp cho nhà phát triển một công cụ trực quan hóa cấu trúc mã, người dùng có thể vẽ kiến trúc phần mềm hoặc cấu trúc chức năng trên Canvas; có thể sắp xếp ý tưởng một cách trực quan, kéo và thả cấu trúc tài liệu, thêm chú thích, tối ưu hóa văn bản cho người dùng; người dùng có thể tổ chức các ý tưởng chính, vẽ các slide thuyết trình.
Người dùng có thể tìm kiếm nhanh trong lịch sử trò chuyện (Fanny Pack), như nội dung cụ thể, câu hỏi, câu trả lời, v.v.
Tháng 11
Người dùng trả phí của phiên bản web ChatGPT có thể sử dụng tính năng giọng nói cao cấp, có thể cảm nhận được những khác biệt tinh tế trong giọng điệu và tốc độ nói của người dùng; có thể thiết lập các lệnh tùy chỉnh để điều chỉnh cách nói của mô hình, chẳng hạn như nói với nhịp độ cụ thể, phát âm rõ ràng, nói chậm, định kỳ nhắc tên người dùng, v.v.
Ứng dụng để bàn phiên bản Windows (Sidetron) hỗ trợ nhập liệu bằng giọng nói, chụp màn hình, tải tệp cục bộ, v.v.
Trên hệ điều hành macOS, ứng dụng để bàn ChatGPT hỗ trợ gọi ChatGPT để giải thích mã và khắc phục lỗi trong các IDE như Xcode, VSCode, TextEdit và tích hợp với các ứng dụng như Terminal, v.v.
Tháng 12
Trong chế độ giọng nói cao cấp, thêm tính năng chia sẻ video và màn hình, ChatGPT có thể nhìn thấy hoạt động và nội dung được hiển thị của người dùng và đưa ra phản hồi chính xác hơn, phù hợp với các tình huống như họp trực tuyến, hợp tác từ xa, giảng dạy trực tuyến, v.v.
Người dùng có thể trực tiếp chạy mã Python trong Canvas, cung cấp một môi trường phân tích và xử lý dữ liệu thuận tiện hơn cho các nhà khoa học dữ liệu và chuyên gia phân tích.
OpenAI ra mắt phiên bản chính thức của o1, tăng tốc độ lên 50%, giảm khả năng xảy ra lỗi nghiêm trọng lên 50%; o1-pro yêu cầu ChatGPT Pro để sử dụng, với mức phí 200 USD/tháng, có thể suy nghĩ sâu sắc hơn và cung cấp câu trả lời chất lượng cao hơn.
OpenAI giới thiệu mô hình o3, đạt điểm số 75,7% trong bộ kiểm tra chuẩn ARC-AGI, thể hiện khả năng suy luận, lập trình và giải toán mạnh mẽ, gần với trình độ chuyên gia con người thậm chí vượt trội ở một số khía cạnh; o3-mini-preview có hiệu quả chi phí tốt hơn, phiên bản chính thức o3-mini dự kiến ra mắt vào cuối tháng 1/2025.
Để đảm bảo an toàn và độ tin cậy của các mô hình o3 và o3-mini trước khi ra mắt, OpenAI đã áp dụng phương pháp kiểm tra an toàn nhiều lớp, kết hợp đánh giá nội bộ với các chương trình nghiên cứu bên ngoài, tuyển dụng các nhà nghiên cứu an ninh tham gia kiểm tra để phát hiện và khắc phục kịp thời các rủi ro và lỗ hổng tiềm ẩn.
OpenAI ra mắt Sora Turbo, hỗ trợ đầu vào văn bản, hình ảnh và video, có thể tạo ra video độ phân giải lên đến 1080p, thời lượng tối đa 20 giây, định dạng có thể chọn là màn hình rộng, dọc hoặc vuông; hỗ trợ 5 công cụ sáng tạo, người dùng có thể kiểm soát chính xác nội dung của mỗi khung hình, thêm nhiều cảnh quay, thay thế, xóa hoặc tái cấu trúc các yếu tố trong video, sử dụng cắt lặp để tạo video lặp lại liền mạch, v.v.
Tài liệu tham khảo:
https://x.com/btibor91/status/1873391215980527840
Bài viết này được trích từ trang WeChat của "Trí tuệ mới", tác giả: Trí tuệ mới, được 36Kr ủy quyền đăng tải.



