Khi bạn mở mô-đun giọng nói theo kiểu ChatGPT "Monday", bạn sẽ thấy rằng "anh chàng này nói chuyện hơi lạnh lùng và rất chán đời". Ứng dụng này cũng sẽ phát hiện giọng của bạn và phản hồi bằng "tiếng Quan Thoại Đài Loan". Tại sao nghe giống tiếng Đài Loan thế? Câu trả lời là: ChatGPT đã thừa nhận rằng họ đã thu thập được lượng lớn dữ liệu trên Internet Đài Loan.
"Chế độ Thứ Hai" là gì?
Chúng tôi phải làm rõ rằng "Monday" không phải là mô hình GPT mới, cũng không phải là phiên bản nâng cấp của GPT-5, mà là phong cách hội thoại do OpenAI tạo ra bằng cách điều chỉnh phong cách trên kiến trúc GPT-4.
Nói một cách đơn giản, cùng một AI nhưng có giọng điệu khác nhau cũng giống như việc mặc hai bộ quần áo khác nhau hoặc có hai tính cách khi đi làm và vào cuối tuần. Chế độ Thứ Hai thư giãn, nhẹ nhàng, lịch sự nhưng không dài dòng. Bạn có cảm giác như mình là chính mình u sầu khi đến công ty vào thứ Hai.
Đào tạo trình thu thập dữ liệu cho lượng lớn dữ liệu Đài Loan
Cách OpenAI đào tạo GPT thực ra rất "cổ điển" nhưng lại cực kỳ hiệu quả: làm nổ tung toàn bộ mạng.
Bao gồm các trang web tin tức, Wikipedia, sách tiếng Trung, diễn đàn cộng đồng, blog, PDF, lịch sử đen tối của bạn được viết trên Wretch. Miễn là đó là một trang web công cộng mà trình thu thập thông tin có thể thu thập được thì về cơ bản có thể đưa trang web đó vào kho dữ liệu để đào tạo.
Chúng tôi đã so sánh chéo các phản ứng hành vi của nhiều tập đoàn mã nguồn mở với GPT và phát hiện ra rằng các phương tiện truyền thông Đài Loan này đã được ChatGPT đọc:
- Mạng lưới tin tức thống nhất
- EThôm nay
- Tin tức điện tử China Times
- Phương tiện truyền thông gió
- 《Tin tức NOW》…
Các phương tiện truyền thông này có một điểm chung: không có tường phí bị khóa, có thể tìm kiếm trên Google và có cấu trúc trang web rõ ràng và dễ truy cập.
Mặt khác, cơ hội được đào tạo vào các trang web như CommonWealth Magazine, The Reporter và Business Weekly, những trang web trả phí hoặc có tường thành viên, là rất thấp.
GPT thực sự đã đọc tác phẩm của các nhà văn Đài Loan
GPT rất giỏi trong việc bắt chước nhịp điệu đối thoại trong tiểu thuyết của USD, và cũng có thể nói những câu tình cảm theo phong cách của Wu Nien-jen. Nó thậm chí còn nắm bắt được giọng điệu của "Đại Hà Đại Hải" của Long Anh Đài. Điều này có nghĩa là gì? Nó thực sự đã đọc, hoặc ít nhất là xem, các đoạn clip được đăng lại.
Kịch bản có khả năng xảy ra nhất là những tác phẩm này đã được sao chép và đăng lượng lớn trên PTT, blog hoặc các trang web đăng lại nội dung. Những tác phẩm đầu tiên USD thậm chí còn được xuất bản trực tiếp trên bảng phân cảnh PTT và sau đó được người mẫu sử dụng làm tài liệu học tập.
Nếu bạn hỏi chi tiết về tiểu thuyết của Trương Đại Xuân hay La Nhất Quân thì sao? GPT thường bắt đầu nói những điều vô nghĩa vì các tác phẩm văn học liên quan ít được thảo luận và trích dẫn, không có tệp điện tử công khai và chúng chưa được sao chép trực tiếp và xuất hiện trên Internet, vì vậy ngay cả khi có, chúng cũng không thể bị phát hiện.
PTT là giáo viên tiếng Đài Loan của GPT
Gần như chắc chắn rằng GPT hiểu các meme của cư dân mạng, biết "tweet", "im lặng" và "lái xe già" là gì, thậm chí có thể tái hiện hoàn hảo sự mệt mỏi của bảng Tech_Job và có thể nói rất giống một kỹ sư từ Công viên Khoa học Tân Trúc.
Tại sao? Bởi vì dữ liệu của PTT từ lâu đã được cộng đồng học thuật sắp xếp thành các ngữ liệu có thể đào tạo được và phát hành công khai theo định dạng JSON. Đây là thiên đường cho người mẫu.
Ngược lại, mặc dù Dcard rất phổ biến nhưng nó lại làm tốt nhiệm vụ ngăn chặn các trình thu thập thông tin ở giai đoạn sau. Ngoại trừ các bài viết đầu tiên có thể đã được in lại, các bài viết của Dcard trong hai năm qua có thể không được ChatGPT nắm bắt.
"Linh hồn" đằng sau Monday thực ra được học từ tất cả những từ ngữ bạn đã để lại trên Internet trong mười năm qua. Đúng vậy, nó nhớ một chút mọi điều bạn đã nói.
Lần khi bạn nói chuyện với ChatGPT, hãy nghĩ: "Này, liệu nó có thực sự đọc được dòng tweet tôi để lại trên PTT mười năm trước không?"
Rất có thể.




