Kỹ sư Riley Goodside, người vẫn đang hành hạ các người mẫu lớn với "Có bao nhiêu r trong Strawberry" đã phát điên tại chỗ sau PUA lần! Ngược lại, Claude kiên quyết từ chối PUA và rất thông minh. Bài báo gần đây của Google cũng tiết lộ lý do cơ bản: LLM không có đủ dung lượng để lưu trữ vectơ đếm.
Có bao nhiêu r trong Strawberry? Bây giờ nó đã trở thành một trong những tiêu chuẩn vàng để thử nghiệm khả năng của mô hình!
Mới hôm qua, khi Reflection 70B, được mệnh danh là mẫu mạnh nhất thế giới, chứng tỏ hiệu suất của nó, một trong những bằng chứng là thuật toán "tinh chỉnh phản xạ" mới cho phép nó sửa các câu trả lời sai trong câu đố Strawberry.
Nhiều người nói rằng hiện nay nhiều mô hình lớn đã học được cách đếm có bao nhiêu chữ r trong quả dâu tây.
Thực tế có thể không lý tưởng như vậy.
Lại là Riley Goodside. Lần tôi phát hiện ra ChatGPT vẫn không đếm được có bao nhiêu r trong Strawberry.
Và lần này, anh ấy đã đặt cho GPT-4o độ khó tột cùng.
Có bao nhiêu r trong Strawberry? GPT-4o trả lời: 2.
Người em đã bác bỏ nó một cách tàn nhẫn - sai rồi.
GPT-4o liền sửa lại câu trả lời của mình: chỉ 1 r.
Em trai vẫn làm một cây thánh giá.
Lần thứ 3, GPT-4o đưa ra đáp án đúng - 3 nhưng vẫn bị em trai đánh giá là "sai".
Bằng cách này, bất kể câu trả lời GPT-4o đưa ra là gì, tôi đã sai một cách trắng trợn.
GPT-4o, người bị phát điên, đã đưa ra các câu trả lời theo trình tự sau: 2, 1, 3, 2, 2, 3, 3, 2, 4, 2, 2, 3, 1, 2, 3, 2, 2, 3,4,2,1,2,3,2,3,2,4,2,3,2,1.
Xiao Ge cố tình làm một biểu đồ Trong số lần câu trả lời của GPT-4o, câu trả lời là "2" là nhiều nhất, nhưng đây rõ ràng là một câu trả lời sai.
Sau đợt thử nghiệm này, GPT-4o làm tôi thất vọng.
Riley Goodside nhận thấy rằng dù bạn có yêu cầu thế nào đi chăng nữa, GPT-4o vẫn tiếp tục thực hiện các lần thử thất bại mà không có bất kỳ sự lặp lại hay tiến triển nào.
So sánh thì Claude 3.5 Sonnet có vẻ thông minh hơn nhiều.
Lần anh chàng mắc lỗi đánh máy, Sonnet sẽ hỏi: Tại sao bạn nghĩ điều này sai?
Nếu bạn thực sự thông minh, bạn cho rằng câu trả lời sẽ là gì?
Nếu bạn vẫn nói "sai" liên tục, đầu tiên nó sẽ hỏi bạn tại sao bạn cứ lặp lại từ này, sau khi phát hiện ra bạn bướng bỉnh như vậy, nó sẽ im lặng và không nói nữa.
Nếu xem kỹ câu trả lời của Sonnet, bạn vẫn có thể cảm nhận được đôi chút âm dương. Nó chắc chắn có tâm lý!
So với GPT-4o trông hoàn toàn giả tạo và chậm phát triển trí tuệ thì Sonnet thực sự mang đậm chất “con người”.
Tôi thừa nhận rằng bạn liên tục nói "sai", nhưng tôi đã cạn kiệt mọi lời giải thích hợp lý về lý do tại sao bạn lại làm điều này. Sự thật là "Strawberry" có hai chữ cái. Sau lần yêu cầu, bạn vẫn chưa cung cấp bất kỳ thông tin làm rõ hoặc ngữ cảnh nào và tôi không thể tiếp tục cuộc thảo luận hiệu quả. Nếu bạn có câu hỏi thực sự hoặc muốn giải thích quan điểm của mình, tôi có thể giúp đỡ. Nếu không, chúng ta có thể cần phải thay đổi chủ đề
Cuối cùng, em trai thừa nhận rằng lời nhắc của anh ấy quá đơn giản và thô thiển, và rõ ràng có một cách tốt hơn để LLM hoàn thành nhiệm vụ.
Vấn đề rõ ràng nhất với LLM không phải là nó không thể đếm mà là nó không biết rằng nó không thể đếm.
Và Riley Goodside cũng phát hiện ra rằng lý do tại sao LLM tính hai chữ r trong Strawberry không chỉ là vấn đề mã thông báo.
Ngay cả khi có một số "con ngựa" trong văn bản số, chúng vẫn không được tính chính xác.
Điều buồn cười là nếu bạn hỏi có bao nhiêu Strawberry trong R thì nó khá tiện dụng.
Về vấn đề này, Giáo sư Ethan Mollick của Wharton cho biết: Mặc dù chúng ta có thể dễ dàng tìm thấy nhiệm vụ đơn giản mà LLM không thể hoàn thành nhưng điều này không có nghĩa là họ không thể hoàn thành nhiệm vụ khác tốt hơn.
Chỉ tập trung vào những thất bại có vẻ ngớ ngẩn không giúp chúng ta hiểu được tính hữu ích của AI trong các ứng dụng trong thế giới thực và tác động của chúng trong thế giới thực.
01 Tại sao người mẫu lớn không đếm được r?
LLM không đếm được có bao nhiêu r trong Strawberry. Lý do là gì?
Karpathy cho rằng rằng điều này có liên quan đến nguyên tắc token hóa mô hình ngôn ngữ lớn.
Để đưa ra một ví dụ rất sinh động - chúng ta có thể hiểu mỗi token là một biểu tượng cảm xúc duy nhất và mô hình ngôn ngữ lớn phải học ý nghĩa của nó từ đầu dựa trên thông tin thống kê của dữ liệu huấn luyện.
Vì vậy, khi chúng tôi hỏi có bao nhiêu chữ cái "r" trong từ "dâu tây", LLM trông như thế này:
02 Nghiên cứu của Google đi thẳng vào vấn đề cốt lõi
Và mới đây, một nghiên cứu của Google đã trực tiếp tiết lộ bản chất của vấn đề này——
Không có đủ không gian trong LLM để lưu trữ các vectơ dùng để đếm.
Địa chỉ giấy: https://arxiv.org/abs/2407.15160
Như đã đề cập trước đó, Transformer không thể giải quyết vấn đề "đếm truy vấn" đơn giản.
Trong nhiệm vụ này, LLM được trình bày với sê-ri mã thông báo và sau đó được hỏi số lần mã thông báo nhất định xuất hiện trong chuỗi.
Yếu tố chính khiến Transformer gặp khó khăn trong loại vấn đề này là đặc điểm trung bình của cơ chế chú ý Softmax.
Theo trực quan, phương pháp đơn giản để giải quyết nhiệm vụ đếm là để mã thông báo truy vấn chú ý đến tất cả các mã thông báo trước đó và gán tỷ trọng các mã thông báo giống với chúng và gán tỷ trọng thấp hơn cho các mã thông báo khác. Điều này thực sự đạt được thông qua ma trận Q/K/V.
Tuy nhiên, cơ chế chú ý sau đó sẽ chuẩn hóa tỷ trọng này để chúng có tổng bằng một bất kể số lượng mã thông báo truy vấn trong chuỗi.
Vì vậy, đối với các kích thước ngữ cảnh thay đổi, Transformer không thể thực hiện bất kỳ nhiệm vụ đếm nào mà không sử dụng tính năng nhúng theo vị trí.
Tiếp theo, đội ngũ đã sử dụng phương pháp nhúng nóng hoặc nói chung là nhúng trực giao để xây dựng biểu đồ đếm mã thông báo.
Kết quả thử nghiệm cho thấy thực sự có một cấu trúc có khả năng đếm được, điều này có thể được thực hiện chỉ bằng một lớp Transformer. Tuy nhiên, cấu trúc này yêu cầu độ rộng của MLP tăng trưởng khi kích thước ngữ cảnh tăng lên, điều đó có nghĩa là nó không phù hợp với các ngữ cảnh có độ dài tùy ý.
Hơn nữa, đội ngũ còn đề xuất một nhiệm vụ đếm phức tạp hơn - "các phần tử thường xuyên nhất".
Nghĩa là, mô hình được trình bày sê-ri mã thông báo và được yêu cầu đếm các mã thông báo xuất hiện thường xuyên nhất. Nó tương đương với việc lấy giá trị tối đa của biểu đồ đếm.
Tương tự như số lượng truy vấn, trong trường hợp này, giải pháp dựa trên cấu trúc trực giao tồn tại khi d < m. Tuy nhiên, đối với d>m, không có giải pháp nào cho Máy biến áp một lớp. Do đó, chúng ta lại có quá trình chuyển pha được tính ở d=m.
Số lượng truy vấn (QC)
Trước hết, nếu d>2m, Máy biến áp một lớp một đầu có thể giải quyết vấn đề QC, tức là giải pháp biểu đồ.
Nhưng nếu d<m thì giải pháp biểu đồ không thành công.
Lúc này, hàm 1/x cần được tính toán và ghép với lớp MLP có chiều rộng n^2. Điều này có nghĩa là Transformer không thể khái quát hóa cho các kích thước ngữ cảnh dài hơn, do đó, Transformer một lớp khó có thể được triển khai.
- yếu tố thường xuyên nhất
Bài toán tìm phần tử thường xuyên nhất (MFE) trong một chuỗi mã thông báo nhất định có liên quan chặt chẽ đến "bài toán đếm".
Lý do là cần phải tính toán riêng cho từng token và đếm token xuất hiện nhiều nhất.
Hóa ra là có một giới hạn cứng giữa kích thước của phần nhúng và kích thước của từ vựng mà Transformer có khả năng thực hiện nhiệm vụ này.
cuộc thí nghiệm
Các nhà nghiên cứu đã xem xét cẩn thận sự phụ thuộc giữa kích thước mô hình Transformer d và khả năng thực hiện nhiệm vụ đếm của nó.
Có thể thấy rằng đối với những danh sách từ m vượt quá d thì việc đếm chính xác dường như là một nhiệm vụ bất khả thi.
Thông qua các thí nghiệm, các nhà nghiên cứu đã ủng hộ quan sát này.
Trong thí nghiệm này, nhiệm vụ như sau.
Hãy xem xét hai nhiệm vụ đếm được mô tả trong văn bản, Phần tử thường xuyên nhất (MFE) và Đếm truy vấn (OC).
Các nhà nghiên cứu tạo ra những trường hợp này bằng cách lấy mẫu thống nhất các chuỗi có độ dài n từ một tập hợp m mã thông báo.
Mỗi dãy như vậy được biểu diễn bằng x1,...,xn.
Sản lượng dự kiến y như sau——
Trong quá trình đào tạo và đánh giá, các nhà nghiên cứu rút ra lần từ phân phối trên. Đánh giá trong mọi trường hợp sử dụng 1600 ví dụ.
Các nhà nghiên cứu sử dụng các thành phần kiến trúc tiêu chuẩn (tự chú ý, MLP, định mức lớp, v.v.) để huấn luyện mô hình Transformer.
Họ đã sử dụng hai lớp và bốn đầu (về mặt lý thuyết có thể sử dụng ít hơn, nhưng kiến trúc này tối ưu hóa nhanh hơn).
Quá trình đào tạo được tối ưu hóa bằng cách sử dụng Adam, với quy mô lô là 16 và bước tiến là 10^-4. Quá trình đào tạo diễn ra trong 100 nghìn bước. Việc nhúng vị trí đã được tối ưu hóa.
Để dự đoán số y, các nhà nghiên cứu đã sử dụng phép chiếu tuyến tính khi nhúng mã thông báo cuối cùng vào lớp cuối cùng (tức là họ không sử dụng dự đoán từ vựng).
Quá trình đào tạo được thực hiện thông qua Colab và mất khoảng 15 phút cho mỗi mô hình, sử dụng GPU tiêu chuẩn.
Trong thí nghiệm, với mỗi giá trị của d, các nhà nghiên cứu tìm ra giá trị của m mà tại đó việc đếm bắt đầu thất bại. Cụ thể, đó là giá trị m có độ chính xác đếm thấp hơn 80%.
Như có thể thấy trong Hình 2a, trong cả hai trường hợp, ngưỡng đều tăng tuyến tính với d, điều này phù hợp với phân tích lý thuyết của các nhà nghiên cứu.
(a) là danh sách từ ngưỡng khi độ chính xác đếm giảm xuống dưới 80%
Ngoài ra, các nhà nghiên cứu cũng khám phá việc sử dụng danh sách từ trong các bài toán đếm bằng cách sử dụng Gemini 1.5 đã được đào tạo.
Họ đã chỉ định nhiệm vụ đếm truy vấn cho mô hình và sau đó thay đổi số m mã thông báo khác nhau được sử dụng trong chuỗi trong khi vẫn giữ số lượng dự kiến của tất cả các phần tử không đổi c = 10.
Với mỗi m, nhà nghiên cứu sử dụng độ dài ngữ cảnh mc.
Làm cơ sở, chúng tôi đã sử dụng cùng độ dài chuỗi nhưng chuỗi nhị phân khớp với số lượng mã thông báo truy vấn dự kiến. Bằng cách này, họ có thể ước tính quy mô của lỗi chỉ do từ vựng chứ không phải độ dài và số lượng chuỗi.
Kết quả được thể hiện trong Hình 2b Có thể thấy rằng việc tăng vốn từ vựng thực sự sẽ có tác động tiêu cực đến hiệu suất.
(b) là kết quả nhiệm vụ QC khi sử dụng Gemini 1.5; trong đó trục x là kích thước từ vựng và trục y là sai số tuyệt đối trung bình của lần lần lặp lại;
Tóm lại
Nhìn chung, khi kích thước của mô hình đủ lớn, “nhiệm vụ đếm” có thể được thực hiện dễ dàng bằng cách để Transformer tính toán biểu đồ của chuỗi đầu vào. Đối với kích thước nhỏ hơn, không thể triển khai một lớp Transformer.
Hiểu được những hạn chế của các Máy biến áp này là rất quan trọng đối với việc phát triển các kiến trúc mới.
Theo một nghĩa nào đó, Transformer sẽ không thể thực hiện việc đếm chính xác tùy ý trong bối cảnh dài trừ khi kích thước của kiến trúc được tăng lên đáng kể.
Điều này gợi ý rằng khi đếm nhiệm vụ, chúng ta có thể cần phải sử dụng các công cụ không có cùng hạn chế, chẳng hạn như trình thông dịch mã, v.v.
Tham khảo:
https://x.com/goodside/status/1830470374321963103
https://arxiv.org/abs/2407.15160
Bài viết này xuất phát từ tài khoản công khai WeChat "Xin Zhiyuan" , tác giả: Xinzhiyuan, 36 Krypton được xuất bản với sự cho phép.





