OpenAI tiết lộ bí mật về đào tạo GPT-4.5: 100.000 GPU, hầu hết là nhân viên trên chiến trường, "vấn đề thảm khốc" đã xảy ra

04-13

Bài viết này được dịch máy

Xem bản gốc

Theo Zhidongxi đưa tin vào ngày 13 tháng 4, hơn một tháng sau khi phát hành GPT-4.5, mô hình đắt nhất trong lịch sử OpenAI, đồng sáng lập kiêm giám đốc điều hành của OpenAI, Sam Altman đã có cuộc trò chuyện thông tin cao kéo dài 45 phút với ba nhân sự kỹ thuật cốt lõi của GPT-4.5, lần đầu tiên tiết lộ nhiều chi tiết chưa biết về mô hình, chẳng hạn như thời gian phát triển quá hạn nghiêm trọng , các cụm máy tính thường xuyên gặp lỗi và lộ trình cải tiến không thể đoán trước .

Dự án GPT-4.5 đã được triển khai cách đây hai năm. Đây là kế hoạch toàn diện nhất của OpenAI cho đến nay, với sự hợp tác của hàng trăm đội ngũ. Altman cho biết OpenAI gần như "toàn lực" cho dự án này.

Trong quá trình nghiên cứu và phát triển, đội ngũ OpenAI đã gặp phải nhiều " vấn đề thảm khốc ". Cụm 100.000 thẻ đã phơi bày những lỗi tiềm ẩn có xác suất thấp và ăn sâu trong cơ sở hạ tầng. Để cân bằng giữa tính kịp thời và hiệu suất, đội ngũ hệ thống của OpenAI phải " sửa chữa và đào tạo cùng lúc ". Trong đó, có một lỗi nhỏ ẩn khiến cụm thường xuyên báo lỗi và không được phát hiện cho đến khi thanh tiến trình đào tạo đạt khoảng 40%.

Tuy nhiên, điều này cũng giúp OpenAI xây dựng một nền tảng công nghệ mạnh mẽ hơn: giờ đây có thể sao chép một mô hình lớn ở cấp độ GPT-4 chỉ với 5-10 người. Hiệu suất được cải thiện từ GPT-4 lên GPT-4.5 khoảng 10 lần, đạt được " trí thông minh được nâng cao toàn diện nhưng khó có thể định lượng ", điều này khiến các nhân viên của OpenAI ngạc nhiên.

Đội ngũ OpenAI nhận ra rằng để đạt được hiệu suất cải thiện gấp 10 lần hoặc thậm chí 100 lần, tỷ lệ băm không còn là rào cản nữa. Chìa khóa nằm ở hiệu quả dữ liệu , nghĩa là phát triển phương pháp có thể sử dụng nhiều tỷ lệ băm hơn để tìm hiểu nhiều kiến thức hơn từ cùng một lượng dữ liệu .

Đồng thời, hệ thống đang chuyển từ kiến trúc cụm đơn sang kiến trúc đa cụm. Đào tạo trong tương lai có thể bao gồm việc học tập cộng tác ở quy mô 10 triệu GPU và khả năng chịu lỗi của nó cần được cải thiện hơn nữa.

Trong cuộc trò chuyện, các nhân viên của OpenAI cũng chia sẻ mối quan hệ giữa hiệu ứng đuôi dài của dữ liệu và Luật mở rộng quy mô, những lợi thế của mô hình đồng thiết kế độ sâu của đội ngũ máy học và hệ thống, bản chất của học không giám sát và văn hóa khắc phục sự cố "không bao giờ bỏ qua bất kỳ điểm bất thường nào", thể hiện đầy đủ những suy nghĩ và thành quả của OpenAI trong quá trình phát triển GPT-4.5.

Ngoài Altman, ba nhân viên của OpenAI tham gia cuộc trò chuyện lần là Alex Paino (chịu trách nhiệm về thuật toán học máy tiền đào tạo của GPT-4.5), Amin Tootoonchian (Kiến trúc sư hệ thống trưởng của OpenAI) và Daniel Selsam (nghiên cứu về hiệu quả dữ liệu và thuật toán).

Sau đây là bản tổng hợp đầy đủ video cuộc trò chuyện của Altman với đội ngũ OpenAI GPT-4.5 (để dễ đọc hơn, Zhidongxi đã thực hiện một số bổ sung, xóa và sửa đổi mà không vi phạm ý định ban đầu):

01. GPT-4.5 đã được ra mắt cách đây hai năm.

Dự án mất nhiều thời gian hơn dự kiến

Sam Altman: Cần phải làm gì để xây dựng được một mô hình lớn như vậy (GPT-4.5)?

Alex Paino: Chúng tôi bắt đầu dự án này cách đây khoảng hai năm. Vào thời điểm đó, OpenAI sắp ra mắt một cụm máy tính lớn mới và đội ngũ của chúng tôi đã nhìn thấy cơ hội này và đã nỗ lực sê-ri để xác định các tính năng mà mô hình cần bao gồm và thực hiện lượng lớn các thử nghiệm vận hành nhằm giảm thiểu rủi ro.

Chúng tôi có một kế hoạch dài hạn cho việc này, bao gồm toàn bộ công nghệ từ hệ thống đến máy học. Giảm thiểu rủi ro và chuẩn bị cho đào tạo là một quá trình thực hiện lâu dài, và bản thân quá trình đào tạo cũng là một dự án rất lớn.

Amin Tootoonchian: Tôi cho rằng quá trình này đòi hỏi sự hợp tác chặt chẽ giữa đội ngũ học máy và đội ngũ hệ thống ngay từ đầu, cho đến khi chúng tôi tìm ra mô hình mà chúng tôi muốn đào tạo rồi mới bắt đầu đào tạo.

Chúng tôi đã đưa ra dự đoán trong cả máy học và hệ thống để cố gắng thu hẹp khoảng cách giữa kỳ vọng và thực tế. Tuy nhiên, do chúng ta làm việc với tốc độ nhanh và phải sử dụng các tài nguyên máy tính mới nhất nên việc đào tạo mô hình trở nên khó khăn để có thể lập kế hoạch hoàn hảo trước .

Chúng ta gần như luôn bắt đầu quá trình đào tạo với nhiều câu hỏi chưa có lời giải đáp và cố gắng vượt qua thử thách cũng như tiến bộ trong quá trình thực hiện. Giải pháp chính là bổ sung thêm tài nguyên tính toán.

Giai đoạn cuối cùng là thực hiện, đòi hỏi lượng lớn năng lượng và động lực từ nhiều người trong một thời gian dài để hoàn thành quá trình đào tạo.

Sam Altman: Bạn nghĩ khoảng cách giữa kỳ vọng và thực tế của chúng ta lớn đến mức nào?

Amin Tootoonchian: Về mặt hệ thống, lúc đầu, chúng ta thường không đạt được trạng thái mong đợi . Chúng ta luôn phải lựa chọn: trì hoãn việc ra mắt và chờ giải quyết vấn đề, hay ra mắt sớm và giải quyết vấn đề trong quá trình thực hiện. Đây luôn là sự đánh đổi để tránh việc trì hoãn quá trình một cách vô lý.

Nhưng hầu như luôn có một số vấn đề bất ngờ và điều chúng ta phải làm là xử lý nút này tốt nhất có thể, giải quyết các yếu tố chưa biết và lập kế hoạch đào tạo mô hình.

Alex Paino: Trong dự án này, mục tiêu của chúng tôi là tạo ra GPT-4.5, nghĩa là nó thông minh hơn GPT-4 gấp 10 lần. Đây là mục tiêu ban đầu của chúng tôi đặt ra cách đây khoảng 2 năm.

Có rất nhiều điều đã xảy ra trong quá trình này và chúng tôi tự hỏi liệu mình có thể làm tốt hơn như mong đợi hay không? Đó là một hành trình rất phức tạp, nhưng cuối cùng, chúng tôi đã tạo ra một mô hình mà chúng tôi cho rằng là thông minh hơn GPT-4 gấp 10 lần về khả năng tính toán hiệu quả mà chúng tôi đưa vào.

Amin Tootoonchian: Về mặt thực hiện, dự án GPT-4.5 mất ít thời gian hơn nhiều so với dự kiến ban đầu của chúng tôi.

02. Bây giờ hãy đào tạo một mô hình cấp độ GPT-4,

Chỉ cần 5-10 người để hoàn thành

Sam Altman: Tại sao cụm này lại gặp phải nhiều vấn đề đến vậy khi mở rộng từ 10.000 thẻ lên 100.000 thẻ?

Amin Tootoonchian: Tôi cho rằng nếu các nhà phát triển hệ thống đủ nhạy bén, hầu hết các vấn đề có thể được quan sát ở quy mô nhỏ.

Một số vấn đề không chỉ xảy ra khi đào tạo quy mô lớn mà còn phổ biến trong tự nhiên, nhưng chúng trở thành vấn đề thảm khốc khi quy mô tăng lên , đặc biệt là khi đội ngũ không lường trước được rằng những vấn đề này sẽ trở nên trầm trọng đến mức như vậy.

Sam Altman: Một số điều nào gây ra hậu quả thảm khốc?

Amin Tootoonchian: Tôi cho rằng các vấn đề về cơ sở hạ tầng đều rất rõ ràng, dù là tỷ lệ hỏng hóc, loại hỏng hóc hay tổng số hỏng hóc, thì tất cả đều rất cao. Cụm 100.000 thẻ là một nhóm mẫu quy mô lớn, vì vậy chúng tôi cũng phát hiện ra những vấn đề mà các nhà cung cấp tỷ lệ băm không quan sát thấy.

Mạng lưới là một phần trong đó và một accelerator đơn lẻ cũng có thể gặp vấn đề. Nhưng đó chính là vẻ đẹp của loại hệ thống này – hầu như tất cả các thành phần đều cần hoạt động theo đúng mục đích để tạo ra kết quả mong muốn. Nhiệm vụ của chúng ta là giảm thiểu vấn đề này.

Sam Altman: Thật sự rất khó để làm việc ở giới hạn của quy mô cụm, nhưng tôi cũng nhận thấy rằng việc thực hiện những việc không còn nằm trong giới hạn công nghệ trở nên dễ dàng hơn nhiều. Việc đào tạo GPT-4.5 cần đến hàng trăm người và hầu như tất cả nhân viên của OpenAI đều tham gia.

Nhưng nếu bạn chọn một đội ngũ tối thiểu từ OpenAI ngày nay và đào tạo lại GPT-4 từ đầu bằng mọi thứ chúng ta biết và tất cả các hệ thống hoạt động, thì cần bao nhiêu người?

Alex Paino: Tôi cho rằng hiện tại cần khoảng 5 đến 10 người để tạo ra mô hình cấp độ GPT-4. Trong quá trình hoàn thiện GPT-4.5, nền tảng công nghệ đã được cải thiện đáng kể.

Trên thực tế, chúng tôi đã làm điều tương tự khi đào tạo GPT-4.5 - chúng tôi đã đào tạo GPT-4o, một mô hình cấp độ GPT-4, được đào tạo lại bằng cách sử dụng nhiều nội dung tương tự từ dự án nghiên cứu GPT-4.5. Rất ít người được sử dụng để tiến hành đào tạo lần.

03. Hiệu quả dữ liệu là chìa khóa để đột phá trong các mô hình lớn.

Phần cứng thế hệ mới mang lại nhiều thách thức

Sam Altman: Còn theo quan điểm của anh thì sao, Dan? Tại sao việc đào tạo các mô hình lớn lại khó khăn?

Daniel Selsam: Tôi cho rằng thật khó để làm bất cứ điều gì mới mẻ. Tôi cho rằng ngay cả khi chỉ cần phát hiện ra người khác đã làm điều gì đó thì mọi việc cũng trở nên dễ dàng hơn nhiều vì phần khó nhất là phải có niềm tin để làm điều gì đó ngay từ đầu. Tôi cảm thấy rằng chỉ cần biết rằng điều gì đó là có thể là một mã gian lận cực kỳ mạnh mẽ giúp mọi thứ trở nên dễ dàng hơn rất nhiều.

Alex Paino: Chúng tôi đang mở mở rộng quy mô chạy thử nghiệm GPT nhanh gấp 10 lần so với trước đây và chúng tôi luôn tìm thấy những điều mới thú vị mà bạn không nhất thiết phải mong đợi.

Sam Altman: Cần phải làm gì để đạt được tăng trưởng 10x hoặc 100x tiếp theo trong quy mô đào tạo trước?

Daniel Selsam: Hiệu quả dữ liệu. Kiến trúc Transformer (còn gọi là GPT) rất hiệu quả trong việc sử dụng dữ liệu . Nó có thể hấp thụ và nén thông tin tốt và đạt được tính tổng quát. Tính năng tuyệt vời nhất của nó là khả năng hấp thụ thông tin một cách hiệu quả bằng cách sử dụng các tài nguyên máy tính.

Tuy nhiên, độ sâu hiểu biết sâu sắc mà nó có thể rút ra từ dữ liệu là có hạn. Khi sức mạnh tính toán tăng trưởng nhanh nhưng dữ liệu tăng trưởng tương đối chậm, dữ liệu sẽ trở thành nút thắt của mô hình chuẩn này. Điều này đòi hỏi sự đổi mới thuật toán và phát triển phương pháp có thể sử dụng nhiều tỷ lệ băm hơn để tìm hiểu thêm kiến thức từ cùng một lượng dữ liệu .

Sam Altman: Bạn cho rằng chúng ta cần tiếp tục mở rộng điều gì nữa?

Amin Tootoonchian: Câu trả lời của tôi là về hệ thống. Tôi cho rằng khối lượng công việc khổng lồ cần thực hiện cho GPT-4.5 về cơ bản là hệ quả tất yếu của các thông số kỹ thuật của mô hình. Chúng tôi không thể đào tạo GPT-4.5 bằng chính kiến trúc kỹ thuật giống như GPT-4.

Về mặt quản lý trạng thái, vì tài nguyên điện toán cần thiết đã vượt quá khả năng xử lý của một cụm đơn lẻ nên chúng ta phải chuyển sang kiến trúc đào tạo đa cụm. Để đạt được điều này, chúng tôi phải tích hợp nhiều quy trình công việc khác nhau trong một thời gian ngắn.

Mặc dù điều này thực sự giúp chúng tôi đạt được bước đột phá theo từng giai đoạn, nhưng để đạt được bước cải thiện hiệu suất tiếp theo, chúng tôi vẫn cần giải quyết một số vấn đề kỹ thuật đã biết nhưng tạm thời bị gác lại - những vấn đề này không thể tránh khỏi. Chính những sự đánh đổi về mặt kỹ thuật này tiếp tục kéo dài chu kỳ phát triển của một hệ thống hoàn hảo và chúng tôi luôn đưa ra những lựa chọn chiến lược để theo đuổi kế hoạch triển khai tối ưu.

Cần phải hiểu rõ rằng bản thân hệ thống không phải là mục tiêu cuối cùng mà giá trị đầu ra thực tế của nó mới là yếu tố cốt lõi cần xem xét. Về mục tiêu cải thiện hiệu suất gấp 10 lần tiếp theo, tôi cho rằng đột phá về khả năng chịu lỗi là rất quan trọng. Chúng ta cần xây dựng một cơ chế chịu lỗi được phối hợp độ sâu với khối lượng công việc để giảm đáng kể sự lo lắng khi vận hành. Độ phức tạp trong vận hành và bảo trì của các hệ thống siêu lớn hiện nay về cơ bản khác biệt so với các hệ thống trước đây.

Sam Altman: Bạn có biết tỷ lệ thất bại trong đào tạo GPT-4.5 là do những thành phần nhất định nào không?

Amin Tootoonchian: Tôi không có con số cụ thể để chia sẻ, nhưng nhìn chung, trong giai đoạn đầu triển khai thế hệ phần cứng mới, hoạt động của hệ thống thường phải đối mặt với nhiều thách thức kỹ thuật chưa được nhận thức đầy đủ. Chúng tôi quyết định tiến hành dự án mà không hiểu đầy đủ về vấn đề, dẫn đến tỷ lệ thất bại cao trong giai đoạn đầu triển khai.

Nhưng kinh nghiệm cho thấy khi xác định và giải quyết được nguyên nhân gốc rễ thì tỷ lệ thất bại có thể giảm đáng kể. Hiện tượng này về cơ bản phản ánh quá trình hiểu biết sâu sắc hơn của chúng ta về cơ sở hạ tầng - một số người gọi đó là làm sạch cơ sở hạ tầng hoặc hiểu các vấn đề cơ bản của cơ sở hạ tầng.

Các giai đoạn thực hiện đầu tiên hầu như luôn khá khó khăn và khi chúng tôi tiến hành dự án, chúng tôi tiếp tục phát hiện và giải quyết các chế độ lỗi mới, nhưng cuối cùng tỷ lệ lỗi giảm và thời gian hoạt động sẽ tăng.

Về cơ bản, đây là vấn đề đánh đổi ưu tiên: trong giai đoạn đầu của vòng đời cơ sở hạ tầng, rủi ro thất bại thường khó ước tính chính xác; và việc theo đuổi quá mức trạng thái lý tưởng cuối cùng (ban đầu được gọi là "Khu đô thị", một thiết kế thành phố-nhà nước lý tưởng) có thể dẫn đến tình trạng hệ thống không có sẵn ở giai đoạn đầu.

04. Tài nguyên máy tính không còn là rào cản chính nữa.

Thuật toán vẫn chưa đạt đến giới hạn trên lý thuyết

Sam Altman: Mặc dù các mô hình suy luận là thành phần quan trọng của công nghệ tương lai, nhưng hiện tại chúng ta hãy tập trung vào ranh giới của các mô hình được đào tạo trước truyền thống. Ngay cả khi chúng ta có tỷ lệ băm GPU không giới hạn, băng thông mạng không giới hạn và nguồn cung cấp điện không giới hạn, chúng ta vẫn bị hạn chế bởi các điểm nghẽn kỹ thuật hiện tại - bao gồm các vấn đề về độ tin cậy của hệ thống, thiếu phương pháp đào tạo chịu lỗi và hạn chế của các tập dữ liệu hiện có.

Theo quy luật tiến hóa, mỗi phiên bản GPT chính đều đạt được sự cải thiện gấp 100 lần, dựa trên ranh giới công nghệ hiện tại, thì sự phát triển của các mô hình được đào tạo trước có thể đạt đến cấp độ nào? Riêng đối với sê-ri mô hình GPT, dựa trên hệ thống kiến thức hiện có của chúng ta, loại mô hình nào chúng ta có thể đào tạo về mặt lý thuyết? Có thể tạo GPT-5.5 được không?

Alex Paino: Theo quan điểm phát triển thuật toán và học máy, chúng ta vẫn chưa đạt đến ngưỡng lý thuyết rõ ràng. Trên thực tế, chúng ta mới chỉ bắt đầu khám phá các thuật toán sử dụng dữ liệu hiệu quả hơn và cách tận dụng tốt hơn các nguồn dữ liệu hiện có. Tình huống này rất thú vị - ngay cả các mô hình như GPT-4 phần lớn vẫn được phát triển trong điều kiện hạn chế về tài nguyên máy tính, điều này cũng quyết định hướng đi của hầu hết các nghiên cứu trước đây.

Nhưng tình hình bây giờ đã hoàn toàn khác. Kể từ GPT-4.5, dữ liệu, thay vì tính toán, đang trở thành hạn chế chính trong một số khía cạnh chính. Sự thay đổi này khiến việc nghiên cứu kém thú vị hơn.

Sam Altman: Nhưng đây là một bước phát triển đáng kinh ngạc mà thế giới có thể vẫn chưa nhận ra đầy đủ: trên những mô hình tốt nhất mà chúng ta có thể xây dựng, tài nguyên điện toán không còn là nút thắt chính nữa. Sự thay đổi này rất quan trọng, xét cho cùng, chúng ta đã sống trong hoàn cảnh bị hạn chế về máy tính quá lâu rồi.

05. Sự cải thiện hiệu suất tổng thể của mô hình là có thể dự đoán được.

Con đường cải thiện trí thông minh khó có thể dự đoán được

Sam Altman: Bài học máy học thú vị nhất mà chúng tôi học được khi đào tạo GPT-4.5 là gì? Chỉ cần cho chúng tôi biết bạn muốn chia sẻ điều gì.

Amin Tootoonchian: Nhìn chung, những tình huống đáng suy nghĩ nhất là những tình huống lệch khỏi kỳ vọng của chúng ta, đặc biệt là khi chúng ta cố gắng hiểu tại sao hiệu suất thực tế lại lệch khỏi đường cong mong đợi.

Alex Paino: Một trong những phát hiện đáng ngạc nhiên nhất đối với chúng tôi là sự khác biệt lớn về mở rộng của các thành phần học máy khác nhau. Một số bộ phận mở rộng tốt, một số thì không. Đây là điều chúng tôi thực sự nhận ra trong quá trình đào tạo thực tế. Trải nghiệm này đã mang lại cho chúng tôi rất nhiều cảm hứng.

Daniel Selsam: Tôi cho rằng hai đặc điểm cốt lõi của mô hình GPT là: thứ nhất, tổn thất thử nghiệm ( chỉ báo mức độ hiệu quả của mô hình trên dữ liệu thử nghiệm chưa biết) có thể được dự đoán chính xác ; Thứ hai, hiệu suất mô hình được cải thiện theo dự đoán khi quy mô mở rộng . Thậm chí còn đáng kinh ngạc hơn, việc giảm thiểu thất bại trong các bài kiểm tra sẽ chuyển thành trí thông minh được nâng cao toàn diện theo những cách bí ẩn khó có thể định lượng nhưng lại rất đáng kinh ngạc khi quan sát.

Sam Altman: Bạn có thực sự lạc quan về điều này không? Bạn có hoàn toàn đồng ý với quan điểm này không?

Daniel Selsam: Điều tôi muốn nói là chúng tôi đã phát hiện ra một hiện tượng đặc biệt thú vị từ thử nghiệm GPT-4.5 - sau khi thử nghiệm lại, nhiều khả năng tinh vi mà mô hình thể hiện đã hoàn toàn vượt xa mong đợi của mọi người.

Chúng tôi tin tưởng rằng nó sẽ trở nên thông minh hơn theo những cách khó có thể xác định trước và sau khi triển khai thực tế, những cải tiến tinh tế này có thể được quan sát thấy ở sự hài lòng của người dùng: khả năng dự trữ ý thức chung mạnh mẽ hơn, khả năng hiểu ngữ cảnh chính xác hơn và nắm bắt ngữ nghĩa tinh tế hơn - đây chính là điều kỳ diệu mà những mất mát thử nghiệm bổ sung đó mang lại. Theo tôi, Luật mở rộng được xác minh hoàn hảo trong chiều hướng này.

06. Học máy hoạt động chặt chẽ với đội ngũ hệ thống.

Không "quét tuyết trước cửa nhà mình"

Sam Altman: Khoảnh khắc tích cực nhất trong suốt quá trình đào tạo là gì? Kỷ niệm đáng nhớ nhất của bạn là gì? Rõ ràng là đã có rất nhiều đau đớn, nhưng hy vọng nỗi đau đó đã dịu đi một chút.

Alex Paino: Tôi đã có một trong những khoảnh khắc như thế. Chúng tôi đã thực hiện rất nhiều công việc học máy trong quá trình đào tạo và tôi cho rằng một số thay đổi chúng tôi thực hiện trong thời gian chạy đã có tác động khá tốt, có thể tốt hơn mong đợi và đây là thời gian rất thú vị đối với chúng tôi.

Amin Tootoonchian: Với tôi, trong khi đào tạo, chúng tôi cũng đồng thời xây dựng cơ sở hạ tầng. Chúng tôi tin chắc rằng chúng tôi có thể vượt qua được rào cản hiệu suất này, chúng tôi có kế hoạch và mọi người đang thực hiện theo kế hoạch đó, nhưng sẽ mất nhiều thời gian. Thật là khó khăn, chắc chắn là khó khăn hơn tôi nghĩ. Dự đoán của tôi đã sai và tôi đã đánh giá thấp thời gian cần thiết để giải quyết những vấn đề này.

Tôi vẫn còn nhớ khoảnh khắc khi đội ngũ cuối cùng đã vượt qua được những vấn đề quan trọng đó và đạt được những cải thiện đáng kể về hiệu suất. Bạn có thể cảm nhận rõ ràng sự thay đổi năng lượng của toàn đội ngũ- mọi người đột nhiên tràn đầy năng lượng và chạy nước rút về đích cuối cùng với động lực mới.

Điều tuyệt vời nhất là thời gian hoàn thành ước tính được hiển thị trên trình theo dõi trạng thái của chúng tôi đã liên tục được rút ngắn từ hai năm đầu tiên cho đến khi cuối cùng được khóa trong một nút thời gian rõ ràng. Sự thúc đẩy mà tiến bộ rõ rệt này mang lại cho tinh thần đội ngũ là không thể đong đếm được. Tôi cho rằng đó chính là vẻ đẹp của nó.

Tôi muốn nhấn mạnh rằng công việc nghiên cứu máy học không bao giờ dừng lại. Quá trình đồng thiết kế máy học này vẫn tiếp tục ngay cả sau khi quá trình đào tạo bắt đầu. Đội ngũ học máy không chỉ chủ động theo dõi các vấn đề từng đánh dấu là "theo dõi" mà còn tiếp tục đưa ra những cải tiến thực sự giúp cải thiện thời gian đào tạo.

Điều này phản ánh hoàn hảo đội ngũ của chúng tôi - không có ranh giới công việc nơi mọi người đều chăm lo cho công việc của riêng mình , mà thay vào đó là sự hợp tác thực sự liền mạch, và sự gắn kết này là lợi thế lớn nhất của chúng tôi.

07. Đào tạo trước GPT-4.5 là kế hoạch toàn diện nhất.

Không bao giờ bỏ qua bất kỳ sự bất thường nào

Daniel Selsam: Đã có nhiều cuộc thảo luận về những thách thức của chương trình đào tạo lần và tính chính xác của các dự đoán. Nhưng trên thực tế, tất cả những điều này đều dựa trên sự lập kế hoạch cực kỳ cẩn thận - bạn có thể nói chi tiết hơn về điều này không?

Alex Paino: Đây chắc chắn là kế hoạch công phu nhất của chúng tôi cho đến nay. Như tôi đã nói, chúng tôi bắt đầu chuẩn bị cho dự án này một năm trước khi khóa đào tạo chính thức bắt đầu. Trong thời gian này, chúng tôi đã tiến hành lần đợt thử nghiệm kiểm soát rủi ro trên quy mô lớn.

Chúng tôi đặc biệt chú trọng đến việc giới thiệu mọi cải tiến từng bước: bắt đầu bằng cấu hình cơ sở có độ tin cậy cao - có thể hiểu là kiến trúc hoàn thiện tương tự như GPT-4 mà chúng tôi đã hoàn toàn nắm vững ở cấp độ máy học - rồi sau đó tích hợp các tính năng mới như các khối xây dựng.

Điều quan trọng là phải xác thực chặt chẽ mở rộng của từng cải tiến ở các quy mô khác nhau: không chỉ để thấy sự cải thiện về hiệu suất mà còn để đảm bảo rằng những cải tiến này vẫn có hiệu quả khi mô hình mở rộng. Nhiều cải tiến có hiệu quả khi được thử nghiệm ở quy mô nhỏ nhưng lại thất bại khi áp dụng ở quy mô lớn.

Do đó, chúng tôi luôn cảnh giác cao độ trong suốt quá trình và liên tục lặp lại và hoàn thiện phương pháp luật mở rộng của mình. Thông qua hoạt động kiểm soát rủi ro lần , chúng tôi đã tích lũy được lượng lớn kinh nghiệm quý báu, sẽ tiếp tục định hướng cho việc phát triển các mẫu xe sê-ri GPT trong tương lai.

Amin Tootoonchian: Tôi nhớ một khoảnh khắc đặc biệt thú vị mà tôi rất nhớ. Bạn biết đấy, lần chúng ta bắt đầu một nhiệm vụ đào tạo, chúng ta chắc chắn sẽ gặp phải nhiều lỗi khác nhau. Đây là chuyện thường tình. Nhưng điều quan trọng là phải đảm bảo tiến độ không bị cản trở. Bạn phải luôn xác nhận xem tiến độ hiện tại có thực sự đi đúng hướng hay không và liệu những lỗi này có ảnh hưởng nghiêm trọng đến quá trình luyện tập của bạn hay không.

Mặc dù ban đầu chúng tôi rất chắc chắn rằng có một lỗi lớn, nhưng thông qua việc thiết lập một hệ thống giám sát hoàn chỉnh, chúng tôi đã có thể xác định chính xác nguyên nhân gốc rễ của vấn đề: Có phải là lỗi phần cứng không? Lỗi phần cứng loại nào? Dữ liệu có bị hỏng không? Hay đó là lỗi trong chính mô hình máy học? Hay là tình trạng chạy đua trong mã?

Tình hình lúc đó là chúng tôi mở nhiều diễn đàn thảo luận cùng một lúc, với nhiều triệu chứng khác nhau. Sau sê-ri các bản sửa lỗi, chúng tôi đã rơi vào bế tắc: có nhiều vấn đề chưa được giải quyết chất đống trước mắt chúng tôi và mọi người đều đau đầu - liệu những vấn đề này có phải do nhiều lỗi khác nhau gây ra không? Hay là có lỗi ở đâu đó?

Sau đó, chúng tôi tổ chức một cuộc thăm dò ý kiến và yêu cầu các thành viên đội ngũ bỏ phiếu cho nguyên nhân gốc rễ có khả năng xảy ra nhất. Hóa ra, phương án ít được ưa chuộng nhất lại là sự thật: có một vấn đề với hàm torch.sum nằm ở thượng nguồn của PyTorch, một phép tính tổng đơn giản.

Lỗi này đặc biệt thú vị. Điều quan trọng cần biết là chúng tôi chủ yếu sử dụng hạt nhân Triton và chỉ sử dụng lại hoạt động đuốc trong một số tình huống không đáng kể. Lỗi hàm torch.sum do đường dẫn mã cụ thể của chúng tôi kích hoạt đôi khi sẽ gây ra truy cập bộ nhớ bất hợp pháp do đặc điểm phân phối dữ liệu- nó mắc lỗi khi tính toán độ lệch bộ nhớ.

Điều ấn tượng nhất là khi một kỹ sư cuối cùng đã xác định được vấn đề và gửi bản sửa lỗi, tất cả các lỗi với các triệu chứng khác nhau đều biến mất. Mọi người đều hào hứng đổi tên kênh Slack từ "Lý thuyết nhiều lỗi" thành "Lý thuyết một lỗi", và cảnh tượng trở nên đặc biệt vui vẻ.

Con bọ này đã ẩn núp bao lâu rồi? Tính năng này đã tồn tại từ những giai đoạn đầu của quá trình đào tạo, nhưng không được phát hiện cho đến khi đạt được khoảng 40% thanh tiến trình. Quá trình khám phá cũng rất ấn tượng: có một chuỗi lệnh gọi kernel phức tạp và lệnh gọi thứ hai kích hoạt lệnh truy cập bộ nhớ bất hợp pháp.

Mặc dù tần suất xảy ra sự cố này cực kỳ thấp (chỉ xảy ra một lần sau mỗi vài trăm hoặc thậm chí vài nghìn bước đào tạo) và có thể dễ dàng bỏ qua như một lỗi thỉnh thoảng xảy ra, nhưng nguyên tắc của đội ngũ chúng tôi là: không bao giờ bỏ qua bất kỳ sự bất thường nào . Phần tuyệt vời nhất của câu chuyện này là sự kiên trì không dễ dàng bỏ cuộc.

08. Chúng ta vẫn còn xa mới đạt được một hệ thống lý tưởng

Sam Altman: Bạn cần phải làm gì nữa sau khi quá trình đào tạo trước GPT-4.5 bắt đầu?

Alex Paino: Tất cả chúng ta đều cần phải thường xuyên xem xét đường cong thua lỗ. Ngoài ra, hệ thống phải được tối ưu hóa liên tục để cải thiện thiết kế chung chưa được hoàn thiện trước khi bắt đầu đào tạo. Chúng tôi theo dõi chặt chẽ nhiều chỉ báo số thống kê khác nhau trong quá trình đào tạo để đảm bảo không có xu hướng bất thường nào xảy ra. Đồng thời, các giải pháp cải tiến khả thi cũng được khám phá theo góc nhìn của máy học. Mặc dù dữ liệu sẽ tạm thời giảm xuống sau khi quá trình đào tạo trước bắt đầu, nhưng vẫn còn lượng lớn nhiệm vụ cần được xử lý.

Amin Tootoonchian: Tôi cho rằng máy học phụ thuộc rất nhiều vào khả năng phán đoán tính chính xác. Sau khi quá trình đào tạo trước bắt đầu, đối diện lượng lớn tín hiệu nhiễu, chúng ta giống như những thầy bói đang giải thích về lá trà. Chúng ta cần đánh giá xem hệ thống có lành mạnh hay không. Đây là trách nhiệm của chúng tôi.

Sam Altman: Ở cấp độ hệ thống, điều gì sẽ hạn chế khả năng đào tạo mô hình của chúng ta? Đó có phải là chip, bộ xử lý, bộ nhớ, mạng hay nguồn điện?

Amin Tootoonchian: Điểm tuyệt vời của hệ thống là khi bạn đồng thiết kế, khối lượng công việc có thể thích ứng với cơ sở hạ tầng mà bạn xây dựng. Không có sự đồng thuận chung nào cho rằng mạng là nút thắt cổ chai, hay băng thông bộ nhớ là nút thắt cổ chai, hay bất cứ điều gì tương tự như vậy. Ngay cả đối với các mô hình có cùng thông số kỹ thuật, chúng ta có thể chọn thay đổi yêu cầu về tài nguyên, chúng ta có thể chọn tạo ra một hệ thống cân bằng hơn, nhưng việc có nhiều băng thông bộ nhớ hơn luôn có lợi. Thật khó để trả lời câu hỏi này nếu không có sự cân nhắc.

Khi thiết kế GPT-4.5, chúng tôi có thể cần hệ thống có một số đặc tính nhất định mà chỉ có thể đạt được thông qua sự hướng dẫn của con người. Vì vậy, thiết kế chung rất quan trọng trong việc hình thành kiến trúc mô hình và các thành phần kiến trúc, để gắn kết các khía cạnh hệ thống và máy học lại với nhau. Nếu hệ thống có một thuộc tính mà chúng ta không thực sự muốn có. Tình huống lý tưởng của tôi là mọi thứ nên được tách rời để có nhiều không gian hơn cho nhau.

Đôi khi mọi thứ gắn kết với nhau và chúng ta cần đáp ứng các yêu cầu về cơ sở hạ tầng, hoặc mọi thứ phải như vậy. Nhiều khi, chúng ta cần một hệ thống cân bằng và giao tiếp cân bằng. Và giải pháp trung gian tốt nhất mà chúng ta có chính là thiết kế mang tính cộng tác.

Sam Altman: Chúng ta đã gần đạt được mục tiêu hệ thống lý tưởng này đến mức nào?

Amin Tootoonchian: Chúng ta vẫn còn rất xa mục tiêu đó. Quá trình xây dựng một hệ thống luôn như thế này: bắt đầu bằng quan điểm lý tưởng về cách mọi thứ nên hoạt động, sau đó sử dụng các nguồn lực hiện có để điều hòa những khác biệt đó.

Tôi không cho rằng chúng ta làm điều đó vì lý thuyết mà chỉ để thảo luận về việc chúng ta muốn nó như thế nào, để biến nó thành hiện thực và để đến gần lý tưởng đó nhất có thể. Đây có lẽ là phần thú vị nhất của không gian hệ thống. Trước đây mọi người sẽ nói rằng đây là một thiết kế hệ thống tao nhã, nhưng cuối cùng lịch sử sẽ cho chúng ta biết liệu đây có phải là lựa chọn đúng đắn hay sai lầm.

Sam Altman: Nếu bạn có thể tìm ra câu trả lời cho một vấn đề về máy học trước lần đào tạo lớn lần, đó sẽ là gì?

Alex Paino: Tôi muốn biết chúng ta nên sử dụng thuật toán nào với dữ liệu hạn chế và trong các lĩnh vực cụ thể. Mặc dù đây là một câu hỏi rộng nhưng thực ra đây là câu hỏi quan trọng nhất.

Sam Altman: Liệu có thể đào tạo trước đồng thời trên 10 triệu GPU hoặc nhiều hơn trong tương lai không?

Alex Paino: Tôi cho rằng sẽ có, nhưng có thể không phải là mô hình đào tạo trước truyền thống. Hình thức của nó có thể hoàn toàn khác so với công nghệ hiện tại, nhưng nó vẫn giữ được cốt lõi của việc học không giám sát.

Amin Tootoonchian: Tôi thích chế độ bán đồng bộ. Do những hạn chế của định luật vật lý, việc đồng bộ hóa hoàn toàn là không thực tế.

Daniel Selsam: Tôi cho rằng khả năng cao là nó sẽ được phi tập trung. Chắc chắn sẽ có 10 triệu GPU hoạt động cùng nhau trên một hệ thống AI để học và thực hiện nhiệm vụ, nhưng giống như các bộ phận khác nhau của não, chúng không nhất thiết phải giao tiếp với nhau .

09. Việc cải tiến thuật toán sẽ tạo ra hiệu ứng tích lũy.

Lái xe hiệu quả dữ liệu

Sam Altman: Sự khác biệt giữa các thuật toán hiện đại và hiệu quả dữ liệu của con người là gì? Có hy vọng đuổi kịp trong tương lai không?

Daniel Selsam: Thật khó để so sánh trực tiếp hai điều này. Khoảng cách trong việc học ngôn ngữ chắc chắn là rất lớn và chìa khóa nằm ở cách xác định lượng thông tin mà dây thần kinh thị giác của con người tiếp nhận. Tôi cho rằng nhìn chung thuật toán kém hiệu quả hơn nhiều so với con người trong việc xử lý dữ liệu.

Trong nhiều thập kỷ, học độ sâu tập trung vào hiệu quả tỷ lệ băm . Ngoài tăng trưởng của dữ liệu và tỷ lệ băm , điều thực sự đáng ngạc nhiên là hiệu ứng tích lũy của những cải tiến thuật toán. Lần cải thiện 10% hoặc 20% về hiệu suất thuật toán sẽ có tác động đáng kể đến hiệu quả dữ liệu. Cho đến nay, vẫn chưa có động thái nào liên quan đến hiệu quả dữ liệu vì nó không đáng giá khi dữ liệu không được lưu hành và sức mạnh tính toán bị hạn chế.

Hiện nay, chúng ta đang bước vào giai đoạn nghiên cứu AI mới, nơi chúng ta sẽ bắt đầu tích lũy dữ liệu hiệu quả. Tôi cho rằng sẽ là ngu ngốc nếu dự đoán ngay bây giờ rằng chúng ta sẽ gặp phải những trở ngại không thể vượt qua. Bộ não con người chắc chắn hoạt động khác với những cải tiến về thuật toán của chúng ta và chúng ta cần phải thận trọng về vấn đề này. Nhưng tôi cho rằng chúng ta nên lạc quan về sự phát triển trong tương lai của thuật toán.

Sam Altman: Có mối tương quan nào giữa quá trình đào tạo trước quy mô lớn hơn với khả năng học tập và lý luận mạnh mẽ hơn của mô hình không?

Alex Paino: Điều chúng tôi quan sát được là việc đào tạo trước tốt hơn và học không giám sát có xu hướng cải thiện trí thông minh tổng thể của mô hình và giúp ích rất nhiều cho quá trình khái quát hóa, song hành với khả năng lập luận, có thể chậm hơn một chút trong việc cải thiện trí thông minh. Tôi cho rằng chúng bổ sung cho nhau.

Sam Altman: Quá trình đào tạo trước có vẻ đủ tổng quát để thực hiện nhiều việc, trong khi việc đào tạo một mô hình chỉ giúp nó thực hiện tốt một số việc nhất định, đúng không?

Alex Paino: Điều đó thật thú vị, nhưng không có gì đáng ngạc nhiên khi bạn xem xét dữ liệu được sử dụng để đào tạo chúng. Phạm vi dữ liệu tiền đào tạo rất rộng và chúng tôi theo đuổi tính rộng và đa dạng. Và khi nói đến việc học tăng cường mô hình và cung cấp cho nó một phương pháp rõ ràng để có được tín hiệu phần thưởng tốt và hoàn cảnh đào tạo tốt, tôi cho rằng thật khó để cân bằng phạm vi của dữ liệu.

Daniel Selsam: Tôi đồng ý, nhưng tôi cho rằng còn một yếu tố nữa, đó là quá trình đào tạo trước về cơ bản là nén dữ liệu để khám phá mối liên hệ giữa những thứ khác nhau. Nó liên quan đến phép so sánh, trừu tượng hơn. Lý luận là một kỹ năng đòi hỏi phải suy nghĩ cẩn thận về một vấn đề cụ thể và có thể đưa đến phương pháp cho nhiều loại vấn đề. Nhưng trong quá trình đào tạo trước, khi dữ liệu được nén trên nhiều miền khác nhau, kiến thức ở cấp độ trừu tượng hơn có thể được học.

10. Bản chất của trí thông minh là sự nén lại.

Hiệu ứng đuôi dài dữ liệu duy trì hiệu quả của Luật mở rộng

Sam Altman: Tại sao học không giám sát lại hiệu quả?

Daniel Selsam: Chìa khóa ở đây là sự nén. Hình thức lý tưởng của trí thông minh là phương pháp quy nạp Solomonov. Nói chung, máy học sẽ xem xét mọi khả năng, nhưng có xu hướng bắt đầu bằng các chương trình đơn giản hơn.

Bản chất của quá trình đào tạo trước hiện tại là một quá trình nén, đạt được biểu thức gần đúng bằng cách tìm một chương trình đơn giản nhất để giải thích tất cả dữ liệu mà con người tạo ra cho đến nay.

Sam Altman: Dự đoán mã thông báo tiếp theo có thể giúp đạt được hiệu quả nén như thế nào?

Daniel Selsam: Có một nghịch lý trong thống kê - tại sao các mạng lưới độ sâu như không thể nén được nhưng lại có thể khái quát hóa? Thông thường, khi bạn có lượng lớn dữ liệu và một vài mô hình nhỏ, các mô hình đó phải được nén trước khi chúng học được bất cứ điều gì.

Trong quá trình đào tạo trước, quy mô dữ liệu và mô hình rất lớn. Một số người cho rằng hình thức đào tạo này chỉ là học thuộc lòng và nội suy. Trên thực tế, họ bỏ qua một góc nhìn hiểu biết khác về nén - nén tiền tố. Nó giống như một máy nén. Ngay cả khi tỷ trọng dữ liệu lớn, nhị phân không cần phải lưu trữ thông tin này. Kết quả dự đoán Token tiếp theo có thể được sử dụng để nhanh chóng truy xuất thông tin hữu ích và cải thiện hiệu quả nén.

Sam Altman: Quá trình đào tạo GPT-4.5 tiêu tốn lượng lớn nhân lực, thời gian và tiền bạc. Trên thực tế, điều này có thể được xem như một thí nghiệm để kiểm chứng Luật tỷ lệ và kết quả chứng minh rằng nó có hiệu quả và sẽ tiếp tục trong một thời gian dài. Tại sao Định luật tỷ lệ có thể được gọi là định luật của vũ trụ?

Daniel Selsam: Độ nén càng cao thì trí thông minh càng mạnh mẽ, điều này có hàm ý triết lý rất sâu sắc. Tại sao tốc độ nén lại tăng khi thời gian đào tạo một mô hình lớn hơn càng lâu? Có rất nhiều lý thuyết liên quan, trong đó tôi thích là Biểu diễn thưa thớt.

Trên thực tế, các khái niệm chính tuân theo phân phối theo luật lũy thừa. Ví dụ, khái niệm quan trọng thứ 100 chỉ có thể xuất hiện một lần trong 100 tài liệu, điều này cho thấy hiệu ứng đuôi dài rõ ràng. Đặc điểm phân tán này đòi hỏi dữ liệu quy mô lớn và tỷ lệ băm để nắm bắt hiệu quả tất cả các khái niệm chính và cũng quyết định hiệu quả lâu dài của Luật mở rộng quy mô.

Biên tập viên | Bánh mì

Bài viết này trích từ tài khoản công khai WeChat "Smart Things" (ID: zhidxcom) , tác giả: Chen Junda Chen Jiayang và được 36Kr cho phép xuất bản.

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan