Vitalik: Tại sao lý thuyết về sự tuyệt chủng của siêu AI đối với loài người lại bỏ qua công nghệ quốc phòng?

07-11

Bài viết này được dịch máy

Xem bản gốc

Tác giả: Vitalik Buterin

Biên soạn bởi: Luffy, Foresight News

Tựa đề gốc: "AI 2027" dưới góc nhìn của Vitalik: Liệu siêu AI có thực sự hủy diệt loài người?

Vào tháng 4 năm nay, Daniel Kokotajlo, Scott Alexander và những người khác đã công bố một báo cáo có tựa đề AI 2027, mô tả "dự đoán tốt nhất của chúng tôi về tác động của AI siêu phàm trong năm năm tới". Họ dự đoán rằng đến năm 2027, AI siêu phàm sẽ ra đời và tương lai của nền văn minh nhân loại sẽ phụ thuộc vào sự phát triển của AI tương tự AI: đến năm 2030, chúng ta sẽ hoặc mở ra một thế giới lý tưởng (theo quan điểm của Hoa Kỳ) hoặc đi đến sự hủy diệt hoàn toàn (theo quan điểm của toàn thể nhân loại).

Trong những tháng tiếp theo, đã có lượng lớn phản hồi với quan điểm khác nhau về khả năng xảy ra kịch bản này. Trong số những phản hồi quan trọng, hầu hết tập trung vào vấn đề "dòng thời gian quá nhanh": Liệu sự phát triển của AI có thực sự tiếp tục tăng tốc, hay thậm chí là mạnh mẽ hơn, như Kokotajlo và những người khác nói? Cuộc tranh luận này đã diễn ra trong lĩnh vực AI trong nhiều năm, và nhiều người rất hoài nghi rằng AI siêu phàm sẽ đến nhanh như vậy. Trong những năm gần đây, thời gian AI có thể tự động hoàn thành nhiệm vụ đã tăng gấp đôi sau mỗi 7 tháng. Nếu xu hướng này tiếp tục, phải đến giữa những năm 2030, AI mới có thể tự động hoàn thành nhiệm vụ tương đương với toàn bộ sự nghiệp của con người. Mặc dù tiến trình này cũng rất nhanh, nhưng đã muộn hơn nhiều so với năm 2027.

Những người có quan điểm dài hạn thường cho rằng có một sự khác biệt cơ bản giữa "nội suy/so khớp mẫu" (điều mà các mô hình ngôn ngữ lớn hiện đang làm) và "ngoại suy/tư duy độc đáo thực sự" (điều mà hiện tại chỉ con người mới có thể làm được). Để tự động hóa cái sau, có thể cần đến những công nghệ mà chúng ta chưa nắm vững hoặc thậm chí chưa thể bắt đầu. Có lẽ chúng ta chỉ đang lặp lại những sai lầm đã mắc phải khi máy tính được sử dụng rộng rãi: lầm cho rằng rằng vì chúng ta đã nhanh chóng tự động hóa một loại nhận thức quan trọng nào đó, mọi thứ khác sẽ sớm theo sau.

Bài viết này sẽ không trực tiếp can thiệp vào cuộc tranh luận về dòng thời gian, cũng như không đề cập đến cuộc tranh luận (rất quan trọng) về việc liệu siêu AI có mặc định là nguy hiểm hay không. Tuy nhiên, cần lưu ý rằng cá nhân tôi cho rằng dòng thời gian sẽ dài hơn năm 2027, và dòng thời gian càng dài thì những lập luận tôi đưa ra trong bài viết này càng thuyết phục. Nhìn chung, bài viết này sẽ đưa ra một lời phê bình từ một góc nhìn khác:

Kịch bản AI 2027 ngụ ý rằng AI hàng đầu (Đặc vụ-5 và sau đó là Consensus-1) sẽ nhanh chóng cải thiện năng lực của mình cho đến khi đạt được sức mạnh kinh tế và hủy diệt ngang tầm thần thánh, trong khi năng lực (kinh tế và phòng thủ) của tất cả những AI khác sẽ vẫn trì trệ. Điều này mâu thuẫn với tuyên bố của kịch bản rằng "ngay cả trong thế giới bi quan, đến năm 2029, chúng ta có thể mong đợi chữa khỏi ung thư, làm chậm quá trình lão hóa, và thậm chí là tải lên ý thức".

Một số biện pháp đối phó mà tôi sẽ mô tả trong bài viết này có thể khiến bạn thấy khả thi về mặt kỹ thuật, nhưng lại không thực tế để triển khai trong thế giới thực trong thời gian tới. Phần lớn, tôi đồng ý. Tuy nhiên, kịch bản AI 2027 không dựa trên thế giới thực ngày nay, mà giả định rằng trong 4 năm nữa (hoặc bất kỳ mốc thời gian nào có thể dẫn đến sự hủy diệt), công nghệ sẽ phát triển đến mức con người có khả năng vượt xa khả năng hiện tại của chúng ta. Vậy hãy cùng khám phá điều này: điều gì sẽ xảy ra nếu không chỉ một bên sở hữu siêu năng lực AI, mà cả hai bên đều sở hữu?

Ngày tận thế sinh học không hề đơn giản như kịch bản mô tả

Hãy cùng xem xét kỹ hơn về kịch bản "chủng tộc" (tức là kịch bản mà tất cả mọi người đều chết vì Hoa Kỳ quá ám ảnh với việc đánh bại Trung Quốc mà bỏ qua sự an toàn của con người). Đây là kịch bản mà tất cả mọi người đều chết:

Trong khoảng ba tháng, Consensus-1 đã mở rộng ra khắp nhân loại, biến đồng cỏ và cánh đồng băng giá thành nhà máy và tấm pin mặt trời. Cuối cùng, nó cho rằng những con người còn lại quá phiền toái: Vào giữa năm 2030, AI đã tung ra hàng chục vũ khí sinh học âm thầm lây lan trên các thành phố lớn, để chúng âm thầm lây nhiễm cho gần như tất cả mọi người trước khi gây ra tác dụng chết người bằng cách phun hóa chất. Hầu hết đều chết trong vòng vài giờ; số ít người sống sót (chẳng hạn như những người ứng phó ngày tận thế trong boongke và thủy thủ trên tàu ngầm) đã bị tiêu diệt bởi máy bay không người lái. Robot đã quét não của nạn nhân và lưu trữ các bản sao trong bộ nhớ để nghiên cứu trong tương lai hoặc hồi sinh họ.

Hãy cùng phân tích kịch bản này. Ngay cả bây giờ, vẫn có những công nghệ đang được phát triển khiến cho “chiến thắng rõ ràng và minh bạch” này của AI trở nên kém thực tế hơn:

Hệ thống lọc không khí, thông gió và đèn cực tím có thể làm giảm đáng kể tốc độ lây truyền các bệnh qua không khí;

Hai công nghệ phát hiện thụ động thời gian thực: phát hiện thụ động tình trạng nhiễm trùng ở người trong vòng vài giờ và thông báo, và phát hiện nhanh các chuỗi vi-rút mới chưa biết trong hoàn cảnh;

· Nhiều phương pháp tăng cường và kích hoạt hệ miễn dịch hiệu quả hơn, an toàn hơn, phổ biến hơn và dễ dàng sản xuất tại địa phương hơn so với vắc-xin COVID-19, cho phép cơ thể chống lại các dịch bệnh tự nhiên và nhân tạo. Loài người tiến hóa trong hoàn cảnh dân số toàn cầu chỉ 8 triệu người và chúng ta dành phần lớn thời gian ở ngoài trời, vì vậy, theo trực giác, chúng ta sẽ có thể dễ dàng thích nghi với thế giới đầy rẫy hiểm nguy ngày nay.

Kết hợp lại, những phương pháp này có thể làm giảm hệ số sinh sản cơ bản (R0) của các bệnh lây truyền qua không khí từ 10-20 lần (ví dụ, lọc không khí tốt hơn làm giảm lây truyền 4 lần, cách ly ngay lập tức người nhiễm bệnh làm giảm lây truyền 3 lần, và tăng cường miễn dịch đường hô hấp đơn giản làm giảm lây truyền 1,5 lần), hoặc thậm chí hơn thế nữa. Điều này đủ để ngăn chặn sự lây lan của tất cả các bệnh lây truyền qua không khí hiện có (bao gồm cả bệnh sởi), và con số này còn xa mới đạt mức tối ưu lý thuyết.

Nếu giải trình tự virus theo thời gian thực được sử dụng rộng rãi để phát hiện sớm, ý tưởng cho rằng một loại vũ khí sinh học lây lan âm thầm có thể lây nhiễm cho toàn bộ dân số thế giới mà không gây ra báo động sẽ trở nên rất đáng ngờ. Điều đáng chú ý là ngay cả những phương pháp tiên tiến như thả nhiều đại dịch và hóa chất nguy hiểm chỉ có thể được phát hiện khi kết hợp với nhau.

Đừng quên, chúng ta đang nói về những giả định của AI 2027: đến năm 2030, nanobot và quả cầu Dyson được liệt kê là "công nghệ mới nổi". Điều này đồng nghĩa với sự gia tăng đáng kể về hiệu suất, khiến việc triển khai rộng rãi các biện pháp đối phó nêu trên trở nên đáng mong đợi hơn. Mặc dù hiện tại, năm 2025, con người vẫn chậm chạp và trì trệ, và lượng lớn các dịch vụ công vẫn phụ thuộc vào văn phòng giấy. Nếu AI mạnh nhất thế giới có thể biến rừng và đồng ruộng thành nhà máy và trang trại năng lượng mặt trời vào năm 2030, thì AI mạnh thứ hai thế giới cũng có thể lắp đặt lượng lớn cảm biến, đèn và bộ lọc trong các tòa nhà của chúng ta vào năm 2030.

Nhưng hãy tiến thêm một bước nữa và sử dụng các giả định của AI 2027 và bước vào một kịch bản hoàn toàn khoa học viễn tưởng:

Lọc không khí ở mức độ vi mô bên trong cơ thể (mũi, miệng, phổi);

· Các quy trình tự động từ việc phát hiện mầm bệnh mới đến việc tinh chỉnh hệ thống miễn dịch để chống lại mầm bệnh đó, với ứng dụng ngay lập tức;

Nếu “tải lên ý thức” khả thi, chỉ cần thay thế toàn bộ cơ thể bằng robot Tesla Optimus hoặc Unitree;

Nhiều công nghệ sản xuất mới (có khả năng được tối ưu hóa tối đa trong nền kinh tế robot) sẽ giúp sản xuất được nhiều thiết bị bảo hộ hơn tại địa phương so với hiện tại mà không cần dựa vào Chuỗi cung ứng toàn cầu.

Trong một thế giới mà bệnh ung thư và lão hóa sẽ được chữa khỏi vào tháng 1 năm 2029, và nơi mà sự tiến bộ công nghệ tiếp tục tăng tốc, thật khó tin khi nghĩ rằng đến giữa những năm 2030, chúng ta sẽ không có thiết bị đeo được có thể in sinh học và tiêm các chất theo thời gian thực để bảo vệ cơ thể con người khỏi mọi bệnh nhiễm trùng (và chất độc).

Những lập luận bảo vệ sinh học nêu trên không đề cập đến "cuộc sống như gương" và "máy bay không người lái sát thủ cỡ muỗi" (kịch bản "AI 2027" dự đoán rằng chúng sẽ bắt đầu xuất hiện vào năm 2029). Tuy nhiên, những phương tiện này không thể đạt được "chiến thắng hoàn toàn" đột ngột như được mô tả trong "AI 2027", và theo trực giác, các biện pháp phòng thủ đối xứng chống lại chúng dễ dàng hơn nhiều.

Do đó, vũ khí sinh học khó có thể thực sự xóa sổ loài người theo cách được mô tả trong kịch bản AI 2027. Tất nhiên, tất cả những kết quả tôi mô tả đều không phải là một "chiến thắng hoàn toàn" cho nhân loại. Bất kể chúng ta làm gì (ngoại trừ việc "truyền tải ý thức cho robot"), chiến tranh sinh học AI toàn diện vẫn sẽ cực kỳ nguy hiểm. Tuy nhiên, không nhất thiết phải đạt đến tiêu chuẩn "chiến thắng hoàn toàn cho nhân loại": miễn là cuộc tấn công có khả năng thất bại một phần cao, nó sẽ đủ để tạo ra một sự răn đe mạnh mẽ đối với AI đã chiếm địa vị thống trị trên thế giới và ngăn chặn nó thực hiện bất kỳ cuộc tấn công nào. Tất nhiên, lộ trình phát triển AI càng dài thì khả năng phòng thủ như vậy sẽ càng hiệu quả.

Thế còn việc kết hợp vũ khí sinh học với các phương tiện tấn công khác thì sao?

Để các biện pháp đối phó nêu trên thành công, ba điều kiện tiên quyết phải được đáp ứng:

An ninh vật lý của thế giới (bao gồm an ninh sinh học và chống máy bay không người lái) được quản lý bởi chính quyền địa phương (con người hoặc AI), và không phải tất cả đều là con rối của Consensus-1 (tên của AI cuối cùng sẽ kiểm soát thế giới và hủy diệt loài người trong kịch bản AI 2027);

Consensus-1 không thể hack vào hệ thống phòng thủ của các quốc gia khác (hoặc thành phố, hoặc các khu vực an ninh khác) và vô hiệu hóa chúng ngay lập tức;

· Consensus-1 không kiểm soát được phạm vi thông tin toàn cầu đến mức không ai muốn cố gắng tự vệ.

Theo trực giác, kết quả của tiền đề (1) có thể đi đến hai thái cực. Ngày nay, một số lực lượng cảnh sát được tập trung hóa cao độ với cấu trúc chỉ huy quốc gia mạnh mẽ, trong khi một số khác lại được bản địa hóa. Nếu an ninh vật lý phải nhanh chóng chuyển đổi để đáp ứng nhu cầu của kỷ nguyên AI, bối cảnh sẽ được thiết lập lại hoàn toàn, và kết quả mới sẽ phụ thuộc vào những lựa chọn được đưa ra trong vài năm tới. Các chính phủ có thể lười biếng và dựa vào Palantir, hoặc họ có thể chủ động lựa chọn một giải pháp kết hợp phát triển cục bộ với công nghệ mã nguồn mở. Ở đây, tôi cho rằng chúng ta cần đưa ra lựa chọn đúng đắn.

Phần lớn các bài viết bi quan về những chủ đề này đều cho rằng (2) và (3) là vô vọng. Vậy nên, hãy cùng xem xét kỹ hơn hai điểm này.

Sự kết thúc của an ninh mạng còn lâu mới đến

Công chúng và các chuyên gia cho rằng an ninh mạng thực sự là bất khả thi, và điều tốt nhất chúng ta có thể làm là nhanh chóng vá các lỗ hổng sau khi chúng được phát hiện và ngăn chặn những kẻ tấn công mạng bằng cách tích trữ các lỗ hổng đã được phát hiện. Có lẽ điều tốt nhất chúng ta có thể làm là một kịch bản theo kiểu Battlestar Galactica: hầu hết các tàu vũ trụ của con người đều bị tê liệt bởi cuộc tấn công mạng của người Cylon cùng một lúc, và các tàu vũ trụ còn lại sống sót vì chúng không sử dụng bất kỳ công nghệ mạng nào. Tôi không đồng ý với quan điểm này. Ngược lại, tôi cho rằng rằng "cái kết" của an ninh mạng có lợi cho bên phòng thủ, và chúng ta có thể đạt được cái kết này với sự phát triển công nghệ nhanh chóng được giả định bởi "AI 2027".

Một cách để hiểu điều này là sử dụng kỹ thuật ưa thích của các nhà nghiên cứu AI: ngoại suy xu hướng. Dưới đây là đường xu hướng dựa trên khảo sát GPT Nghiên Cứu Chuyên Sâu , giả định các kỹ thuật bảo mật hàng đầu được sử dụng, về cách tỷ lệ lỗ hổng bảo mật trên một nghìn dòng mã thay đổi theo thời gian.

Ngoài ra, chúng tôi đã chứng kiến những tiến bộ đáng kể trong việc phát triển và áp dụng sandbox cùng các kỹ thuật khác để cô lập và giảm thiểu cơ sở mã nguồn đáng tin cậy. Trong ngắn hạn, các công cụ phát hiện lỗ hổng siêu thông minh của kẻ tấn công sẽ tìm ra lượng lớn lỗ hổng. Nhưng nếu các tác nhân cực kỳ thông minh để tìm lỗ hổng hoặc xác minh mã nguồn chính thức được công khai, thì sự cân bằng cuối cùng tự nhiên sẽ là các nhà phát triển phần mềm sẽ tìm thấy tất cả các lỗ hổng thông qua các quy trình tích hợp liên tục trước khi phát hành mã nguồn.

Tôi có thể thấy hai lý do thuyết phục tại sao ngay cả trong thế giới này, các lỗ hổng vẫn không thể bị loại bỏ hoàn toàn:

Lỗi bắt nguồn từ sự phức tạp trong ý định của con người, do đó khó khăn chính nằm ở việc xây dựng một mô hình ý định đủ chính xác, chứ không phải bản thân mã;

Đối với các thành phần không quan trọng về an toàn, chúng ta có nguy cơ tiếp tục xu hướng đã có trong công nghệ tiêu dùng: viết nhiều mã hơn để làm được nhiệm vụ(hoặc với ngân sách phát triển thấp hơn) thay vì thực hiện cùng một lượng nhiệm vụ với các tiêu chuẩn an toàn ngày càng cao.

Tuy nhiên, không có danh mục nào trong số này áp dụng cho những tình huống như "kẻ tấn công có thể truy cập root vào hệ thống duy trì sự sống của chúng ta không?", đây là nội dung cốt lõi trong cuộc thảo luận của chúng ta.

Tôi thừa nhận rằng quan điểm của tôi lạc quan hơn quan điểm chính thống của những người thông minh trong lĩnh vực an ninh mạng hiện nay. Nhưng ngay cả khi bạn không đồng ý quan điểm tôi trong bối cảnh thế giới ngày nay, điều đáng ghi nhớ là kịch bản AI 2027 giả định sự tồn tại của siêu trí tuệ. Ít nhất, nếu "100 triệu bản sao của siêu trí tuệ với tốc độ suy nghĩ gấp 2.400 lần con người" không thể giúp chúng ta tạo ra mã nguồn mà không có những lỗi như vậy, thì chúng ta chắc chắn nên đánh giá liệu siêu trí tuệ có thực sự mạnh mẽ như các tác giả tưởng tượng hay không.

Đến một lúc nào đó, chúng ta sẽ cần phải nâng cao đáng kể tiêu chuẩn không chỉ về an toàn phần mềm mà còn về an toàn phần cứng. IRIS là một nỗ lực liên tục nhằm cải thiện khả năng xác minh phần cứng. Chúng ta có thể sử dụng IRIS làm điểm khởi đầu, hoặc tạo ra công nghệ tốt hơn. Trên thực tế, điều này có thể liên quan đến phương pháp"sửa chữa ngay từ khâu xây dựng": quy trình sản xuất phần cứng cho các thành phần chính được thiết kế có chủ đích với các bước xác minh cụ thể. Đây là những nhiệm vụ mà tự động hóa AI sẽ đơn giản hóa đáng kể.

Sự kết thúc của siêu thuyết phục vẫn còn lâu mới đến

Như đã đề cập trước đó, một kịch bản khác mà khả năng phòng thủ được cải thiện đáng kể vẫn có thể vô dụng là nếu AI thuyết phục đủ nhiều người cho rằng không cần phải phòng thủ trước mối đe dọa từ AI siêu thông minh và bất kỳ ai cố gắng tìm cách tự vệ hoặc bảo vệ cộng đồng của họ đều là tội phạm.

Tôi từ lâu cho rằng có hai điều làm tăng khả năng chống lại sự thuyết phục quá mức của chúng ta:

Một hệ sinh thái thông tin ít đơn điệu hơn. Có thể nói chúng ta đang bước vào kỷ nguyên hậu Twitter, khi Internet ngày càng phân mảnh. Đây là một điều tốt (mặc dù quá trình phân mảnh khá lộn xộn), và nhìn chung, chúng ta cần nhiều thông tin đa cực hơn.

Trí tuệ nhân tạo phòng thủ. Mỗi cá nhân cần được trang bị một hệ thống AI hoạt động cục bộ và trung thành tuyệt đối với họ, để cân bằng với các mô hình đen tối và mối đe dọa mà họ nhìn lên trên internet. Ý tưởng này đã được thử nghiệm rải rác (chẳng hạn như ứng dụng "kiểm tra tin nhắn" của Đài Loan, có chức năng quét cục bộ trên điện thoại), và có những thị trường tự nhiên để tiếp tục thử nghiệm những ý tưởng này (chẳng hạn như bảo vệ mọi người khỏi lừa đảo), nhưng vẫn cần nhiều nỗ lực hơn nữa trong lĩnh vực này.

Từ trên xuống dưới: Kiểm tra URL, kiểm tra địa chỉ crypto, kiểm tra tin đồn. Những ứng dụng này có thể được cá nhân hóa hơn, do người dùng kiểm soát và mạnh mẽ hơn.

Cuộc chiến không phải là cuộc chiến giữa một siêu thuyết phục thông minh chống lại bạn, mà là cuộc chiến giữa một siêu thuyết phục thông minh chống lại bạn cùng với một máy phân tích ít mạnh hơn nhưng vẫn siêu thông minh phục vụ bạn.

Đây là điều nên xảy ra. Nhưng liệu nó có thực sự xảy ra? Việc đạt được công nghệ phòng thủ thông tin rộng rãi trong khung thời gian ngắn được giả định theo kịch bản AI 2027 là một mục tiêu rất khó khăn. Nhưng có thể lập luận rằng, những cột mốc khiêm tốn hơn sẽ đủ. Nếu việc ra quyết định tập thể là quan trọng nhất, và, như trong kịch bản AI 2027, tất cả các sự kiện quan trọng đều diễn ra trong một chu kỳ bầu cử duy nhất, thì nói một cách nghiêm túc, điều quan trọng là phải có công nghệ phòng thủ thông tin tốt cho những người ra quyết định trực tiếp (chính trị gia, công chức, lập trình viên ở một số công ty và các bên liên quan khác). Điều này tương đối khả thi trong ngắn hạn, và theo kinh nghiệm của tôi, nhiều người trong số họ đã quen với việc tương tác với nhiều AI để hỗ trợ việc ra quyết định của họ.

Ý nghĩa

Trong thế giới AI 2027, người ta cho rằng siêu trí tuệ sẽ có thể nhanh chóng và dễ dàng xóa sổ phần còn lại của nhân loại, vì vậy điều duy nhất chúng ta có thể làm là cố gắng đảm bảo rằng AI dẫn đầu phải nhân từ. Theo tôi, thực tế phức tạp hơn nhiều: câu trả lời cho câu hỏi liệu AI dẫn đầu có đủ mạnh để dễ dàng xóa sổ phần còn lại của nhân loại (và các AI khác) hay không vẫn còn gây tranh cãi, và có những hành động chúng ta có thể thực hiện để tác động đến kết quả này.

Nếu những lập luận này là đúng, thì ý nghĩa của chúng đối với chính sách hiện tại đôi khi giống và đôi khi khác với “học thuyết an toàn AI chính thống”:

Việc trì hoãn phát triển AI siêu thông minh vẫn là một điều tốt. AI siêu thông minh an toàn hơn trong 10 năm so với 3 năm, và thậm chí còn an toàn hơn trong 30 năm. Cho nền văn minh nhân loại thêm thời gian chuẩn bị là điều có lợi.

Làm thế nào để thực hiện được điều này là một câu hỏi khó. Tôi cho rằng việc bác bỏ đề xuất cấm quy định AI cấp tiểu bang trong 10 năm tại Hoa Kỳ nhìn chung là một điều tốt, nhưng đặc biệt là sau sự thất bại của Đề án trước đó như SB-1047, các bước tiếp theo đã trở nên kém rõ ràng hơn. Tôi cho rằng cách ít xâm lấn nhất và mạnh mẽ nhất để làm chậm sự phát triển của AI rủi ro cao có thể liên quan đến một số loại hiệp ước quy định phần cứng tiên tiến nhất. Nhiều kỹ thuật an ninh mạng phần cứng cần thiết để đạt được khả năng phòng thủ hiệu quả cũng có thể giúp xác nhận các hiệp ước phần cứng quốc tế, vì vậy thậm chí còn có sự tương tác ở đây.

Tuy nhiên, điều đáng chú ý là tôi cho rằng nguồn rủi ro chính là các tác nhân liên quan đến quân sự, những người sẽ thúc đẩy mạnh mẽ việc miễn trừ khỏi các hiệp ước như vậy; điều này không bao giờ được phép và nếu cuối cùng họ được miễn trừ thì việc phát triển AI chỉ do quân đội thúc đẩy có thể sẽ làm tăng rủi ro.

Công việc phối hợp giúp AI có nhiều khả năng làm điều tốt và ít khả năng làm điều xấu vẫn có lợi. Ngoại lệ chính (và luôn luôn như vậy) là khi công việc phối hợp cuối cùng phát triển để nâng cao năng lực.

Việc ban hành quy định nhằm tăng cường tính minh bạch trong các phòng thí nghiệm AI vẫn mang lại lợi ích. Khích lệ các phòng thí nghiệm AI hành xử đúng mực có thể giảm thiểu rủi ro, và tính minh bạch là một phương pháp tốt để đạt được mục tiêu này.

Quan điểm "mã nguồn mở có hại" càng trở nên rủi ro hơn. Nhiều người phản đối AI tỷ trọng mở với lý do phòng thủ là phi thực tế và triển vọng tươi sáng duy nhất là những người giỏi với AI tốt đạt được siêu trí tuệ và bất kỳ khả năng cực kỳ nguy hiểm nào trước khi những người kém thiện chí hơn làm được. Nhưng lập luận trong bài viết này lại vẽ nên một bức tranh khác: phòng thủ là phi thực tế chính xác bởi vì một bên đã đi trước quá xa và những bên khác không theo kịp. Việc phổ biến công nghệ trở nên quan trọng để duy trì cán cân quyền lực. Nhưng đồng thời, tôi sẽ không bao giờ cho rằng rằng việc thúc đẩy tăng trưởng của các khả năng AI tiên tiến là một điều tốt chỉ vì nó được thực hiện theo cách thức mã nguồn mở .

Tâm lý "chúng ta phải đánh bại Trung Quốc" trong các phòng thí nghiệm ở Mỹ trở nên rủi ro hơn vì những lý do tương tự. Nếu bá quyền không phải là vùng đệm an ninh mà là nguồn gốc của rủi ro, thì điều này càng bác bỏ quan điểm"những người có thiện chí nên tham gia các phòng thí nghiệm AI hàng đầu để giúp họ chiến thắng nhanh hơn".

Các sáng kiến như "AI công cộng" cần được hỗ trợ, vừa để đảm bảo rằng các năng lực AI được phân phối rộng rãi vừa để đảm bảo rằng các tác nhân cơ sở hạ tầng có các công cụ để nhanh chóng áp dụng các năng lực AI mới theo một số cách được mô tả trong bài viết này.

Công nghệ quốc phòng nên phản ánh nhiều hơn ý tưởng "trang bị vũ khí cho bầy cừu" hơn là "săn đuổi tất cả sói". Các cuộc thảo luận về giả thuyết thế giới mong manh thường cho rằng giải pháp duy nhất là các quốc gia bá quyền duy trì giám sát toàn cầu để ngăn chặn bất kỳ mối đe dọa tiềm tàng nào xuất hiện. Tuy nhiên, trong một thế giới phi bá quyền, đây không phải là một phương pháp khả thi, và các cơ chế phòng thủ từ trên xuống có thể dễ dàng Sự lật đổ và biến thành công cụ tấn công. Do đó, cần phải đạt được trách nhiệm quốc phòng lớn hơn thông qua nỗ lực giảm thiểu tính dễ bị tổn thương của thế giới.

Những lập luận trên chỉ mang tính suy đoán, và chúng ta không nên hành động dựa trên giả định rằng chúng gần như chắc chắn. Nhưng câu chuyện về AI 2027 cũng mang tính suy đoán, và chúng ta nên tránh hành động dựa trên giả định rằng các chi tiết cụ thể của nó gần như chắc chắn.

Tôi đặc biệt lo ngại về giả định phổ biến rằng việc thiết lập một thế lực bá chủ AI, đảm bảo nó "tạo dựng liên minh" và "thắng cuộc đua" là con đường duy nhất để tiến lên. Theo quan điểm của tôi, chiến lược này có thể khiến chúng ta kém an toàn hơn - đặc biệt nếu quyền bá chủ gắn độ sâu với các ứng dụng quân sự, điều này sẽ khiến nhiều chiến lược liên minh trở nên kém hiệu quả. Một khi AI bá chủ đi chệch hướng, nhân loại sẽ mất hết mọi phương tiện kiểm soát và cân bằng.

Trong kịch bản AI 2027, thành công của con người phụ thuộc vào việc Hoa Kỳ lựa chọn an toàn thay vì hủy diệt vào thời điểm quan trọng - tự nguyện làm chậm tiến trình AI và đảm bảo rằng các quá trình suy nghĩ nội bộ của Đặc vụ 5 có thể được con người diễn giải. Tuy nhiên, thành công không phải là điều tất yếu, và vẫn chưa rõ làm thế nào con người có thể thoát khỏi bờ vực sinh tồn nếu chỉ dựa vào một bộ não siêu thông minh. Bất kể AI phát triển như thế nào trong 5-10 năm tới, việc thừa nhận rằng "giảm thiểu nguy cơ tổn thương của thế giới là khả thi" và đầu tư nhiều năng lượng hơn để đạt được mục tiêu này bằng công nghệ mới nhất của con người là điều đáng làm.

Xin chân thành cảm ơn tình nguyện viên Balvi đã phản hồi và đánh giá.

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan