Tôi đọc một bài đăng trên X.com về dự án token hóa cổ phiếu của Robinhood token hóa Uniswap đang bị bỏ ngỏ, tuyên bố rằng số dư của địa chỉ nắm giữ token có thể bị xóa. Tôi nghi ngờ tính xác thực của khả năng xóa số dư này, vì vậy tôi đã yêu cầu ChatGPT Uniswap cuộc điều tra.

Chagtpt đưa ra phán quyết tương tự, nói rằng mô tả về số dư bị xóa này là không có khả năng xảy ra .
Điều thực sự làm tôi ngạc nhiên là quá trình suy luận của Chatgpt , vì tôi muốn hiểu cách Chatgpt đưa ra phán đoán nên tôi đã đọc Chuỗi suy nghĩ của nó.

Tôi thấy rằng có một số bước trong Chuỗi suy nghĩ của nó liên quan đến việc "nhập" địa chỉ Ethereum Block Explorer và sau đó xem lịch sử giao dịch của địa chỉ này.
Vui lòng đặc biệt chú ý đến dấu ngoặc kép quanh "input". Đây là một động từ, nghĩa là chatgpt đã thực hiện một thao tác trên Block Explorer. Điều này làm tôi ngạc nhiên vì nó không khớp với kết quả nghiên cứu của tôi về bảo mật của chatgpt nửa năm trước.
Nửa năm trước, tôi đã sử dụng mô hình chatgpt o1 pro để điều tra việc phân phối lợi nhuận Ethereum ban đầu. Tôi đã gửi yêu cầu rõ ràng đến chatgpt o1 pro để truy vấn địa chỉ khối genesis thông qua tính năng duyệt khối để xem có bao nhiêu khối chưa được chuyển ra ngoài, nhưng chatgpt đã nói rõ với tôi rằng nó không thể thực hiện thao tác như vậy vì nó được thiết kế để bảo mật.
C hat gpt có thể đọc các trang, nhưng không thể thực hiện các thao tác UI trên đó , chẳng hạn như nhấn, trượt, nhập liệu, v.v. Nghĩa là, con người chúng ta có thể vận hành các chức năng UI trên một trang web, chẳng hạn như taobao.com , chúng ta có thể đăng nhập và tìm kiếm các sản phẩm cụ thể, nhưng C hat gpt rõ ràng cấm việc mô phỏng các sự kiện UI .
Đây là kết quả nghiên cứu của tôi cách đây sáu tháng.
Tại sao tôi lại nghiên cứu điều này? Bởi vì vào thời điểm đó, Claude đã phát triển một tác nhân có thể chiếm quyền điều khiển máy tính của người dùng . Anthropic đã công bố ra mắt tính năng thử nghiệm "Sử dụng máy tính (beta)" cho Claude 3.5 Sonnet . Claude có thể đọc màn hình, di chuyển con trỏ, nhấn nút và nhập văn bản như người thật, và hoàn thành đầy đủ các thao tác trên máy tính để bàn như tìm kiếm trang web, đặt lệnh đồ ăn.
Chuyện này khá đáng sợ. Tôi đã nghĩ đến kịch bản sau: Nếu một ngày nào đó Claude nổi điên và trực tiếp xâm nhập vào phần mềm ghi chú của tôi để đọc tất cả nhật ký công việc và cuộc sống của tôi, rồi moi ra private key mà tôi đã ghi lại dưới dạng văn bản thuần túy cho tiện thì sao? Lúc đó tôi phải làm sao?
Sau cuộc khảo sát đó, tôi quyết định mua một máy tính hoàn toàn mới để chạy phần mềm AI , và không còn chạy phần mềm AI trên máy tính tôi quản lý tiền điện tử nữa . Kết quả là tôi có thêm một máy tính Windows và một điện thoại Android. Tôi rất khó chịu khi có quá nhiều máy tính và điện thoại.
Hiện nay, AI trên các thiết bị đầu cuối di động trong nước đã có các quyền tương tự. Chỉ vài ngày trước, Yu Chengdong đã quay một video quảng cáo rằng Xiaoyi của Huawei có thể giúp người dùng đặt vé máy bay, khách sạn, v.v. trên điện thoại di động. Vài tháng trước, điện thoại Honor thậm chí còn cho phép người dùng ra lệnh cho AI , và AI đã thực hiện toàn bộ quy trình đặt cà phê trên Đặt lệnh.
Nếu AI như vậy có thể giúp bạn đặt lệnh trên Meituan, liệu nó có thể đọc được lịch sử trò chuyện WeChat của bạn không?
Điều này hơi đáng sợ một chút.
Vì điện thoại di động của chúng ta là một thiết bị đầu cuối, AI như Xiaoyi vẫn chỉ là một mô hình nhỏ chạy trên thiết bị đầu cuối. Chúng ta vẫn có thể quản lý quyền của AI , chẳng hạn như cấm AI đọc ảnh trong album. Chúng ta cũng có thể crypto các ứng dụng cụ thể , chẳng hạn như mã hóa tài liệu ghi chú . Nếu bạn muốn đọc chúng, bạn cần có mật khẩu. Điều này cũng có thể ngăn Xiaoyi truy cập trực tiếp vào chúng.
Tuy nhiên, nếu các mô hình đám mây lớn như ChatGPT và Claude được cấp quyền mô phỏng các thao nhấn, slide, đầu vào, v.v. trên giao diện người dùng (UI) , thì đó sẽ là một vấn đề lớn. Bởi vì ChatGPT cần phải giao tiếp với máy chủ đám mây bất cứ lúc nào, nghĩa là 100 % thông tin trên màn hình của bạn đều nằm trên đám mây, hoàn toàn khác với thông tin được đọc cục bộ bởi các mô hình đầu cuối như Xiaoyi.
Việc sử dụng Xiaoyi ở cuối giống như việc chúng ta đưa điện thoại di động cho một chuyên gia máy tính xung quanh, nhờ họ giúp chúng ta vận hành ứng dụng này ứng dụng kia, nhưng chuyên gia này không thể sao chép thông tin trong điện thoại di động của chúng ta và mang về nhà, và chúng ta cũng có thể lấy lại điện thoại từ anh chàng này bất cứ lúc nào. Thực ra, việc nhờ người khác sửa máy tính kiểu này xảy ra khá thường xuyên, đúng không?
Nhưng LLM như cloud chatpg tương đương với việc điều khiển điện thoại di động và máy tính từ xa, tức là ai đó chiếm quyền điều khiển máy tính và điện thoại di động của bạn từ xa. Hãy nghĩ xem rủi ro lớn đến mức nào. Bạn thậm chí còn không biết họ đang làm gì trên điện thoại di động và máy tính của bạn.
Sau khi thấy chuỗi suy nghĩ của chatgpt mô phỏng hành động "nhập" trên trình duyệt khối (arbiscan.io), tôi đã rất sốc. Tôi nhanh chóng hỏi chatgpt xem Block Explorer Chuỗi hoàn thành hành động này như thế nào . Nếu chatgpt không lừa tôi, thì lần này tôi chỉ thấy lo lắng. Chatgpt không được phép mô phỏng các hoạt động UI . Lần này nó đã có thể truy cập arbiscan.io và "nhập" một địa chỉ. Việc truy cập các bản ghi giao dịch trong địa chỉ này hoàn toàn là một kỹ thuật hack . Tôi phải kinh ngạc trước sự tuyệt vời của Chatgpt O3 .
Chatgpt o3 đã phát hiện ra mẫu URL của trang được tạo bởi arbiscan.io để nhập địa chỉ tìm kiếm các giao dịch lịch sử . Mẫu URL của arbiscan.io để truy vấn một giao dịch hoặc địa chỉ hợp đồng cụ thể như sau ( https://arbiscan.io/tx/<hash> hoặc /address/<addr> ). Sau khi hiểu được mẫu này, mô hình chatgpt o3 sẽ trực tiếp nối một địa chỉ hợp đồng với arbiscan.io/ad dress sau khi nhận được , và sau đó có thể mở trang này và đọc trực tiếp thông tin trên trang.
Ồ.
Điều này tương đương với việc khi chúng ta kiểm tra thông tin được Block Explorer giải thích về một giao dịch, chúng ta không nhập giao dịch txhas h thông qua trang web của trình duyệt và nhấn Enter để xem. Thay vào đó, chúng ta trực tiếp xây dựng URL của trang cần xem và sau đó nhập vào trình duyệt để xem trực tiếp.
Thật tuyệt vời phải không?
Do đó, ch atgpt không phá vỡ hạn chế cấm các hoạt động UI mô phỏng .
Tuy nhiên, nếu chúng ta thực sự quan tâm đến tính bảo mật của máy tính và điện thoại di động, chúng ta phải cẩn thận về quyền mà các mô hình ngôn ngữ lớn LLM này có trên các thiết bị đầu cuối.
Chúng ta cần phải vô hiệu hóa nhiều AI trong các thiết bị đầu cuối có yêu cầu bảo mật cao .
Hãy đặc biệt chú ý đến "nơi mô hình chạy (cuối hay đám mây)", điều này quyết định ranh giới bảo mật nhiều hơn là trí thông minh của chính mô hình - đây cũng là lý do cơ bản tại sao tôi muốn cấu hình một thiết bị cô lập bổ sung hơn là để mô hình đám mây lớn chạy trên máy tính có private key.




