Tại sao những hình thức tương tác lâu đời nhất lại đang quay trở lại trong kỷ nguyên trí tuệ nhân tạo?

Bài viết này được dịch máy

Xem bản gốc

Giao diện dòng lệnh có thể là giao diện thân thiện nhất với người dùng dành cho các tác nhân trí tuệ nhân tạo.

Tác giả và nguồn bài viết: Minority Report

Trong khoảng thời gian từ năm 2025 đến năm 2026, các công ty hàng đầu về trí tuệ nhân tạo liên tiếp cho ra mắt một loại sản phẩm: các công cụ tác nhân dựa trên giao diện dòng lệnh (CLI).

Anthropic đã phát hành Claude Code, một trợ lý lập trình AI chạy trên giao diện dòng lệnh. OpenAI đã phát hành Codex CLI, và Google đã phát hành Gemini CLI. Trong làn sóng này, hầu hết mọi công ty AI nổi tiếng đều đặt cược vào giao diện dòng lệnh.

Điều này nghe có vẻ phi lý. Giao diện dòng lệnh là sản phẩm của những năm 1970, giao diện đồ họa người dùng (GUI) đã đưa máy tính đến với đại chúng, và giờ đây internet di động đã biến màn hình cảm ứng trở thành mặc định. Về mặt logic, công nghệ lẽ ra phải ngày càng trở nên "trực quan" và "dễ sử dụng". Tại sao hình thức tương tác lâu đời nhất lại quay trở lại trong kỷ nguyên trí tuệ nhân tạo?

Câu trả lời không phải là sự ủy mị, mà là logic kỹ thuật.

Giao diện người dùng đồ họa (GUI) không thân thiện với trí tuệ nhân tạo (AI).

Giao diện người dùng đồ họa (GUI) được thiết kế để con người dễ dàng điều hướng bằng thị giác. Các nút bấm, cửa sổ bật lên, thao tác kéo thả, hiệu ứng di chuột – những mô hình tương tác này được xây dựng dựa trên trực giác thị giác của con người. Con người chỉ cần liếc nhìn giao diện, quét vị trí các nút và trực quan xác định hành động tiếp theo. Cơ chế này cực kỳ tự nhiên đối với con người, hầu như không cần thời gian học hỏi.

Nhưng LLM không hoạt động theo cách đó chút nào. LLM nhận token làm đầu vào và xuất token làm đầu ra. "Suy nghĩ" của chúng diễn ra trong không gian ngôn ngữ, chứ không phải không gian pixel.

Việc cho phép trí tuệ nhân tạo (AI) điều khiển giao diện người dùng (GUI) đồng nghĩa với việc phải vượt qua một vực sâu khổng lồ:

Chi phí để hiểu giao diện là cực kỳ cao. Trí tuệ nhân tạo (AI) cần dựa vào thị giác máy tính hoặc cây khả năng truy cập để "hiểu" giao diện - nút nào có thể nhấp được, ô nhập liệu nào nằm ở đâu và cửa sổ bật lên hiện tại có nghĩa là gì. Đây không phải là điểm mạnh của AI; mà ngược lại, nó là một gánh nặng bổ sung.

Trạng thái này mang tính ngầm định và khó dự đoán. Cùng một nút có thể nhấp được hôm nay, nhưng lại bị vô hiệu hóa vào ngày mai do một điều kiện nào đó. Trạng thái ngầm định này là "ngữ cảnh" đối với con người, nhưng lại là sự không chắc chắn đối với AI — nó không thể suy luận một cách đáng tin cậy "trong điều kiện nào thì thao tác này khả dụng".

Các thao tác không thể kết hợp với nhau. Không có cách nào để kết nối hai thao tác giao diện người dùng lại với nhau. "Kết quả tìm kiếm → Lọc → Xuất" là ba nhấn trong giao diện người dùng và không thể được chuyển tiếp, sử dụng lại hoặc tự động hóa toàn bộ.

Việc kiểm tra và xác minh rất khó khăn. Làm thế nào để xác nhận rằng AI đã thực hiện thành công một thao tác trên giao diện người dùng? Bạn cần chụp ảnh màn hình và phân tích trạng thái giao diện; toàn bộ quá trình phản hồi diễn ra chậm và dễ bị lỗi.

Ngược lại, mọi tính năng của CLI dường như được thiết kế dành riêng cho trí tuệ nhân tạo.

Ba ưu điểm chính của CLI đối với các tác nhân AI: khả năng kết hợp

Cốt lõi của triết lý Unix là: "Mỗi chương trình chỉ làm một việc và làm tốt việc đó; các chương trình có thể hoạt động cùng nhau."

Nguyên tắc thiết kế này từ nhiều thập kỷ trước đã mang một ý nghĩa mới trong kỷ nguyên trí tuệ nhân tạo.

Các công cụ CLI sử dụng chuỗi đầu vào và đầu ra tiêu chuẩn. `linkly search "React performance optimization" | head -5` chuyển kết quả tìm kiếm cho lệnh tiếp theo. `linkly search "architecture design" --json | jq '.results[].doc_id'`rút tất cả ID tài liệu để xử lý sau này.

Đối với các tác nhân AI, khả năng kết hợp cho phép nhiều lệnh được xâu chuỗi thành các quy trình làm việc phức tạp, nhiều bước, với đầu ra của mỗi bước là văn bản có cấu trúc mà bước tiếp theo có thể sử dụng. Không có vòng lặp "nhấn → chờ → chụp ảnh màn hình → phân tích" dựa trên giao diện người dùng đồ họa; chỉ có đầu vào và đầu ra rõ ràng.

Khả năng dự đoán

Hành vi của mỗi lệnh hoàn toàn được xác định bởi các tham số của nó. Một tìm kiếm liên kết cho "database" với `--limit 10` sẽ cho ra kết quả giống nhau hôm nay và cả ngày mai (giả sử cơ sở dữ liệu không thay đổi). Không có trạng thái ngầm định nào, và không có sự nhầm lẫn nào về lý do tại sao một chức năng lần nhưng lại không hoạt động bây giờ.

Điều này cực kỳ quan trọng đối với trí tuệ nhân tạo (AI). Khi AI suy luận về một công cụ, nó cần xây dựng một mô hình tư duy: đầu vào của công cụ là gì, đầu ra của nó là gì và tác dụng phụ của nó là gì? Trạng thái ngầm định của giao diện người dùng đồ họa (GUI) khiến mô hình tư duy này trở nên không chắc chắn. Các tham số rõ ràng của giao diện dòng lệnh (CLI) làm cho mô hình tư duy này trở nên đáng tin cậy và chính xác.

Lệnh `linkly read 42 --offset 80 --limit 100` có nghĩa là ý nghĩa của lệnh này hoàn toàn được xác định bởi các tham số. Trí tuệ nhân tạo có thể suy luận hành vi của nó một cách chính xác mà không cần phải đoán bất kỳ ngữ cảnh ngầm nào.

Kiểm toán

Tất cả các thao tác CLI đều là chuỗi văn bản có thể ghi lại. Các lệnh mà AI thực thi và kết quả đầu ra mà nó nhận được đều là văn bản mà con người có thể đọc hiểu.

Sự minh bạch này có hai ưu điểm.

Đối với chính AI: nó có thể tự kiểm tra. "Lần tìm kiếm trước trên Linkly cho từ khóa 'mẫu hợp đồng' trả về 0 kết quả, cho thấy từ khóa không chính xác. Hãy thử sử dụng 'mẫu hợp đồng' thay thế." Khả năng tự sửa lỗi dựa trên văn bản này là nền tảng cho hoạt động đáng tin cậy của AI Agent.

Đối với con người: Việc xem xét sau khi triển khai là hoàn toàn khả thi. Bạn có thể xem các lệnh mà AI đã thực thi, đầu vào và đầu ra ở mỗi bước là gì, và toàn bộ Chuỗi suy luận được hiển thị rõ ràng chỉ trong nháy mắt. Các thao tác "nhấp chuột" trên giao diện người dùng đồ họa (GUI) khó theo dõi, trong khi nhật ký thao tác trên giao diện dòng lệnh (CLI) đóng vai trò như hồ sơ kiểm toán.

Các nguyên tắc thiết kế giao diện dòng lệnh AI của Linkly

LinklyAI là phần mềm tạo công cụ tìm kiếm và cơ sở tri thức do chính chúng tôi phát triển. Ngay từ đầu, khi thiết kế các công cụ dòng lệnh (CLI) của LinklyAI, chúng tôi đã coi AI là một trong những người dùng chính của mình.

4 lệnh cốt lõi được thiết kế cẩn thận

Công cụ dòng lệnh Linkly AI chỉ có bốn lệnh cốt lõi:

Bốn lệnh này hoàn toàn phù hợp với triết lý Unix: mỗi lệnh chỉ thực hiện một việc và có một hợp đồng đầu vào-đầu ra rõ ràng. Tác nhân AI có thể kết hợp chúng một cách tùy ý thành các quy trình truy xuất phức tạp.

Quy trình làm việc điển hình của một nhân viên tổng đài như sau:

Kết quả đầu ra ở mỗi bước là văn bản có cấu trúc mà AI có thể trực tiếp xử lý và suy luận. Không có thao tác giao diện người dùng đồ họa (GUI) và không cần phải phân tích hình ảnh.

Kết hợp với đường ống, v.v.

Một ưu điểm khác của CLI là nó có thể được kết hợp tự do với các lệnh khác trong hệ thống để mang lại những khả năng mới vượt ra ngoài giới hạn của một công cụ đơn lẻ.

Lọc và Rút : -- Kết quả JSON có thể được sử dụng trực tiếp để rút các trường bằng jQuery, và kết quả sau đó có thể được chuyển đến công cụ tiếp theo.

# Tìm kiếm tài liệu, chỉ lấy danh sách doc_id, sau đó lấy hàng loạt các dàn ý.
Linkly search "database design" --json | jq -r '.results[].doc_id' | xargs -I{} linkly outline {}

Kết hợp với grep để lọc lần : Trước tiên, sử dụng tìm kiếm ngữ nghĩa để thu hẹp phạm vi, sau đó sử dụng các từ khóa chính xác để lọc.

Tìm kiếm trên Linkly với cụm từ "architecture design" | grep -i "microservices|distributed"

Thống kê và phân tích : Thực hiện thống kê tài liệu bằng các công cụ như wc, sort và uniq.

# Có bao nhiêu tệp PDF trong cơ sở tri thức thống kê?
linkly search "" --json | jq '.results[].type' | sort | uniq -c

Tích hợp với các tập lệnh : Xử lý hàng loạt và tự động hóa nhiệm vụ lặp đi lặp lại trong các tập lệnh shell:

Các công cụ GUI không thể tham gia vào các sự kết hợp này. Các công cụ CLI xuất ra một luồng văn bản, có thể được sử dụng bởi bất kỳ công cụ nào khác, làm cho hệ thống tổng thể mạnh mẽ hơn nhiều so với tổng hợp đơn giản của các công cụ riêng lẻ.

CLI cũng là phương pháp kết nối MCP đơn giản nhất.

CLI và MCP không loại trừ lẫn nhau. Một lệnh `linkly mcp` duy nhất có thể biến CLI thành máy chủ MCP stdio, có thể sử dụng được bởi bất kỳ máy trạm AI nào hỗ trợ MCP:

Json:

Cách này đơn giản hơn nhiều so với việc cấu hình trực tiếp máy chủ HTTP MCP — người dùng không cần biết số cổng, không cần tự tay viết URL trong JSON, họ chỉ cần nói với máy trạm AI "chạy lệnh này".

Giao diện dòng lệnh (CLI) đã trở thành tấm vé vào hệ sinh thái MCP, hầu như không yêu cầu người dùng phải cấu hình phức tạp nào.

Một xu hướng rộng hơn

Quyết định của Claude Code ưu tiên phát hành định dạng CLI hơn là plug-in IDE dựa trên một logic kỹ thuật rõ ràng: plug-in IDE bị giới hạn bởi hoàn cảnh máy chủ, trong khi các công cụ CLI có thể chạy ở bất cứ đâu có thiết bị đầu cuối, có thể được gọi bởi bất kỳ tác nhân nào và có thể được kết hợp với bất kỳ công cụ nào khác.

Điều này cho thấy một nguyên tắc cơ bản hơn: bản chất của việc một tác nhân AI gọi một công cụ là thực thi các lệnh. Việc gọi công cụ (gọi hàm/sử dụng công cụ) về mặt ngữ nghĩa là giao diện dòng lệnh (CLI) — được cung cấp tên và tham số, nó trả về kết quả. Các công cụ CLI về bản chất là các hàm mà tác nhân có thể gọi, không cần lớp chuyển đổi.

Cụm từ "Thiết bị đầu cuối như một môi trường phát triển tích hợp (IDE) mới" đã được đặt ra từ rất lâu trước khi trí tuệ nhân tạo (AI) nổi lên, nhưng nó đã mang một ý nghĩa hoàn toàn mới trong kỷ nguyên AI. Nó không chỉ đơn thuần là "viết mã trong thiết bị đầu cuối", mà còn là "các tác nhân tương tác với thế giới thông qua thiết bị đầu cuối".

Trước đây, CLI là công cụ dành riêng cho các kỹ thuật viên. Trong tương lai, CLI có thể trở thành ngôn ngữ chung của các tác nhân – con người sẽ giao tiếp với các tác nhân thông qua ngôn ngữ tự nhiên, và các tác nhân sẽ tương tác với hệ thống thông qua CLI.

bản tóm tắt

Địa vị người dùng đồ họa (GUI) sẽ không bị ảnh hưởng nhiều; nó vẫn là giao diện tốt nhất để con người trực tiếp vận hành máy tính. Tuy nhiên, khi công cụ AI của bạn cần gọi một công cụ khác, giao diện dòng lệnh (CLI) là cầu nối tự nhiên nhất, và ngày càng nhiều phần mềm sẽ phát hành thêm các công cụ CLI để thích ứng với thói quen của người dùng.

Bạn muốn thử tìm kiếm tài liệu của mình ngay trong cửa sổ dòng lệnh? Hãy xem hai bài viết này: "Hãy để AI tìm kiếm tài liệu của bạn mà không cần rời khỏi cửa sổ dòng lệnh" và "Hãy để hơn 30 công cụ AI đọc các tập tin cục bộ chỉ bằng một lệnh duy nhất".

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan