“Tôi thấy bạn đang lắc lư trong chiếc áo hoodie OpenAI, một lựa chọn tuyệt vời.” (Tôi thấy bạn đang lắc lư trong chiếc áo hoodie OpenAI, một lựa chọn tuyệt vời.)
Ngữ điệu nhân tạo và giọng nữ lè nhè của nó xuất phát từ clip demo của mẫu hàng đầu mới GPT-4o do OpenAI phát hành. Trong ảnh, GPT-4o nhận xét về trang phục của nhà nghiên cứu thông qua khả năng nhận dạng trực quan của camera, giống như một người quen đã lâu không gặp.
Đáp lại, cư dân mạng cho rằng: "Đây không phải là giọng điệu của Kardashian sao? Nghe quá giống con người, thực sự rất đáng sợ".
Trên thực tế, khá nhiều người không thích âm thanh mới nhất của GPT. Theo Bloomberg, một số người dùng cảm thấy khó chịu sau khi trải nghiệm GPT-4o và cho rằng giọng nói của nó quá sexy và khiêu khích . Nhưng người tôi thích lại chìm đắm trong đó, cho rằng yêu một con người cũng không bằng yêu một AI có giọng nói sexy.
Về vấn đề này, giọng nói AI quá nhân cách hóa đặt ra một câu hỏi: Bạn có sợ hãi khi một cỗ máy bắt đầu bày tỏ cảm xúc với bạn không?
AI cũng có thể tham gia vào việc thao túng cảm xúc không?
Bạn có thể né tránh BTC do sếp vẽ ra và nói KHÔNG với PUA ở nơi làm việc, nhưng một số người chắc chắn sẽ rơi vào cái bẫy tình cảm do AI giăng ra.
Marcel Scharth, giáo sư tại Đại học Sydney, đã chỉ ra rằng trợ lý giọng nói được nhân cách hóa có thể khiến con người bị tổn hại về mặt cảm xúc khi tương tác với máy móc. Cũng giống như với một người bạn, nếu chúng ta nảy sinh tình cảm gắn bó với trợ lý giọng nói của mình. Nhưng khi nó không đáp ứng được nhu cầu của chúng ta do sự cố mạng hoặc máy chủ, chúng ta có thể thất vọng hoặc thậm chí bị tổn thương. Ví dụ: khi người dùng phụ thuộc vào OpenAI gặp sự cố, họ sẽ phàn nàn trực tuyến rằng "họ đã quay trở lại thời Trung cổ".
Một bài viết quan điểm của Marcel Scharth thuộc Đại học Sydney đăng trên tạp chí của trường "ChatGPT giờ đã giỏi hơn trong việc giả vờ cảm xúc của con người"
Ngoài ra, cuộc trò chuyện của GPT-4o có những suy nghĩ cẩn thận. PConline nhận thấy 4o sẽ tiếp tục đặt câu hỏi, mong nhận được câu trả lời liên tục từ người dùng để kéo dài cuộc trò chuyện. Tuy nhiên, sự “chăm sóc” này không chỉ đơn giản là sự đồng hành mà còn là sự suy nghĩ kỹ lưỡng đằng sau nền tảng. Mặc dù người dùng có thể sử dụng miễn phí chức năng giọng nói của GPT3.5 nhưng mọi cuộc trò chuyện và dữ liệu chúng tôi cung cấp vẫn được OpenAI sử dụng làm vốn để đào tạo AI. Có một chiến lược kinh doanh ẩn đằng sau điều này, đó là AI trao đổi dữ liệu người dùng thông qua kết nối và đối thoại cảm xúc (chẳng hạn như liên tục đặt câu hỏi khi kết thúc cuộc đối thoại), sau đó liên tục cải thiện khả năng nhân cách hóa của mình, hình thành một chu kỳ lợi nhuận, nhưng về cơ bản là khai thác cảm xúc của người dùng.
Ngoài việc thao túng cảm xúc, một cuộc tranh cãi khác với GPT-4o là hiệu ứng thung lũng kỳ lạ do nhân hóa quá mức gây ra.
Hiệu ứng thung lũng kỳ lạ là một hiện tượng tâm lý trong đó con người chán ghét những thứ rất giống con người nhưng lại có những khác biệt nhỏ. Ví dụ: phim "Ex Machina" và "Annabelle" sử dụng hiệu ứng hình ảnh thung lũng kỳ lạ để tạo cảm giác kinh dị.
Trợ lý giọng nói có thể khiến khán giả trải nghiệm hiệu ứng thung lũng kỳ lạ do giọng nói quá giống nhân cách hóa của họ. Trải nghiệm tiêu cực này cho thấy dù tiến bộ công nghệ đã mang đến nhiều yếu tố nhân tính hơn nhưng phản ứng tâm lý của người dùng vẫn cần được cân nhắc kỹ lưỡng trong thiết kế để tránh phản tác dụng.
Ngoài ra, giọng nói mang tính nhân cách hóa quá mức có thể liên quan đến các vấn đề về quyền riêng tư về bản quyền , chẳng hạn như công nghệ "độ sâu". Cách đây không lâu, nam diễn viên Scarlett Johansson đang vướng vào cuộc chiến pháp lý với OpenAI về việc liệu giọng hát của cô có bị đạo văn hay không. Những sự cố như vậy đã khiến người dùng lo sợ về công nghệ Deepfake, khó phân biệt được đâu là thật đâu là giả. Trong thời kỳ 315, nhà nước cũng lần trấn áp các vụ lừa đảo giả độ sâu, chẳng hạn như "ông chủ giả" lừa gạt nhân viên 1,86 triệu RMB, và "con gái giả" lừa mẹ 800.000 RMB.
Âm thanh ẩn giấu kinh doanh tốt?
Tất nhiên, giọng nói AI được nhân cách hóa không phải là không có giá trị. Những cách diễn đạt có liên quan sẽ nâng cao niềm tin của người dùng, đổi mới mô hình giáo dục và nâng cao khả năng nhận diện thương hiệu .
Trước hết, ưu điểm của giọng nói nhân hóa là cải thiện trải nghiệm và sự tin tưởng của người dùng . Nghiên cứu cho thấy mọi người có nhiều khả năng tương tác với những cỗ máy có thuộc tính xã hội hơn và xem chúng như những người bạn đáng tin cậy.
Một bài báo đăng trên tạp chí ACM Transactions on Computer-Human Interaction cho thấy rằng khi trợ lý giọng nói thể hiện sự đồng cảm và thấu hiểu, người dùng có nhiều khả năng thể hiện mong muốn hợp tác hơn. Cũng giống như nhận được dịch vụ, chúng ta thích trả tiền cho những giá trị tốt đẹp tâm lý và ngược lại. Sự thân thiện và lịch sự trong thiết kế trợ lý giọng nói thực sự mang lại giá trị tâm lý cho người dùng.
Một bài nghiên cứu về "Xây dựng và duy trì mối quan hệ giữa các cá nhân trong thời gian dài", được xuất bản trong "Giao dịch của Hiệp hội Máy tính Hoa Kỳ về Tương tác giữa Người và Máy tính"
Thứ hai, trợ lý giọng nói nhân hình cũng có thể mang lại những khả năng mới cho lĩnh vực giáo dục . Nghiên cứu cho thấy các chatbot có thuộc tính xã hội có thể giúp học sinh đóng vai trò tích cực trong việc làm bài tập về nhà, hỗ trợ học tập và trải nghiệm học tập được cá nhân hóa. Việc dạy kèm tùy chỉnh AI sẽ được quan tâm hơn.
Ví dụ: Google đã trình diễn mô hình giảng dạy lớp vật lý dựa trên trợ lý giọng nói được nhân cách hóa, có thể trình bày những kiến thức vật lý nhàm chán cho học sinh một cách sinh động và thú vị. Có thể thấy, trợ lý giọng nói AI làm gia sư không chỉ có đầy đủ kỹ năng mà còn có thể giáo dục, giải trí.
Cuối cùng, giọng nói nhân hóa cũng có thể nâng cao độ bám của người dùng và nhận diện thương hiệu . Một phong cách giọng nói độc đáo có thể giúp người dùng dễ nhớ hơn, từ đó làm tăng mức độ trung thành của người dùng và sức ảnh hưởng của thương hiệu. Tiếng Anh Mỹ cơ bản và chuẩn mực của Siri đã trở thành một trong những biểu tượng độc đáo của thương hiệu Apple.
Bạn hay thù?
Khi nói đến trợ lý giọng nói, Siri của Apple đương nhiên là không thể thiếu. Theo quan điểm hiện tại, tính nhân văn của Siri tụt hậu so với ChatGPT. Trên thực tế, điều này là do các thuộc tính chức năng và khái niệm thiết kế của cả hai đều khác nhau:
Siri không chỉ là một công cụ mà còn là quản gia của "bạn". Nó chủ yếu được sử dụng để thực hiện các hướng dẫn và nhiệm vụ, đồng thời xử lý tốt các yêu cầu thông tin của người dùng , đặt báo thức, phát nhạc và quản lý lịch trình. Các nhà phát triển tập trung nhiều hơn vào các thuật toán xử lý ngôn ngữ và nhiệm vụ cụ thể hiệu quả, đồng thời thay vào đó, tính chất cơ học của giọng nói cho phép người dùng tập trung vào việc hoàn thành nhiệm vụ thay vì thiết lập kết nối cảm xúc với trợ lý.
GPT-4o giống một "người" hơn. Loại trí tuệ nhân tạo mới này được xây dựng để tương tác xã hội và tham gia vào các cuộc trò chuyện . Nó tận dụng các khả năng xử lý ngôn ngữ tự nhiên (NLP) tiên tiến hơn để hiểu và trả lời các câu hỏi phức tạp, tổ chức các cuộc trò chuyện mở và thậm chí thể hiện cảm xúc. Để nâng cao độ bám của người dùng, thiết kế âm thanh của nó cũng có xu hướng khơi dậy cảm xúc và kết nối xã hội của người dùng.
Là một cổng thông tin tương tác tần số cao, giọng nói của trợ lý AI chắc chắn sẽ ảnh hưởng đến trải nghiệm người dùng. Đây không phải là một quyết định kinh doanh đơn giản. Khi quyết định sử dụng giọng nói nào, bạn cần cân nhắc nhu cầu tâm lý của người dùng mục tiêu, các vấn đề đạo đức tiềm ẩn và lợi ích thương mại. Suy cho cùng, nó có thể mang lại trải nghiệm người dùng tốt hơn nhưng cũng tiềm ẩn rủi ro như phản ứng dữ dội về mặt cảm xúc và bảo mật thông tin.
Một nghiên cứu của Trung tâm Nghiên cứu Pew cho thấy 52% người Mỹ lo lắng thay vì hào hứng về việc sử dụng trí tuệ nhân tạo ngày càng tăng . Đây là tâm lý chung của hầu hết mọi người đối với những điều mới mẻ. Việc phát minh ra công nghệ mới thường đi kèm với đủ loại cảm giác hoảng sợ, từ phản kháng đến việc làm quen với nó và đầy rẫy những trò chơi.
Trong tương lai gần, khi công nghệ trí tuệ nhân tạo tiếp tục phát triển, mối quan hệ giữa con người và máy móc sẽ trở nên phức tạp hơn. Giống như những gì đã thể hiện trong bộ phim “Avengers 2”, khi Jarvis được trang bị Gems Tâm trí và biến thành Ultron và Vision – những thực thể nhân tạo đại diện cho sự tự nhận thức, vừa thiện vừa ác. Nhưng nhiều khán giả lại có cảm tình với Jarvis vì anh luôn tin tưởng và thực hiện mọi quyết định của người tạo ra mình, Iron Man.
Bài viết này xuất phát từ tài khoản công khai WeChat "PConline Pacific Technology" (ID: pconline_cn), tác giả: Pacific Technology, 36Kr được phát hành có ủy quyền.





