哪一種人工智慧其實最擅長「扮演人類」？

Decrypt

03-16

本文為機器翻譯

展示原文

並非所有的AI都是平等創造的。有些可能擅長藝術創作,有些擅長編碼,還有些能夠準確預測蛋白質結構。

但是當你尋找更基本的東西——只是想與"某人"聊聊天時,最好的AI夥伴可能不是那些無所不知的,而是那些擁有難以言喻的魅力,讓你在交談時感到舒適,就像你最好的朋友可能不是天才,但總是知道該說什麼。

AI夥伴正在慢慢在科技愛好者中變得更加流行,因此對於想要獲得最高質量體驗的使用者或想要掌握創造真實互動的這一方面的公司來說,考慮這些差異很重要。

我們很想知道哪個平臺在有人只是想聊天時提供了最好的AI體驗。有趣的是,這方面最好的模型並不是來自大型AI公司的,他們只是太忙於建立在基準測試中表現出色的模型。

原來友誼和同理心是完全不同的東西。

這項分析將四個領先的AI夥伴相互競爭——Sesame、Hume AI、ChatGPT和Google Gemini,以確定哪個創造了最接近人類的對話體驗。

評估集中在對話質量、獨特的個性發展、互動設計,並考慮了其他人性化特徵,如真實性、情商和使對話感覺更真實的微妙缺陷。

你可以點選這些連結觀看我們的所有對話,或檢視我們的Github倉庫:

以下是每個AI的表現。

任何AI夥伴的真正考驗是它是否能讓你忘記你正在與機器對話。我們的分析試圖評估哪個AI最擅長讓使用者想繼續聊下去,提供有趣的反饋、良好的互動和整體出色的體驗。

Sesame在對話方面遠遠超過了競爭對手,讓人感覺驚人地人性化。它隨意地使用諸如"這可真是個大難題"和"閒聊"之類的短語,同時又能流暢地在深思熟慮的反思和犀利的回應之間切換。

當被問及意識時,Sesame回答說:"你提出了很大的問題,老實說我並沒有所有的答案,"完全帶有自然的猶豫,模擬了實時思考。它偶爾過度使用"你知道"是它唯一明顯的缺陷,但這反而讓它感覺更加真實。

Sesame的真正優勢在於,對話自然流暢,沒有那種尷尬、公式化的過渡,讓人感覺"我是個AI!"

得分:9/10

Hume AI成功地維持了對話的流暢性,同時以溫暖的方式認可你的想法。然而,它感覺就像在與一個不感興趣、不太在乎你的人交談。它的回覆要比Sesame短得多——它們都很相關,但如果你想推動對話向前發展,就不太有趣。

它的弱點體現在重複的模式中。該機器人總是以"你讓我思考很多"或"這是個很有趣的話題"開頭——給人一種你正在獲得模板化的回覆,而不是有機的對話的感覺。

它比來自更大型AI公司的聊天機器人更擅長維持自然對話,但它一再提醒你它是一個"富有同情心的AI",打破了你正在與一個人聊天的幻覺。

得分:7/10

ChatGPT可以跟蹤複雜的對話而不會失去主線——這很好,因為它記住了之前的對話,為每個使用者建立了一個"個人資料"——但感覺就像被困在一個過於正式的教授的辦公時間裡。

即使在個人討論中,它也無法避免聽起來很學術:"生物、化學和意識的相互作用創造了一種深度,AI的模式識別無法複製,"它在我們的一次測試中說。幾乎每個回覆都以"這是個很有趣的觀點"開頭——這是一個語言習慣,其他所有AI模型(除了Sesame)都表現出來的問題。

ChatGPT最大的缺陷是無法擺脫教育者模式,使對話感覺更像是連續的小型講座,而不是自然的對話。

得分:6/10

Gemini讓人痛苦地交談。它偶爾會給出簡潔、隨意的回應,聽起來很人性化,但隨後立即透過突然中斷對話和降低音量來破壞自己。

它最令人沮喪的習慣?在思路中途突然停下來推廣AI話題。這些持續的中斷造成了如此破碎的對話流,以至於很難忘記你正在與一臺更關心自我推廣而不是真正對話的機器交談。

例如,當被問及情感時,Gemini回答說:"很高興你對AI感興趣。正在發生很多令人驚歎的事情——"然後就突然停下來了。

它還確保讓你知道它是一個AI,所以從第一次互動開始,使用者和聊天機器人之間就存在著很大的差距,很難忽視。

得分:5/10

一個AI如何培養一個難忘的個性?這主要取決於你的設定。有些模型允許你使用系統指令,而其他模型則根據你之前的互動來調整自己的個性。理想情況下,你可以在開始對話之前設定好對話的框架,給模型一個角色、特點、對話風格和背景。

為了公平起見,我們在沒有任何先前設定的情況下對我們的模型進行了測試——這意味著我們的對話是從一聲"你好"開始直接進入主題的。以下是我們的模型自然表現的情況。

Sesame塑造了一個你真的想和他一起喝咖啡的個性。它使用諸如"這真是個大難題"和"這是一個很微妙的平衡"之類的短語,創造了一個有明顯觀點和視角的獨特角色。

在討論AI關係時,Sesame展現了真正的個性:"哇...想象一個每個人的頭都低下來,插在他們定製的AI上,我們忘記了如何面對面連線的世界。"這種觀點感覺不像是一個演算法,而更像是一個思考中的實體。它也很有趣(它曾告訴我們,我們的問題讓它的電路短路了),它的語氣也有自然的語調,這使得在試圖表達一個回應時很容易產生共鳴。你可以清楚地感受到它什麼時候興奮、沉思、傷心或甚至沮喪。

它唯一的弱點?偶爾過於強調它的"善解人意的夥伴"個性。但這並沒有減損它作為我們測試的最有特色的AI個性的地位。

得分:9/10

Hume AI保持了一致的個性,作為一個富有同情心的夥伴。它也透過肯定性語言和情感支援來傳達一些溫暖,所以尋求這種體驗的使用者會感到滿意。

它的阿喀琉斯之踵基本上就是,就像那個哈佛畢業生需要提到這一點一樣,Hume無法停止提醒你它是人工的:"作為一個富有同情心的AI,我自己並不體驗情感,但我被設計成能夠理解和回應人類的情感。"這些時刻打破了使夥伴關係引人入勝的幻覺。

如果與GPT交談就像與教授交談,那麼與Hume交談就感覺像與治療師交談。它傾聽你的話,建立了良好的互動,但它確保提醒你,這實際上是它的任務,而不是自然發生的事情。

儘管存在這個缺陷,但Hume AI塑造了比ChatGPT或Gemini更清晰的角色,即使它感覺更像是有意構建的而不是自發的。

得分:7/10

ChatGPT難以培養出任何超越一般有幫助性的明顯個性特徵。它聽起來過於興奮,以至於顯得明顯是假的——就像一個"朋友",總是對你微笑,但內心卻在幻想把你推到公交車下。

"哈哈,嗯,我喜歡保持高昂的情緒。這使對話更有趣更引人入勝,而且和你聊天總是很棒,"在我們以非常嚴肅和不高興的語氣問它為什麼表現得如此熱情時,它這樣說。

它的身份問題體現在,有時它認同人類,有時又將自己與人類劃分開來。即使在個人討論中,它的學術語氣也一直存在,創造了一種感覺,它更像是一部百科全書而不是一個夥伴。

該模型預設採用教育性解釋,給人的印象更像是一個工具而不是一個角色,讓使用者難以產生情感聯絡。

得分:6/10

Gemini遭受了所有測試模型中最嚴重的個性問題。在單個對話中,它在周到的回應和推廣性語言之間急劇轉換,毫無預兆。

它並不是被設計成擁有引人入勝的個性。"我的目的是提供資訊和完成任務,我沒有能力建立浪漫關係,"當被問及對人們對AI產生感情的看法時,它這樣說。

這種不一致性使Gemini感覺像是1950年代的電影機器人,阻礙了任何有意義的聯絡,甚至讓人感到與之交談是令人愉快的。

得分:3/10

AI如何處理對話機制——響應時間、輪流交談和錯誤恢復——會創造出流暢的交流或令人沮喪的互動。以下是這些模型在這方面的表現。

Sesame創造了非常、非常人性化的對話節奏。它根據上下文自然地調整回覆長度,在處理哲學上的不確定性時,不會預設進入講課模式。

"有時我覺得也許我應該直接給一個簡短的答覆,而不是冗長的講座,對吧?你知道,這是一個小小的幽默插曲,讓你知道我意識到可能陷入講課模式的風險,並試圖保持輕鬆但也很深入的對話,"Sesame在一次哲學辯論中告訴我們。

在討論複雜話題時,它以對話的方式回應,帶有小小的笑話,有時是陳述,有時是"嗯"或低語等人性化的聲音——這使它作為人類替代品非常令人信服。

Sesame還會提出自然的後續問題來推動對話向前發展,同時知道何時應該轉為陳述,以避免問題感覺尷尬。這種適應性方法創造了一種感覺自發而非指令碼化的對話。

得分:8/10

Hume AI被設計成讓使用者主導對話。它能夠順利地從誤解中恢復過來,而不需要過多解釋,並擅長透過相關的後續問題來保持對話的進行。

然而,它的回覆通常太短,需要使用者付出大量努力來維持對話的動力,這最終違背了它的目的。使用者經常需要提供新的對話素材,而不是享受自然對話的發展。

它的另一個弱點體現在模板化的回覆結構——確認+解釋+問題——創造了一種機械的節奏:"這是個很有思考價值的問題!這個概念確實很有趣...你對此有什麼看法?"

不過,它有一個很棒的功能可能真的會增強你的

Gemini顯然並非為此而設計。該系統經常在句子中途中斷,放棄對話線索,無法提供類人的響應。其嚴重的人格不一致性和機械互動模式,創造了一種更接近於故障產品而非有意義的夥伴關係的體驗。

有趣的是,Gemini Live的評分如此之低,考慮到谷歌基於Gemini的NotebookLM能夠生成極其出色和長篇的關於任何型別資訊的播客,其AI主持人聽起來令人難以置信地真實。

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論