OpenAI 正式推出 GPT-4 大型語言模型,ChatGPT 更聰明了!在諸多測試中表現比人類都好

OpenAI 剛剛公佈了其大型語言模型的最新版本 ——GPT-4。

GPT-4 可以更準確地解決你的難題,多模態的 GPT-4 還可以生成、編輯具有創意性或技術性的文章,在高級推理方面的表現超過其前輩(當前公開版 ChatGPT 基於 GPT-3.5)。當然,正如大家所猜測的那樣,微軟 New Bing 的聊天功能確實基於 GPT-4。

此外,該公司正在與合作夥伴 Be My Eyes 一起測試 GPT-4 的圖像輸入能力(註:Be My Eyes 是一款即將推出的智慧型手機 App,可以識別情境並對其進行描述,類似於大家常見的 AI 識圖的加強版)。

除了介紹網站,OpenAI 還提供了描述 GPT-4 功能的技術性論文,以及詳細描述其侷限性的系統模型 Card。

OpenAI 計畫通過 ChatGPT 及其商業 API 為使用者提供 GPT-4 的文字功能支援,但目前還需要等待。這裡需要提醒一下,GPT4 目前僅 ChatGPT plus 帳號可用,可選 GPT4 模式進行對話,每 4 小時限制傳送 100 條消息。

收費方面,大約 750 個單詞的提示收取約 3 美分的費用,約 750 個單詞的響應則收取 6 美分(就是問和答的區別)。

據介紹,GPT-4 比以前的版本“更大”,這意味著它已經借助比前輩更多的資料進行了訓練,並且在模型檔案中有更多的權重,從而使得它的運行成本更高。

就任務而言,GPT-4 的表現比前輩更好,它可以遵循自然語言的複雜指令並生成技術或創意內容,而且它可以還更深入地做到這一點:它支援生成和處理多達 32768 個標記(約 25000 個文字單詞),從而實現比前輩更長的內容建立或文字分析。

OpenAI 表示,GPT-4 錯誤答案更少,而且也會減少偏離話題的可能,也儘可能不會再談論禁忌話題,甚至在許多標準化測試中比人類表現得都要更好一些。

例如,GPT-4 在模擬律師考試的成績在考生中排名前 10% 左右,在 SAT 閱讀考試中排名前 7% 左右,在 SAT 數學考試中排名前 11% 左右。相比之下,GPT-3.5 在律師考試中的得分一般都是倒數 10% 左右。當然,它們考個研究生還是沒問題的。

當然,AI 畢竟是 AI,OpenAI 也表示目前 GPT-4 並不完美,它在很多情境下的能力都不如人類。

該模型仍然有“幻覺”或編造事實的問題,並且在事實方面也不一定總是可靠的,“它傾向於堅持認為它是正確的,即使它錯了”。OpenAI 表示,GPT-4 正在努力解決其侷限性,例如社會偏見、幻覺和對抗性提示。