OpenAI 正式推出 GPT-4 大型語言模型，ChatGPT 更聰明了！在諸多測試中表現比人類都好

GPT-4 可以更準確地解決你的難題，多模態的 GPT-4 還可以生成、編輯具有創意性或技術性的文章，在高級推理方面的表現超過其前輩（當前公開版 ChatGPT 基於 GPT-3.5）。當然，正如大家所猜測的那樣，微軟 New Bing 的聊天功能確實基於 GPT-4。

此外，該公司正在與合作夥伴 Be My Eyes 一起測試 GPT-4 的圖像輸入能力（註：Be My Eyes 是一款即將推出的智慧型手機 App，可以識別情境並對其進行描述，類似於大家常見的 AI 識圖的加強版）。

除了介紹網站，OpenAI 還提供了描述 GPT-4 功能的技術性論文，以及詳細描述其侷限性的系統模型 Card。

OpenAI 計畫通過 ChatGPT 及其商業 API 為使用者提供 GPT-4 的文字功能支援，但目前還需要等待。這裡需要提醒一下，GPT4 目前僅 ChatGPT plus 帳號可用，可選 GPT4 模式進行對話，每 4 小時限制傳送 100 條消息。

收費方面，大約 750 個單詞的提示收取約 3 美分的費用，約 750 個單詞的響應則收取 6 美分（就是問和答的區別）。

據介紹，GPT-4 比以前的版本“更大”，這意味著它已經借助比前輩更多的資料進行了訓練，並且在模型檔案中有更多的權重，從而使得它的運行成本更高。

就任務而言，GPT-4 的表現比前輩更好，它可以遵循自然語言的複雜指令並生成技術或創意內容，而且它可以還更深入地做到這一點：它支援生成和處理多達 32768 個標記（約 25000 個文字單詞），從而實現比前輩更長的內容建立或文字分析。

OpenAI 表示，GPT-4 錯誤答案更少，而且也會減少偏離話題的可能，也儘可能不會再談論禁忌話題，甚至在許多標準化測試中比人類表現得都要更好一些。

例如，GPT-4 在模擬律師考試的成績在考生中排名前 10% 左右，在 SAT 閱讀考試中排名前 7% 左右，在 SAT 數學考試中排名前 11% 左右。相比之下，GPT-3.5 在律師考試中的得分一般都是倒數 10% 左右。當然，它們考個研究生還是沒問題的。

當然，AI 畢竟是 AI，OpenAI 也表示目前 GPT-4 並不完美，它在很多情境下的能力都不如人類。

該模型仍然有“幻覺”或編造事實的問題，並且在事實方面也不一定總是可靠的，“它傾向於堅持認為它是正確的，即使它錯了”。OpenAI 表示，GPT-4 正在努力解決其侷限性，例如社會偏見、幻覺和對抗性提示。