GPT-4 来啦!

GPT-4 技术报告下载:https://cdn.openai.com/papers/gpt-4.pdf

當我們使用 GPT-4 時,它就像一個非常進階的語言工具,能夠根據你的輸入來生成有用的文字內容。

從另一個角度來看,它也是一個系統,可以將你的夢想、想法和想像以文字的形式展現在你面前。

GPT-4非常先進和複雜,它能夠生成多達25,000個單詞的文字內容,比ChatGPT多出八倍左右。

它甚至能理解圖像,並能表達對圖像的邏輯思考。

例如,它能告訴我們,如果這張圖片中的氣球線被剪斷,氣球就會飛走。

這些AI技術真的很棒,可以讓你的生活更加便利,但是它們並不完美,也有可能會出現一些錯誤。

所以你需要確保它們的工作達到你的期望水平。

GPT-4的最有價值的應用場景是以真正的人類需求為出發點。

其中最顯著的應用就是教育領域,GPT-4可以教授各種學科,例如,可以給一個小學五年級學生一個個人數學家教,而且是無限時間和耐心的。

這是一個很好的工具,可以讓學習變得更加個性化。

GPT-4可以成為一個最有用和有益的助手,幫助你的生活更加充實。

OpenAI和微軟的合作是為了將這些技術應用到對全世界有用的地方。

人工智能的優勢在於它能夠幫助我們提高生產力,最終導致生活質量的提升。

我們相信,GPT-4將是世界上第一個體驗到高度能力和先進人工智能系統的人。

因此,對我們來說,這個模型能夠為每個人提供幫助非常重要,而不僅僅是早期使用者或非常接近技術的人。

所以,讓更多的人參與其中,這對我們學習如何使其對每個人都有幫助非常重要。

GPT-4,這是 OpenAI 努力擴展深度學習的最新里程碑。

GPT-4 是一個大型多模態模型(接受圖像和文本輸入,發出文本輸出),雖然在許多現實世界場景中的能力不如人類,但在各種專業和學術基准上表現出人類水平的表現。

例如,它通過模擬律師考試,分數在應試者的前 10% 左右;相比之下,GPT-3.5 的得分在倒數 10% 左右。

我們花了 6 個月的時間  使用我們的對抗性測試程序和 ChatGPT 的經驗教訓迭代調整 GPT-4,從而在真實性、可操縱性和拒絕超出護欄方面取得了有史以來最好的結果(儘管遠非完美)

GPT-4 在学术和专业考试中的表现。在每种情况下,都会模拟真实考试的条件和评分。考试根据 GPT-3.5 性能从低到高排序。在大多数测试中,GPT-4 的表现优于 GPT-3.5。为保守起见,报告了分数范围的下限,但这会在 AP 考试中产生一些误差,这些考试的得分区间非常宽。例如,尽管 GPT-4 在 AP 生物学上获得了最高分 (5/5),但这在图中仅显示为85%,因为 15% 的考生达到了该分数。

在過去的兩年裡,我們重建了整個深度學習堆棧,並與 Azure 一起為我們的工作負載從頭開始共同設計了一台超級計算機。一年前,我們訓練 GPT-3.5 作為系統的第一次“試運行”。我們發現並修復了一些錯誤並改進了我們的理論基礎。結果,我們的 GPT-4 訓練運行(至少對我們而言!)前所未有地穩定,成為我們能夠提前準確預測其訓練性能的第一個大型模型。隨著我們繼續專注於可靠的擴展,我們的目標是完善我們的方法,以幫助我們越來越多地提前預測和準備未來的能力——我們認為這對安全至關重要。

我們正在通過 ChatGPT 和 API(有候補名單發布 GPT-4 的文本輸入功能。為了準備圖像輸入功能以獲得更廣泛的可用性,我們正在與一個合作夥伴密切合作。我們還開源了OpenAI Evals,這是我們用於自動評估 AI 模型性能的框架,允許任何人報告我們模型中的缺點,以幫助指導進一步改進。

能力

在隨意的談話中,GPT-3.5 和 GPT-4 之間的區別可能很微妙。當任務的複雜性達到足夠的閾值時,差異就會出現——GPT-4 比 GPT-3.5 更可靠、更有創意,並且能夠處理更細微的指令。

用户提问:

這張圖片有什麼笑點?請按3個區域的圖片來一個一個描述一下。

GPT-4:

該圖顯示了帶有三個面板的「Lightning Cable」適配器的包裝。區域一:帶有 VGA 連接器(一種大的藍色 15 針連接器,通常用於計算機顯示器)的智能手機已插入其充電端口。區域二:「Lightning Cable」適配器的包裝,上面有 VGA 連接器的圖片。區域三:VGA 連接器特寫,末端有一個小型閃電連接器(用於為 iPhone 和其他 Apple 設備充電)。這張圖片中的幽默來自將過時的大型 VGA 連接器插入小型現代智能手機充電端口的荒謬做法。

不會直接告訴你答案的家教

為了了解這兩種模型之間的區別,我們在各種基準測試中進行了測試,包括最初為人類設計的模擬考試。我們通過使用最新的公開測試(在奧林匹克競賽和 AP 自由回答問題的情況下)或購買 2022-2023 年版本的模擬考試來繼續進行。我們沒有針對這些考試進行專門培訓。模型在訓練期間看到了考試中的少數問題,但我們認為結果具有代表性——詳情請參閱我們的技術報告。

內部參考1個
AP Calculus BCAMC 12Codeforces RatingAP English LiteratureAMC 10Uniform Bar ExamAP English LanguageAP ChemistryGRE QuantitativeAP Physics 2USABO Semifinal 2020AP MacroeconomicsAP StatisticsLSATGRE WritingAP MicroeconomicsAP BiologyGRE VerbalAP World HistorySAT MathAP US HistoryAP US GovernmentAP PsychologyAP Art HistorySAT EBRWAP Environmental Science