GPT-4新發表讓ChatGPT升級，看圖新功能是什麼？要付費？

AI大戰持續升級。台灣時間3月15日凌晨，OpenAI在官網正式發表GPT-4新模型，讓ChatGPT變得更強。這回，AI不只能看文章，還能看圖說故事？目前已開放的試用，只限ChatGPT Plus訂閱戶，到底怎麼啟動？而背後所謂的多模態模型，是否暗示未來人工智慧將擁有五感，還有自主權？

數天以前，微軟德國技術長布朗恩（Andreas Braun）曾預告，這週會發表GPT-4，光是他提前告知公眾這個消息，就已經引來軒然大波，可以預期，不只是明天、後天，接下來的新聞頭條和社群關注的焦點，也必然是GPT-4模型。和過往模型相比，GPT-4模型提升了哪些功能？做為一個多模態（multimodal）模型，它又有什麼特點？《遠見》一文整理帶您看生成式AI最新發展。

GPT-4已正式開放試用，要付費才行？
GPT-4與GPT-3.5相比，升級在哪？
GPT-4看圖說故事新功能開箱
讓GPT-4更強大的多模態模型是什麼？為何這樣的AI模型將擁有自主權？
GPT-4以後升級，還將讓AI擁有「聽覺」，甚至嗅覺與觸覺？
GPT-4缺陷：更快更好以外，還是有偏見

GPT-4已正式開放試用，要付費才行？

GPT-4已正式開放試用！OpenAI在ChatGPT官網中，讓有訂閱ChatGPT Plus的人能夠優先使用GPT-4驅動的問答，不過因為還在測試階段，因此會嚴格限制使用上限。OpenAI也有讓免費使用者接觸GPT-4的機會，它們預計將會提供一定額度的免費GPT-4使用權。

至於GPT-4的API，現在OpenAI開放了等待表單，未來使用者可以依照呼叫API的次數付費。

在文章最後，OpenAI表示，它們期待GPT-4能夠成為改善們生活的重要工具，它們也會持續改善這個模型。

OpenAI官網GPT4發表網址：https://openai.com/research/gpt-4

GPT-4與GPT-3.5相比，升級在哪？

跟過往的GPT-3.5相比，GPT-4變得更快、更好、更精準、更道德、更能夠依照使用者需求客製化，雖然它仍有侷限，例如還是會無中生有、犯下推理錯誤、被使用者的虛假陳述所騙，但在OpenAI的調校下，GPT-4的安全性有所提升，針對敏感提問如製造武器、醫療諮詢等，還有生成有問題的程式碼、會傷害人的建議，GPT-4皆有所進步。

OpenAI指出，若只是隨意聊天，GPT-4和先前的模型沒有很大差異，當任務變得複雜時，就能見識到GPT-4的驚人之處。在回答奧林匹亞（Olympiad，國際解題競賽，各國會派出優秀學生參與）和美國大學預修課程（AP，Advanced Placement）的試題時，GPT-4模型的表現大幅勝過GPT3.5。

舉例來說，在統一律師資格考（Uniform Bar Exam）中，GPT-3.5的PR值大約為10，但GPT-4的PR值高達90；法學院入學考試（LSAT）的結果類似，GPT-3.5 PR40，GPT-4 PR88。即使是英文以外的語言，GPT-4的表現也贏過GPT3.5和DeepMind的龍貓大語言模型（Chinchilla）、谷歌的PaLM模型。

除了成績進步以外，OpenAI提升了GPT-4的可控制性（steerability）。我們平常使用的ChatGPT，說起話來溫文儒雅、客氣萬分，如今只要使用者先描述想要使用的ChatGPT風格，便能夠和換裝後的ChatGPT對話，例如蘇格拉底式的ChatGPT，就注重引導、不會直接給學生答案。

圖／OpenAI請GPT-4模型以蘇格拉底風格教學，絕對不能給學生答案；相反地，還要不斷提出好問題幫助學生思考。ChatGPT果真循循善誘，以提問代替直接回答。取自OpenAI官網

GPT-4看圖說故事新功能開箱

過往的GPT模型只能接受文字，然而，GTP-4這次最驚人之處，就是它不只能夠讀取文字指令，GPT-4還能夠「看懂」圖像。

能夠「看懂」圖像，代表使用者可以將圖片交給模型判讀，無論是學生常見的看圖寫作文、根據圖表解釋情況，或者是生活中可能用到的相片命名分類，還有工作會用到的圖像素材貼標，這些都難不倒GPT-4模型。

圖／OpenAI請GPT-4模型解釋上圖的不尋常之處，模型指出有個人在移動中的計程車後方架子上燙衣服。取自OpenAI官網

讓GPT-4更強大的多模態模型是什麼？為何這樣的AI模型將擁有自主權？

GPT-4之所以能學會看圖說故事，也在於它和GPT-3.5最大不同點是，它是一個多模態（multimodal）模型。

到底，什麼是多模態模型？事實上，OpenAI先前就曾發表類似技術，也就是同樣屬於多模態預訓練模型的CLIP（Contrastive Language-Image Pre-Training），它能夠自動分辨圖片之間的差異，即使沒有文字標籤，使用者也可以輸入文字搜尋想要的相片，完全整合了文字與圖像兩種不同的資料類型。OpenAI類似midjourney的文字生成圖像DALLE·2，便是運用了CLIP的技術。

谷歌大腦（Google Brain）專攻深度學習的研究總監艾克（Douglas Eck）也曾表示，多模態人工智慧模型將會帶來最新的突破；DeepMind的研究總監哈德席（Raia Hadsell）也對多模態模型感到興奮，他更大膽預言，未來我們可能見到人工智慧模型能夠自由探索、擁有自主權、跟環境互動。

當然，GPT-4現在僅具備讀懂圖像和文字的能力，另外，它輸出的內容也只有文字，但OpenAI早就有影像生成的服務，是否要將其整合到GPT-4的新版模型中，只是OpenAI策略上的決定，要做與不做而已。

圖／OpenAI請GPT-4模型針對圖表，計算美國喬治亞州，和西亞（West Asia）平均每日肉品消費的加總值，且要求模型提供逐步的推理過程，這也沒有難倒它。取自OpenAI官網

GPT-4以後升級，還將讓AI擁有「聽覺」，甚至嗅覺與觸覺？

不過，恐怕厲害的還在後頭。現在GPT-4先從文字開始，接著進展到圖像，下一步可能是聲音，因為OpenAI在音樂生成領域有耕耘甚久；若進一步從二維平面上升到三維，例如觸覺或者嗅覺，逐步發展下去，當未來的GPT模型能夠「讀懂」不同型態的資料後，它能夠完成的任務將會更加複雜且多元，介入人類生活的空間愈來愈大。

GPT-4缺陷：更快更好以外，還是有偏見

雖然性能提升，但OpenAI坦承，GPT-4仍有無法克服的問題，它仍會無中生有，生成的文字還是有偏見（bias），此外，和過往一樣，因為訓練資料只到2021年9月，GPT-4不知道那之後世界發生了什麼事。

即使是簡單的推理，它還是不時出錯，使用者故意用虛假的敘述釣魚，也能讓GPT-4上當受騙，在某些事實性問題上，也有答錯的機會。幸好，在內部測試中，GPT-4正確回答問題的準確度已經有明顯提升。

OpenAI強調，它們在開發時，有為模型的安全性做出努力。它們邀請了多位專家協助測試模型在特定領域上的應用，例如網路安全、生物風險（biorisk）、國際安全等，以免相關問答引發危險；此外，它們也在訓練過程中明確設定了減少產出有害內容的改進方向，例如更能夠避免回答自殘、製造武器、危害身體健康的相關問題。

不過，若是有心人士想盡辦法繞過這些限制，還是有奸計得逞的機會，現在OpenAI正透過不同方法，希望減少使用者成功「越獄」、跨過模型規範的行為。

GPT-4新發表讓ChatGPT升級，看圖新功能是什麼？要付費？

目錄

GPT-4已正式開放試用，要付費才行？

GPT-4與GPT-3.5相比，升級在哪？

GPT-4看圖說故事新功能開箱

讓GPT-4更強大的多模態模型是什麼？為何這樣的AI模型將擁有自主權？

GPT-4以後升級，還將讓AI擁有「聽覺」，甚至嗅覺與觸覺？

GPT-4缺陷：更快更好以外，還是有偏見

OKX Racer

币圈福利！大方教你如何通过Megadrop空投赚取免费Lista代币

ChatGPT-4o for Mac 官方下載地址

Ton推出的Notcoin是什麼？如何在手機上挖礦$NOT幣？