GPT-4新發表讓ChatGPT升級,看圖新功能是什麼?要付費?

AI大戰持續升級。台灣時間3月15日凌晨,OpenAI在官網正式發表GPT-4新模型,讓ChatGPT變得更強。這回,AI不只能看文章,還能看圖說故事?目前已開放的試用,只限ChatGPT Plus訂閱戶,到底怎麼啟動?而背後所謂的多模態模型,是否暗示未來人工智慧將擁有五感,還有自主權?

OpenAI發表介紹GPT-4模型的文章。取自OpenAI官網

數天以前,微軟德國技術長布朗恩(Andreas Braun)曾預告,這週會發表GPT-4,光是他提前告知公眾這個消息,就已經引來軒然大波,可以預期,不只是明天、後天,接下來的新聞頭條和社群關注的焦點,也必然是GPT-4模型。和過往模型相比,GPT-4模型提升了哪些功能?做為一個多模態(multimodal)模型,它又有什麼特點?《遠見》一文整理帶您看生成式AI最新發展。

目錄

  • GPT-4已正式開放試用,要付費才行?
  • GPT-4與GPT-3.5相比,升級在哪?
  • GPT-4看圖說故事新功能開箱
  • 讓GPT-4更強大的多模態模型是什麼?為何這樣的AI模型將擁有自主權?
  • GPT-4以後升級,還將讓AI擁有「聽覺」,甚至嗅覺與觸覺?
  • GPT-4缺陷:更快更好以外,還是有偏見

GPT-4已正式開放試用,要付費才行?

GPT-4已正式開放試用!OpenAI在ChatGPT官網中,讓有訂閱ChatGPT Plus的人能夠優先使用GPT-4驅動的問答,不過因為還在測試階段,因此會嚴格限制使用上限。OpenAI也有讓免費使用者接觸GPT-4的機會,它們預計將會提供一定額度的免費GPT-4使用權。

至於GPT-4的API,現在OpenAI開放了等待表單,未來使用者可以依照呼叫API的次數付費。

在文章最後,OpenAI表示,它們期待GPT-4能夠成為改善們生活的重要工具,它們也會持續改善這個模型。

OpenAI官網GPT4發表網址https://openai.com/research/gpt-4

GPT-4與GPT-3.5相比,升級在哪?

跟過往的GPT-3.5相比,GPT-4變得更快、更好、更精準、更道德、更能夠依照使用者需求客製化,雖然它仍有侷限,例如還是會無中生有、犯下推理錯誤、被使用者的虛假陳述所騙,但在OpenAI的調校下,GPT-4的安全性有所提升,針對敏感提問如製造武器、醫療諮詢等,還有生成有問題的程式碼、會傷害人的建議,GPT-4皆有所進步。

OpenAI指出,若只是隨意聊天,GPT-4和先前的模型沒有很大差異,當任務變得複雜時,就能見識到GPT-4的驚人之處。在回答奧林匹亞(Olympiad,國際解題競賽,各國會派出優秀學生參與)和美國大學預修課程(AP,Advanced Placement)的試題時,GPT-4模型的表現大幅勝過GPT3.5。

舉例來說,在統一律師資格考(Uniform Bar Exam)中,GPT-3.5的PR值大約為10,但GPT-4的PR值高達90;法學院入學考試(LSAT)的結果類似,GPT-3.5 PR40,GPT-4 PR88。即使是英文以外的語言,GPT-4的表現也贏過GPT3.5和DeepMind的龍貓大語言模型(Chinchilla)、谷歌的PaLM模型。

除了成績進步以外,OpenAI提升了GPT-4的可控制性(steerability)。我們平常使用的ChatGPT,說起話來溫文儒雅、客氣萬分,如今只要使用者先描述想要使用的ChatGPT風格,便能夠和換裝後的ChatGPT對話,例如蘇格拉底式的ChatGPT,就注重引導、不會直接給學生答案。

圖/OpenAI請GPT-4模型以蘇格拉底風格教學,絕對不能給學生答案;相反地,還要不斷提出好問題幫助學生思考。ChatGPT果真循循善誘,以提問代替直接回答。取自OpenAI官網

GPT-4看圖說故事新功能開箱

過往的GPT模型只能接受文字,然而,GTP-4這次最驚人之處,就是它不只能夠讀取文字指令,GPT-4還能夠「看懂」圖像。

能夠「看懂」圖像,代表使用者可以將圖片交給模型判讀,無論是學生常見的看圖寫作文、根據圖表解釋情況,或者是生活中可能用到的相片命名分類,還有工作會用到的圖像素材貼標,這些都難不倒GPT-4模型。

圖/OpenAI請GPT-4模型解釋上圖的不尋常之處,模型指出有個人在移動中的計程車後方架子上燙衣服。取自OpenAI官網


讓GPT-4更強大的多模態模型是什麼?為何這樣的AI模型將擁有自主權?

GPT-4之所以能學會看圖說故事,也在於它和GPT-3.5最大不同點是,它是一個多模態(multimodal)模型。

到底,什麼是多模態模型?事實上,OpenAI先前就曾發表類似技術,也就是同樣屬於多模態預訓練模型的CLIP(Contrastive Language-Image Pre-Training),它能夠自動分辨圖片之間的差異,即使沒有文字標籤,使用者也可以輸入文字搜尋想要的相片,完全整合了文字與圖像兩種不同的資料類型。OpenAI類似midjourney的文字生成圖像DALLE·2,便是運用了CLIP的技術。

谷歌大腦(Google Brain)專攻深度學習的研究總監艾克(Douglas Eck)也曾表示,多模態人工智慧模型將會帶來最新的突破;DeepMind的研究總監哈德席(Raia Hadsell)也對多模態模型感到興奮,他更大膽預言,未來我們可能見到人工智慧模型能夠自由探索、擁有自主權、跟環境互動。

當然,GPT-4現在僅具備讀懂圖像和文字的能力,另外,它輸出的內容也只有文字,但OpenAI早就有影像生成的服務,是否要將其整合到GPT-4的新版模型中,只是OpenAI策略上的決定,要做與不做而已。

圖/OpenAI請GPT-4模型針對圖表,計算美國喬治亞州,和西亞(West Asia)平均每日肉品消費的加總值,且要求模型提供逐步的推理過程,這也沒有難倒它。取自OpenAI官網

GPT-4以後升級,還將讓AI擁有「聽覺」,甚至嗅覺與觸覺?

不過,恐怕厲害的還在後頭。現在GPT-4先從文字開始,接著進展到圖像,下一步可能是聲音,因為OpenAI在音樂生成領域有耕耘甚久;若進一步從二維平面上升到三維,例如觸覺或者嗅覺,逐步發展下去,當未來的GPT模型能夠「讀懂」不同型態的資料後,它能夠完成的任務將會更加複雜且多元,介入人類生活的空間愈來愈大。

GPT-4缺陷:更快更好以外,還是有偏見

雖然性能提升,但OpenAI坦承,GPT-4仍有無法克服的問題,它仍會無中生有,生成的文字還是有偏見(bias),此外,和過往一樣,因為訓練資料只到2021年9月,GPT-4不知道那之後世界發生了什麼事。

即使是簡單的推理,它還是不時出錯,使用者故意用虛假的敘述釣魚,也能讓GPT-4上當受騙,在某些事實性問題上,也有答錯的機會。幸好,在內部測試中,GPT-4正確回答問題的準確度已經有明顯提升。

OpenAI強調,它們在開發時,有為模型的安全性做出努力。它們邀請了多位專家協助測試模型在特定領域上的應用,例如網路安全、生物風險(biorisk)、國際安全等,以免相關問答引發危險;此外,它們也在訓練過程中明確設定了減少產出有害內容的改進方向,例如更能夠避免回答自殘、製造武器、危害身體健康的相關問題。

不過,若是有心人士想盡辦法繞過這些限制,還是有奸計得逞的機會,現在OpenAI正透過不同方法,希望減少使用者成功「越獄」、跨過模型規範的行為。