ChatGPT 會講話了！OpenAI 為聊天機器人新增語音、圖像辨識能力

新功能會先提供給 ChatGPT Plus 和企業版的用戶優先體驗，將於未來兩週內推出。

ChatGPT 於昨（25 日）晚宣布推出新語音和圖像能力，用戶能與 AI 進行語音對話，或向 AI 展示與談話相關的圖像。

新功能會先提供給 ChatGPT Plus 和企業版的用戶優先體驗，將於未來兩週內推出，其中語音功能可在 iOS 和 Android 設備上使用，而圖像功能則會出現在所有平台。

使用者可藉由語音和 ChatGPT 進行來回對話，像是用語音請 ChatGPT 提供一篇睡前故事，聊天機器人也會用語音將其生成的故事唸出來。

新語音功能背後為一個新的文字轉語音模型，只需幾秒的語音樣本，模型就能用文本來生成接近人聲的語音。要將使用者的語音轉成文字，則是採用開源語音識別系統 Whisper。

至於 AI 的聲音來源，OpenAI 與專業的聲音演員合作，來建立每一個聲音，目前共 5 種聲音可選擇。OpenAI 也強調，生成聲音的技術可能會導致不肖人士以模仿他人來詐騙，因此他們確保新功能生成的聲音都是來自於直接合作的聲音演員。

若想體驗語音功能，需在行動裝置 App 的「設定」→「新功能」中選擇加入語音對話。接著再點擊位於主畫面右上角的耳機符號，從五種不同的聲音中做選擇。

現在也可向 ChatGPT 提供一或多個圖像，像是中秋節烤肉時烤肉架無法使用，就可傳送照片給 ChatGPT 來解決問題。若要請聊天機器人著重在圖像中的特定部分，可以使用 App 中的繪圖工具將該部分圈起來。

圖像理解功能是由多模態 GPT-3.5 和 GPT-4 驅動。這些模型將語言推理技巧應用於各種圖像，包括照片、螢幕截圖，以及含文字和圖像的內容。

若要傳照片，只要點擊照片的按鈕即可拍攝或選擇圖像，如果使用的是 iOS 或 Android，則要點擊加號按鈕。用戶可以討論多個圖像或使用繪圖工具來引導 ChatGPT。

圖像生成和文字生成一樣也存有產生幻覺等風險，因此 OpenAI 在廣泛部署此新功能前，已進行紅隊演練對模型進行了風險測試，包括測試了極端主義和科學能力等領域的風險，並召集了多元 Alpha 測試人員。