識(shí)別人類情緒、實(shí)時(shí)回答更健談!GPT-4o發(fā)布或開(kāi)啟人工智能交互新潮流
OpenAI又迎來(lái)升級(jí),搖身一變成了人工智能語(yǔ)音助手。
北京時(shí)間周二凌晨1點(diǎn), 人工智能(AI)巨頭OpenAI舉行春季發(fā)布會(huì)。公司首席技術(shù)官M(fèi)ira Murati帶來(lái)了多項(xiàng)與ChatGPT有關(guān)的更新。
本次發(fā)布會(huì)要點(diǎn):
新的 GPT-4o 模型:打通任何文本、音頻和圖像的輸入,相互之間可以直接生成,無(wú)需中間轉(zhuǎn)換
GPT-4o 語(yǔ)音延遲大幅降低,能在 232 毫秒內(nèi)回應(yīng)音頻輸入,平均為 320 毫秒,這與對(duì)話中人類的響應(yīng)時(shí)間相似。
GPT-4o 向所有用戶免費(fèi)開(kāi)放
GPT-4o API,比 GPT 4-Turbo 快 2 倍,價(jià)格便宜 50%
驚艷的實(shí)時(shí)語(yǔ)音助手演示:對(duì)話更像人、能實(shí)時(shí)翻譯,識(shí)別表情,可以通過(guò)攝像頭識(shí)別畫面寫代碼分析圖表
ChatGPT 新 UI,更簡(jiǎn)潔
一個(gè)新的 ChatGPT 桌面應(yīng)用程序,適用于 macOS,Windows 版本今年晚些時(shí)候推出
整場(chǎng)發(fā)布會(huì)中,最吸引人的莫過(guò)于GPT-4o 模型。
據(jù)OpenAI表示,GPT-4o是一個(gè)“原生多模態(tài)”模型,它的命名來(lái)源于“omni”,即包羅萬(wàn)象之意。
比起此前要么是圖文模式要么是語(yǔ)音模式的GPT-4,它更擅長(zhǎng)打組合拳,可以接受文字、音頻、圖像的任意組合輸入,然后無(wú)縫銜接圖文音頻的多種形式輸出。
GPT4o可檢測(cè)人的情緒
OpenAI聯(lián)合創(chuàng)始人奧特曼曾表示,“多模態(tài)交互能力非常強(qiáng)大,比如可以問(wèn):‘嘿,ChatGPT,我正在看什么’或‘我不太確定這是哪種植物。’”
“我期望的是一種始終處于激活狀態(tài),且極易使用的設(shè)備,可以通過(guò)語(yǔ)音、文字,或者更理想的其他狀態(tài),來(lái)理解我的需求?!眾W特曼表示,“設(shè)想有個(gè)系統(tǒng)能全天輔助我,盡可能多地去收集上下文信息,成為世界上最出色的助理,不斷地幫助我提升自我。”
通過(guò)響應(yīng)速度的大幅提升,該模型在語(yǔ)音模式下,已經(jīng)可以達(dá)到“實(shí)時(shí)”響應(yīng)的狀態(tài),不再需要尷尬地等上幾秒鐘,等ChatGPT給出一個(gè)回答。
換句話說(shuō),用戶可以與ChatGPT像真人一樣聊天——在機(jī)器人回應(yīng)的過(guò)程中打斷它,提出更多的要求(例如轉(zhuǎn)變?cè)掝}、要求機(jī)器人改變語(yǔ)音語(yǔ)調(diào)),再也不需要等待機(jī)器人完成上一個(gè)問(wèn)題的回復(fù)后,再提出新的問(wèn)題。
發(fā)布會(huì)上,主持人與ChatGPT寒暄幾句,它能夠從對(duì)方的喘氣聲中理解“緊張”的含義,并且指導(dǎo)他進(jìn)行深呼吸。
隨后,主持人開(kāi)了攝像頭,拍了白紙上一道題目,請(qǐng)ChatGPT實(shí)時(shí)幫忙解一個(gè)一元方程題,又解讀了一幅氣溫圖表。除了圖像識(shí)別和解題能力外,ChatGPT展現(xiàn)了實(shí)時(shí)根據(jù)影像變化,與人們實(shí)時(shí)互動(dòng)的能力。
主持人還展示了和ChatGPT進(jìn)行意大利語(yǔ)、英語(yǔ)的對(duì)話聊天,ChatGPT毫不費(fèi)力地就能充當(dāng)兩人的現(xiàn)場(chǎng)翻譯員,實(shí)時(shí)準(zhǔn)確地翻譯出對(duì)話內(nèi)容。
用戶無(wú)需注冊(cè)即可使用ChatGPT
此外,OpenAI宣布,將允許用戶直接使用ChatGPT,而無(wú)需注冊(cè)該項(xiàng)服務(wù),同時(shí)ChatGPT的免費(fèi)用戶也能用上最新發(fā)布的GPT-4o模型(更新前只能使用GPT-3.5),來(lái)進(jìn)行數(shù)據(jù)分析、圖像分析、互聯(lián)網(wǎng)搜索、訪問(wèn)應(yīng)用商店等操作。這也意味著GPT應(yīng)用商店的開(kāi)發(fā)者,將面對(duì)海量的新增用戶。
當(dāng)然,付費(fèi)用戶將會(huì)獲得更高的消息限制,至少是免費(fèi)用戶的5倍。當(dāng)免費(fèi)用戶用完消息數(shù)量后,ChatGPT將自動(dòng)切換到 GPT-3.5。另外,OpenAI將在未來(lái)1個(gè)月左右向Plus用戶推出基于GPT-4o改進(jìn)的語(yǔ)音體驗(yàn),目前GPT-4o的API并不包含語(yǔ)音功能。
蘋果用戶迎來(lái)ChatGPT桌面應(yīng)用
最后,蘋果電腦用戶將迎來(lái)一款為macOS設(shè)計(jì)的ChatGPT桌面應(yīng)用,用戶可以通過(guò)快捷鍵“拍攝”桌面并向ChatGP提問(wèn),OpenAI表示,Windows版本將在今年晚些時(shí)候推出。
OpenAI 還表示,ChatGPT 還優(yōu)化了用戶界面,有了全新的界面。OpenAI 的演示顯示,用戶可以將處于最小化窗口的 ChatGPT 桌面應(yīng)用與其他程序并排打開(kāi)。用戶可以通過(guò)輸入或語(yǔ)音的方式向 ChatGPT 提問(wèn)屏幕上顯示的內(nèi)容,ChatGPT 則能根據(jù)其“所見(jiàn)” 進(jìn)行回答。
對(duì)于蘋果用戶,人們可以通過(guò) Option + 空格鍵向 ChatGPT 提問(wèn),并且可以在應(yīng)用內(nèi)截取和討論屏幕截圖。
參考來(lái)源:潮新聞客戶端、機(jī)器之心、果殼、GitHub愛(ài)好者社區(qū)等
整理:段大衛(wèi)