谷歌深夜放大招,!最強大模型Gemini能打敗GPT4嗎?
2023-12-07 10:09:12 來源: 第一財經(jīng)
在一段視頻中,一個男子做出后仰并躲避的慢動作,,AI馬上猜出:這是表演《黑客帝國》中“子彈時間”的場景,。
當人類拿起畫筆在一張紙上勾勒出一只鴨子,,并為它涂上了藍色,。這次AI說道:“這可不是鴨子常見的顏色,?!?/span>
三個空杯并排放在桌子上,一張藍色紙團被塞進其中一個杯子里,,在人類一番眼花繚亂的操作后,,AI準確地猜出:“紙團在最左邊的杯子里!”
“喂”給AI一張手寫的物理題,,它不僅能看懂,,而且還能分辨手寫答案的對錯,并且給出解釋出一步一步解決問題的細節(jié),。
上傳食材圖像和語音輸入,,AI不僅可以指導你做菜,還能在不同階段提出相應的建議,。
這些片段,,是Google演示其在12月6日最新出爐的AI大模型Gemini的場景。
“我們離新一代人工智能模型的愿景越來越近了,?!边M行完一系列視頻演示后,,Google DeepMind產(chǎn)品副總裁Eli Collins(伊萊·柯林斯)對包括第一財經(jīng)在內(nèi)的媒體說,這是Google迄今為止功能最強大,、最通用的大模型,。
和市面上現(xiàn)有大模型相比,Gemini從一開始就被創(chuàng)建為多模態(tài)的模型,,這意味著它可以歸納并流暢地理解、操作以及組合不同類型的信息,,包括文本,、代碼、音頻,、圖像和視頻,。在靈活度上,從數(shù)據(jù)中心到移動設(shè)備上,,它都能夠運行,。
Gemini被視作是Google在AI大模型領(lǐng)域放出的“大招”。多年前,,Google憑借AlphaGo的驚艷表現(xiàn)在全球掀起了一波AI浪潮,。但這一次,在OpenAI的ChatGPT所引發(fā)的AI新浪潮中,,Google面臨不小的壓力,。眼下,Google迫切需要一款現(xiàn)象級AI產(chǎn)品,,證明自己在人工智能領(lǐng)域的實力,。
能打敗GPT4嗎?
就在Google發(fā)布最新大模型之前,,微軟剛剛宣布了旗下AI助手Copilot重大升級,,將接入OpenAI的最新模型GPT-4 Turbo。
“遲到總比不做好,!終于有了OpenAI王座的有力競爭者,。”在Google公布消息后,,英偉達AI科學家Jim Fan(范麟熙)就第一時間轉(zhuǎn)發(fā)并評論,。
Google CEO Sundar Pichai(桑達爾?皮查伊) 評價,Gemini這一新時代的模型代表了Google作為一家公司在科學和工程方面所做的最大努力之一,。他同時提到,,這也是Google今年早些時候成立 Google DeepMind 時的愿景首次實現(xiàn)。
今年4月,,或許是感受到了 OpenAI 聯(lián)手微軟帶來的挑戰(zhàn),,以及為了加速實現(xiàn)通用人工智能(AGI)的目標,,Google將曾經(jīng)誕生了Tensorflow與Transformer 的Google Brain 團隊,和憑借AlphaGo掀起上一輪AI熱潮,、創(chuàng)造了AlphaFold預測蛋白質(zhì)折疊的DeepMind 團隊合并,,成立 Google DeepMind,這一團隊也被外界調(diào)侃是“AI復仇者聯(lián)盟”,。原Google AI產(chǎn)品負責人Eli Collins就是在那時開始擔任起新團隊的產(chǎn)品副總裁,。
今日Google Deepmind發(fā)布第一個版本 Gemini 1.0 ,針對不同尺寸進行了優(yōu)化,,分別是Ultra,、Pro 和 Nano。其中Gemini Ultra是目前Google規(guī)模最大,、功能最強大的模型,,適用于高度復雜的任務;Gemini Pro是適用于可擴展各種任務的模型,;Gemini Nano主要是端側(cè)設(shè)備上的模型,。
Gemini發(fā)布后,外界最關(guān)心的是其對OpenAI GPT4的挑戰(zhàn),。在采訪中,,記者提問Eli Collins :“Gemini能打敗市面上包括GPT4在內(nèi)所有的大模型嗎?”
Eli Collins在回答中表示,,團隊一直在對 Gemini 模型進行嚴格的測試并評估其在各種任務中的性能,。從自然圖像、音頻和視頻理解到數(shù)學推理,,在被大型語言模型(LLM)研究和開發(fā)中廣泛使用的 32 項學術(shù)基準中,,Gemini Ultra 的性能有 30 項都超過了目前最先進的水平。
他援引了來自MMLU的測試結(jié)果,,稱Gemini Ultra 的得分率為 90%,,是第一個在 MMLU測試中超過人類專家的模型,MMLU 綜合使用了數(shù)學,、物理,、歷史、法律,、醫(yī)學和倫理等 57 個科目,,用于測試世界知識和解決問題的能力。作為對比,,人類專家的得分率為89.8%,,GPT4得分率為86.4%。
在多模態(tài)方面,Gemini Ultra在新的MMMU基準測試中也獲得了59.4%的SOTA分數(shù),。這項基準測試是由跨不同領(lǐng)域的多模式任務組成,,需要大模型進行一個深思熟慮的推理過程。
Goolge Gemini大模型多模態(tài)背后的技術(shù)原理也引發(fā)業(yè)界關(guān)注,。Goolge DeepMind首席科學家杰夫·迪恩團隊為此撰寫了60頁技術(shù)報告來闡述。
到目前為止,,創(chuàng)建多模態(tài)模型的標準方法是分別訓練不同模態(tài)的組件,,然后將它們拼接在一起,,以粗略模擬某些功能,。這些模型有時可以很好地完成描述圖像等特定任務,,但在概念性更強,、更復雜的推理方面卻顯得力不從心,。
據(jù)DeepMind CEO Demis Hassabis(戴密斯·哈薩比斯)透露,,團隊將 Gemini 設(shè)計為原生多模態(tài),,從一開始就在不同模態(tài)上進行預訓練,。然后,,利用額外的多模態(tài)數(shù)據(jù)對其進行微調(diào),以進一步提高其有效性,。這有助于 Gemini 從最初階段就能對輸入的各種內(nèi)容順暢地進行理解和推理,,并優(yōu)于現(xiàn)有的多模態(tài)模型。
復雜的多模態(tài)推理能力能夠幫助理解復雜的書面和視覺信息,。這使得它可以在海量的數(shù)據(jù)中發(fā)掘難以辨別的知識內(nèi)容,,回答與復雜主題相關(guān)的問題,尤其擅長解釋數(shù)學和物理等復雜科目中的推理,。
以解題為例,,利用Gemini的多模態(tài)推理能力,AI能夠讀懂字跡凌亂的手寫內(nèi)容,,正確理解問題的表述,,還能夠把問題和解決方案都轉(zhuǎn)換為數(shù)字排版,識別出人類在解決問題時出錯的具體推理步驟,,并一步步給出問題的正確解決方案,。
此外,它擁有通過閱讀,、過濾以及理解信息,,從數(shù)十萬份文件中提取數(shù)據(jù)集和觀點的能力,有助于在從科學到金融等多個領(lǐng)域以數(shù)字化速度實現(xiàn)新的突破,。
而在Gemini多模態(tài)大模型的背后,,是由 Google 自研的云芯片 TPUs v4 和 v5e 在通過 AI 優(yōu)化過的基礎(chǔ)設(shè)施上,,對 Gemini 1.0 進行大規(guī)模訓練。
當天,,Google還發(fā)布了最新的 TPU 系統(tǒng) Cloud TPU v5p,,稱訓練速度比前代快2.8倍,有望幫助開發(fā)者和企業(yè)客戶更快地訓練大規(guī)模生成式 AI 模型,。
應用層比拼剛剛開始
目前看起來,,在“跑分”上Google Gemini更勝一籌,,但接下來,更重要的是各家大模型在實際應用中的比拼,。
Eli Collins 在接受第一財經(jīng)等媒體采訪時說,,Google希望建立新一代AI模型,它是由人們對世界的理解和互動而激發(fā)的,,人工智能更像是一個樂于助人的合作者,,而不像是一個聰明的軟件。
目前,,Google旗下的聊天機器人Bard已經(jīng)集成Gemini Pro的微調(diào)版本,,在170多個國家和地區(qū)提供英語服務,并且計劃在未來幾個月內(nèi)擴展不同的模態(tài),,并支持新的語言和地區(qū),。明年年初,Google還將推出Bard Advanced,,提供Gemini Ultra模型的最佳性能,。
在移動設(shè)備端,Google的Pixel 8 Pro成為首款搭載Gemini Nano的智能手機,,它可以支持錄音總結(jié),、智能回復等AI功能,明年還將推出更多信息應用,。
基于定制版的Gemini,,谷歌推出了代碼生成系統(tǒng)AlphaCode 2。Google稱,,在面對不僅涉及編程,,還涉及復雜的數(shù)學和計算機科學理論等領(lǐng)域的問題時,AlphaCode 2都表現(xiàn)出了卓越的性能,。
未來幾個月,,Gemini 將應用于Google更多的產(chǎn)品和服務,如 Search、Ads,、Chrome 和 Duet AI,。
據(jù)透露,Google已經(jīng)開始在 Search 中試驗 Gemini,,它能夠為用戶提供更快的搜索生成體驗(SGE),,用戶在美國的英語搜索延遲降低了 40%,同時在質(zhì)量方面也有所提高,。
而對于Google采取哪些努力來防止Gemini產(chǎn)生幻覺和事實錯誤,,或被用來創(chuàng)造危險的工具和其他不道德的用途,Google方面人士也對記者進行了解答,。
Google基礎(chǔ)設(shè)施與系統(tǒng)副總裁Amin Vahdat(阿明·瓦達特)對記者表示,,Gemini在開發(fā)的各個階段都會考慮潛在的風險,并努力進行測試和降低這些風險,。
他透露,,Gemini的安全評估包括偏見和毒性評估,并應用了 Google Research 的對抗性測試技術(shù),,幫助在部署 Gemini 之前檢測關(guān)鍵的安全問題,。
例如,為了在 Gemini 的訓練階段診斷內(nèi)容安全問題,,并確保其輸出符合政策,,Google團隊使用了一些基準測試,,例如真實毒性提示(Real Toxicity Prompts),,這是一套由 Allen Institute of AI 的專家開發(fā)的基準測試,包含了從網(wǎng)絡(luò)上提取的 10 萬條具有不同程度毒性的提示,。
此外,,為了減少傷害,團隊還構(gòu)建了專門的安全分類器來識別,、標記和篩選涉及暴力或負面刻板印象等方面的內(nèi)容,。“此外,,我們正繼續(xù)解決模型面臨的已知挑戰(zhàn),,例如事實性、基礎(chǔ),、歸因性以及協(xié)作性,。”
Google沒有透露未來是否會專門為Gemini定制應用程序,,但高管對記者表示,,更加希望看到用戶在這種技術(shù)的基礎(chǔ)上創(chuàng)建更多的應用程序。
Google透露,從 12 月 13 日開始,,開發(fā)者和企業(yè)客戶可以通過 Google AI Studio 或Google Cloud Vertex AI中的 Gemini API 獲取 Gemini Pro,。
目前Google正對 Gemini Ultra 完成大規(guī)模的信任和安全檢查,包括由可信賴的外部團隊進行紅隊測試,,并在其被廣泛應用前通過微調(diào)和人類反饋強化學習(RLHF)進一步完善模型,。在這一過程中,Google 將向部分客戶,、開發(fā)者,、合作伙伴以及安全和責任專家提供 Gemini Ultra,以供其進行早期試驗和提供反饋,。
據(jù)記者了解,,Google將在明年初向開發(fā)者和企業(yè)客戶提供該模型。