時間:2024-04-25 11:55 來源:投資界 閱讀量:17062
蘋果公司突然公布了一則大新聞。
北京時間4月25日凌晨,蘋果在 Hugging Face 平臺上發(fā)布一個“具有開源訓練和推理框架的高效語言模型”,名為 OpenELM。
據了解,OpenELM有四種尺寸:2.7億、4.5億、11億和30億個參數版本,定位于超小規(guī)模模型,而微軟Phi-3模型為38億。這種小模型運行成本更低,可在手機和筆記本電腦等設備上運行。
同時,在WWDC24開發(fā)者大會之前,蘋果徹底開源了OpenELM模型權重和推理代碼,數據集和訓練日志等。而且,蘋果還開源了神經網絡庫CoreNet。
早在今年2月,蘋果公司CEO蒂姆·庫克就表示,蘋果生成式 AI 功能將于“今年晚些時候”推出,有消息稱即將在6月發(fā)布iOS 18可能是蘋果iOS史上“*”的更新,而9月也將推出*AI iPhone設備。
如今,蘋果似乎在新一輪AI浪潮快到尾聲的時刻追趕上了行業(yè)腳步。
1、預訓練tokens數量減一半,11億參數蘋果模型效果卻比競品更精準
隨著ChatGPT風靡全球,近幾個月來,三星、谷歌、小米等手機廠商全面推進大語言模型在手機、平板等端側上的使用,包括照片處理、文字處理增強等,并形成一大賣點。而蘋果很少透露并極少有類似的自帶功能,主要是用第三方工具做到類似效果。
今年2月財報會議上,庫克首次公布生成式 AI 計劃,并將在今年晚些時候將 AI 技術集成到其軟件平臺中。
庫克表示,“我只想說,我認為蘋果在生成式 AI 和 AI 方面存在著巨大的機會,無需透露更多細節(jié),也無需超出自己的預期。展望未來,我們將繼續(xù)投資于這些和其他將塑造未來的技術。其中包括 AI,我們繼續(xù)在 AI 領域花費大量時間和精力,我們很高興能在今年晚些時候分享我們在該領域正在進行的工作的細節(jié)。我們對此非常興奮。”
實際上,自年初至今,蘋果在生成式 AI 領域動作不斷。今年3月,蘋果技術團隊發(fā)表論文《MM1: Methods, Analysis amp; Insights from Multimodal LLM Pre-training》,首次披露蘋果大模型MM1,涵蓋300億參數、支持多模態(tài)、支持MoE架構,超半數作者屬于華人。
如今,針對手機、平板等端側領域,蘋果真正的開源模型終于來了。
據論文顯示,蘋果開源了大語言模型OpenELM,有指令微調和預訓練兩種模型版本,共有2.7億、4.5億、11億和30億4種參數,提供生成文本、代碼、翻譯、總結摘要等功能。
雖然最小的參數只有2.7億,但蘋果使用了包括RefinedWeb、去重的PILE、RedPajama的子集和Dolma v1.6的子集在內的公共數據集,一共約1.8萬億tokens數據進行了預訓練,這也是其能以小參數表現出*性能的主要原因之一。
例如,11億參數的OpenELM,比12億參數的OLMo模型的準確率高出2.36%,而使用的預訓練數據卻只有OLMo的一半。
在訓練流程中,蘋果采用了CoreNet作為訓練框架,并使用了Adam優(yōu)化算法進行了35萬次迭代訓練。而蘋果的MobileOne、CVNets、MobileViT、FastVit等知名研究都是基于CoreNet完成的。
蘋果在論文中還表示,與以往只提供模型權重和推理代碼并在私有數據集上進行預訓練的做法不同,蘋果發(fā)布的版本包含了在公開數據集上訓練和評估語言模型的完整框架,包括訓練日志、多個檢查點和預訓練配置。同時,蘋果還發(fā)布將模型轉換為 MLX 庫的代碼,以便在蘋果設備上進行推理和微調。
“此次全面發(fā)布旨在增強和鞏固開放研究社區(qū),為未來的開放研究工作鋪平道路。”蘋果研究團隊表示。
此外,OpenELM不使用任何全連接層中的可學習偏置參數,采用RMSNorm進行預歸一化,并使用旋轉位置嵌入編碼位置信息。OpenELM還通過分組查詢注意力代替多頭注意力,用SwiGLU FFN替換了傳統(tǒng)的前饋網絡,并使用了Flash注意力來計算縮放點積注意力,能以更少的資源來進行訓練和推理。同,蘋果使用了動態(tài)分詞和數據過濾的方法,實現了實時過濾和分詞,從而簡化了實驗流程并提高了靈活性。還使用了與Meta的Llama相同的分詞器,以確保實驗的一致性。
這次,蘋果很有誠意將代碼開源,一開到底,把所有內容都貢獻出來了。僅1天多的時間,該模型GitHub平臺上就獲得超過1100顆星。
而目前,大模型領域主要分為開源和閉源兩大陣營,國內外知名閉源的代表企業(yè)有OpenAI、Anthropic、谷歌、Midjourney、百度、出門問問等;開源陣營有Meta、微軟、谷歌、商湯、百川智能、零一萬物等。
蘋果作為手機閉源領域的*,此次卻罕見地加入開源大模型陣營。有分析認為,這可能在效仿谷歌的方式先通過開源拉攏用戶,再用閉源產品去實現商業(yè)化營利。
同時,這也表明蘋果進軍 AI 大模型領域的堅定決心。
作為同為端側模型、開源模型企業(yè),商湯科技聯合創(chuàng)始人、首席科學家王曉剛近期對鈦媒體App表示,開源還是對于整個社區(qū)的發(fā)展還是非常重要的,是一個重要驅動力。最終大模型的發(fā)展包括各種應用,還是要整個社區(qū)共同去推動的。對于大模型的應用也分為不同的層次,這么多行業(yè)對應用的需求也是不一樣的,豐富的開源社區(qū)非常重要。
2、AI 技術持續(xù)“狂飆”,OpenAI獲得了全球*塊DGX H200
不止是蘋果,今天凌晨,國內外 AI 技術依然“狂飆”,消息滿天飛。
今晨,OpenAI聯合創(chuàng)始人、COOGreg Brockman發(fā)推文表示,英偉達向該公司移交全球范圍內*塊DGX H200,此舉旨在“推進人工智能、計算技術與人類的發(fā)展”。
同時,他也發(fā)布了一張合影,還包括英偉達CEO黃仁勛、OpenAI CEO奧爾特曼,看起來三人非常開心。
早在2016年,OpenAI剛成立不久,黃仁勛便親自將全球首臺裝備了8塊英偉達P100芯片的超級計算機DGX-1送到了OpenAI的辦公室。
這臺價值逾百萬美元的DGX-1,是黃仁勛帶領英偉達3000名員工,歷時三年精心打造的成果。它極大地提升了OpenAI的計算能力,將原本需要一年的訓練時間縮短至僅一個月。
當時,OpenAI還處于一個初創(chuàng)階段的非營利機構,這臺超級計算機無疑是一份*分量的禮物。馬斯克、Sam Altman以及其他早期員工對此感到無比激動,紛紛在這臺DGX-1上留下了自己的簽名。
2023年11月13日,英偉達發(fā)布了新一代AI GPU——NVIDIA Grace Hopper H200超級芯片,其內存容量和帶寬分別是H100的兩倍和1.4倍,最高支持19.5TB,AI 性能達128 petaFLOPS FP8,預計2024年第二季度開始供貨。
黃仁勛稱,這是擁有萬億規(guī)模的新型 AI 超級計算機,為巨型 AI 模型提供具有線性可擴展性的海量共享內存空間,能夠在生成式 AI 時代發(fā)揮巨大潛力。
如今,黃仁勛親手將全球*塊DGX H200送給了OpenAI。
同時,據CTech報道,英偉達以約7億美元收購了以色列AI基礎設施編排和管理服務Run:ai,據悉,Run:ai成立于2018 年,迄今已籌集1.18億美元,同時英偉達還收購了Deci公司。
另外,今天凌晨,擁有全球* AI 代碼工程師的背后企業(yè)Cognition被曝完成了一輪1.75億美元的融資,由Founders Fund 領投,僅僅一個月內,公司估值從3.5億美元增長到20億美元,引發(fā)關注。
Gartner分析師John-David Lovelock表示,隨著Anthropic、OpenAI 等*梯隊的玩家占據主導地位,AI投資范圍正在“向外延展”。
“數十億美元的投資數量已經放緩,而且?guī)缀跻呀浗Y束;熱錢涌向了新方向——AI 應用。”上述分析師表示,“大模型需要大量投資,但市場現在更多地受到科技公司的影響,這些公司將利用現有的 AI 產品、服務和產品來構建新產品。”
Greylock合伙人Seth Rosenberg認為,人們對于資助AI領域的“大批新玩家”的興趣本來就較很小。在這個周期的早期階段,投資基礎模型資本非常密集,相比之下,AI 應用和智能體所需的資本較低,這可能是*美元融資額下降的原因。
Thomvest Ventures 董事總經理 Umesh Padval 將 AI整體投資的縮減,歸因于增長低于預期。他表示,最初的熱情已經讓位于現實—— AI 面臨一部分技術挑戰(zhàn),一部分上市挑戰(zhàn),可能需要數年時間才能解決并完全克服。
”AI 投資放緩反映出人們認識到,我們仍在探索 AI 技術發(fā)展及其在各行業(yè)應用的早期階段。雖然長期市場潛力仍然巨大,但最初的熱情已被在實際應用中推廣 AI 技術的復雜性和挑戰(zhàn)所削弱……這表明投資環(huán)境更加成熟和敏銳。“Umesh Padval表示。
如今,AI 持續(xù)“狂飆”,但整個市場方向已快速轉變,端側模型、AI 應用、行業(yè)大模型等都將成為今年整個 AI 領域新趨勢。
聲明:免責聲明:此文內容為本網站轉載企業(yè)宣傳資訊,僅代表作者個人觀點,與本網無關。僅供讀者參考,并請自行核實相關內容。