您的位置：首頁 > 產經 >

AI一周見聞：谷歌從模型到應用全面沖刺，OpenAI3D建模只需100秒，Meta開源新模型，AI學會人類感知 | 見智研究|天天視訊

來源：華爾街見聞 ? 2023-05-14 09:14:04

每周日AI一周見聞與您相約。AI一周見聞涵蓋四大部分：每周見聞、企業新品發布、AI黑科技、下周看點。

每周見聞

本周要點匯總：

1、谷歌從模型到應用全面進擊AI，PaLM2讓Bard更強大，辦公套裝Workspace叫板Office。

2、3D建模大突破，OpenAI推出文本生成3D模型—Shap-E，生成3D模型從2分鐘優化到100秒。

(資料圖)

3、Meta開源 ImageBind 新模型，AI學會人類感知，圖片是嫁接橋梁。

4、GPT4最強對手Claude史詩升級，解讀百頁資料僅需一分鐘。

5、還有三種黑科技，AI超寫實數字人為何凸顯商業價值、AI更懂視頻等內容。

企業新品發布

1、谷歌從模型到應用全面進擊AI

本周谷歌的I/O發布會備受矚目，新品發布效果超出市場的預期。谷歌不僅僅發布了新模型PaLM2，還將AI全面接入辦公套裝Workspace，直接叫板Office。

值得關注的是，新推出PalM2模型有四種大小，包括Gecko、Otter、Bison和Unicorn。Gecko作為最輕量的版本，可以部署到移動端，易于微調各類細分模型，提供每秒處理20個token的能力。

此前大模型在邊緣側終端的應用主要是依靠API接口調用的方式，大模型的訓練和推理仍在云端進行，對邊緣側終端及芯片形態更新沒有太大需求。

輕量化Gecko版本，能夠提供AIGC更為定制化、時延更低，安全性、隱私性更好的應用，開拓AI模型在終端芯片推理的場景，邊緣側智能終端以及SoC有望全面升級，進入新的更新換代周期。

見智研究認為：谷歌的PalM2模型推出，能夠更好的驅動機器人Bard升級，不僅能夠使用100中語言回復用戶，多模態版本的Bard還更新了圖像、編程、應用集成等功能；而且還在醫學上被認達到臨床專家水平。

此外，PalM2大模型的又一亮點就是全球首個支持移動端部署的大模型AI，被看做是點燃移動邊緣端的Ai大模型競賽。意味著大模型競賽的路線現在已經從PC端拓展到手機和IOT領域。

從谷歌的研發力和生態的角度來看：

在AI基礎設施上：A3虛擬機訓練速度目前比其他設施快80%，成本低50%；Vertex AI平臺能夠給開發者提供多種基礎模型，用于微調從而盡快得到專屬模型。

在應用生態上：谷歌搜索推出Converse的生成式AI功能，不僅能夠寫郵件、寫文案、做表格、PPT能力直接對標Office，而且在決定購買性價比更好的產品時候特別有用。

之后最值得關注的是谷歌將推出基于Bard的拓展插件，擴大機器人的應用場景，比如讓Adobe 生成全新的圖像，用REDFIN進行一個地區的所有房地產市場研究，購物、訂酒店、找工作都不在話下。

2、3D建模重大突破，OpenAI推出文本生成3D模型—Shap-E

傳統3D模型需要開發者進行手動建模，而Shap-E模型可以只用過自然語言的描述創建3D模型，極大的提高了創作的效率和質量。Shap-E模型可在GitHub上免費獲得，并支持在PC上本地運行。下載完所有文件和模型后，不需要聯網。最重要的是，它不需要OpenAI API密鑰，完全免費。

見智研究認為：Shap-E應用于更常見的擴散模型，與此前發布的Point-E模型區別在于：Shap-E直接創建物體的形狀和紋理，并采用稱為神經輻射場(NeRF)的特征來克服早期模型的模糊性，使三維場景看起來像逼真的環境。Point-E是根據文本提示生成3D點云。

此外，每個Shap-E樣本在單個NVIDIA V13 GPU上生成大約需要100秒，Point-E將花費多達兩分鐘的時間在同一硬件上渲染。因此Shap-E比Point-E運行效率更快。

但該模型也仍有一定的缺陷，比如它在組合概念方面的能力有限，未來通過收集或生成更大的帶注釋的3D數據集可能有助于解決這些問題。生成的樣本通常看起來粗糙或缺乏細節，編碼器有時會丟失詳細的紋理。

雖然文字生成3D模型暫且比不上圖片的呈現效果，但仍舊是未來一個重要的方向。

3、Meta開源ImageBind 新模型，AI學會人類感知

Meta在開源大模型的路上一騎絕塵，繼兩個月前開源LLaMA大模型之后，再次于5月9日開源了一個新的AI模型—— ImageBind。這個模型與眾不同之處便是可以將多個數據流連接在一起，包括文本、圖像/視頻和音頻、視覺、IMU、熱數據和深度（Depth）數據。這也是業界第一個能夠整合六種類型數據的模型。

見智研究認為：ImageBind無需針對每一種可能性進行訓練，而是直接預測數據之間的聯系的方式類似于人類感知。

ImageBind 通過圖像的綁定屬性，將每個模態的嵌入與圖像嵌入對齊，即圖像與各種模式共存，可以作為連接這些模式的橋梁，例如利用網絡數據將文本與圖像連接起來，或者利用從帶有 IMU 傳感器的可穿戴相機中捕獲的視頻數據將運動與視頻連接起來。這對于多模態發展來說具有重大意義。

4、GPT4最強對手Claude史詩升級，解讀百頁資料僅需一分鐘

據Anthropic官方介紹，升級后的Claude-100k版本，對話和任務處理能力雙雙得到極大提升。一方面，是“一次性可處理文本量”的增加，另一方面則是“記憶力”的增加。

見智研究認為：此前大模型都存在對讀取超長文本的困難，而Claude-100k打開此該領域的天花板，GPT-4也不過才做到3.2萬token，而Claude-100k能做到一次記憶10萬token；能學習論文、幾小時的博客、財報等等都不在話下，更重要的是它不僅能通讀全文總結其中的要點，還能進一步完成具體任務，如寫代碼、整理表格等。本次更新對于機器文本學習來說是重大躍遷。