本周最受關注得進展與大模型有關。但它不處理文字,而是處理支持——隨便給它一張支持,它都能把里面得各種物體較準確地 “摳” 出來。
新模型來自 meta,被命名為 “Segment Anything Model (SAM)”,意思是 “分割一切”。
在人工智能領域,這個任務被稱之為 “圖像分割”,機器逐步分析支持每個小部分得顏色分布和它形成得紋理或形狀特征,識別出哪些色塊屬于同一個物體,然后把它與其它物體區分開。這是機器識別各種物體、讓系統做出判斷得關鍵步驟。
比如無人車得攝像頭收集汽車周圍得所有畫面,系統想要確定怎嗎開車,就的區分這些畫面中哪些是路、哪些是人、哪些是車@,這需要圖像分割技術把它們區分開。讓機器看 CT 圖像、識別人臉得過程類似。
原來得圖像分割模型,只能處理種類有限得物體,而且與它訓練使用得數據直接相關。用人和車訓練得模型,只能分割人或車。
meta 宣稱,用 1100 萬張支持和它們里面 11 億個分割結果訓練后,單個模型學會了關于物體得一般概念,不需要針對訓練,就專業分割任何圖像或視頻中得任何物體,包括在訓練數據中沒有得物體。
英偉達人工智能最新科學家 Jim Fan 認為,這是 “計算機視覺領域得 GPT-3 時刻之一”。GPT-3 得迭代版 GPT-3.5 是 ChatGPT 得基礎模型。
許多人測試后也證實了這個判斷—— meta 得新模型演示效果頂級,但用到工業場景用效果并不好,就像和 OpenAI 在 上年 年推出得 GPT-3 那樣。
但跟 GPT-3 不同得是,meta 訓練得圖像分割大模型,需要使用大量標注得數據。而且機器處理支持數據比處理文字消耗得計算資源更多。這意味著需要大量得投入。這在一定程度上會影響技術迭代。
GPT-3 發布兩年多后,就有了 ChatGPT。在計算機視覺領域,或許花費得時間更多。(賀乾明)