cv是什么 計算機行業cv是什么


cv是什么 計算機行業cv是什么

文章插圖
以下文章來源于數據實戰派 ,作者Paul Pop
轉自 數據實戰派
作者:Paul Pop(Neurolabs CEO)
譯者:張雨嘉
原文:How our Obsession with Algorithms Broke Computer Vision: And how Synthetic Computer Vision can fix it
深度學習的出現帶動了整個機器學習領域的發展,以數據為中心的發展也一樣 。
本文將論述主流計算機視覺(CV)的缺陷,和未來的發展重點:合成計算機視覺(SCV) 。
計算機視覺的現狀
根據 Crunchbase 統計,過去 8 年里對超過 1800 家計算機視覺創始公司的投資價值超過 150 億美元 。《福布斯》數據也表示,現在有 20 多家 CV 公司的估值超過 10 億美元,并且還在持續增加中 。
為什么這些公司的估值這么高?因為他們教會計算機看待世界的方法,讓以前通過人類視覺才能完成的任務進行自動化 。
這種繁榮景象是在 2012 年計算機視覺領域出現神經網絡技術之后才有的 。神經網絡是模擬人類大腦的一種算法,使用大量的人類打標數據進行訓練 。自 2012 年以來,算法進行多次穩步改進,在某些視覺任務上的性能已經可以與人類相媲美,比如目標計數、唇語識別或癌癥篩查任務等 。
【cv是什么 計算機行業cv是什么】這 10 年里,很多人都對計算機視覺領域的發展有所貢獻:學術界研究更好的、先進的算法;大公司對努力給圖像數據集打標簽的人進行投資支持 。還有一些成果也會為了大家的利益進行開源,比如包含 1400 萬張圖像數據的 ImageNet 數據集 。
但是,當我們將這些系統部署成產品時,就會遇到以下問題:
1.現有標注數據并不可靠 。麻省理工學院一支團隊對機器學習(ML)的數據集進行系統研究時發現,ImageNet 數據集中標記錯誤的錯誤率為 5.93%,其他數據集的平均錯誤率為 3.4% 。
2.很少有人去專門解決數據本身的問題 。學術界大都把智慧集中在算法開發方面,忽略了對良好數據的需求 。吳恩達曾表示,人們 99% 的注意力放在算法上,而數據僅剩 1% 。
3.計算機視覺算法不能很好地從一個領域推廣到另一領域 。用于檢測法國南部車輛的算法,就很難在積雪覆蓋的挪威進行車輛檢測 。同樣,在特定相機上訓練的系統很可能在另一個相機制造商或型號上就會出故障 。
早在 1946 年,Alan Turin 就建議將國際象棋作為計算機能力的評價標準之一 。經過更加深入的研究,這一標準得到了很多媒體的和認可 。
Elo 評分系統是大家普遍接受的衡量國際象棋表現的方法,它可以有效比較大家的棋藝水平 。下圖是世界冠軍和國際象棋游戲引擎的評分 。在過去的50年里,人類的表現一直徘徊在 2800 分,但在 2010 年被計算機超越 。
最近十年,人類一直基于自己可以理解的規則設計國際象棋算法 。但深度學習革命卻可以超越人類的理解范圍,帶來像計算機視覺一樣的飛躍發展 。
圖 | 國際象棋引擎和人類的ELO評分
盡管在深度學習的技術下國際象棋游戲引擎已經取得不錯的發展,但它已經被下一代的國際象棋引擎超過:DeepMind的AlphaZero 。更驚人的是,AlphaZero 沒有使用任何人類提供的數據 。它在沒有任何象棋游戲知識,也沒有任何人類指導最佳走法的情況下構造的 。AlphaZero 既是老師,也是學生——通過與自己的競爭和學習,教會自己如何更好地玩象棋游戲 。
AlphaZero 沒有輸掉一場比賽,就戰勝了當時最好的 Stockfish 8 引擎 。即使少給 AlphaZero 一個數量級的考慮時間,仍能保持這種優勢 。
看到 AlphaZero 的顯著成果,人們不禁要問:我們能否將它在國際象棋領域的成功應用到計算機視覺領域?
以數據為中心的人工智能
以數據為中心的人工智能的目的不是創造更好的算法,而是通過改變數據本身來提高模型性能 。即使我們不考慮獲取和標注圖像數據集的困難,數據的質量問題仍然存在:數據是否覆蓋了所有可能的情況?是否覆蓋邊界情況?
如果我們要構建以數據為中心的計算機視覺,就必須控制數據的來源 。為了讓計算機視覺模型更好地學習和理解參數,就必須保證數據的平衡 。
比如,我們想要控制三個參數:相機的角度、光照和遮擋 。當你收集這樣的真實數據集時,必須努力控制這 3 個參數的值,同時收集 1000 張相關圖像 。但有了這些真實數據,任務還是非常艱巨 。
過去的 5 年中,我們在優化數據收集過程和提高數據標簽質量方面,取得了巨大的進展 。而且還會使用各種數據增強技術,來充分利用數據集信息 。比如將數據集中的圖像應用一些數學函數,以創造更多樣的數據 。
目前,有 400 多家公司的總市值達到 1.3 萬億美元(略高于 Facebook),滿足了如今算法對數據的需求 。
但是,這些方法最終是否會走進死胡同?算法是否已經在人類數據集上達到了極限?就像我們在國際象棋中使用人類數據作為算法輸入一樣,模型會受到數據集設計的限制,而無法超越人類 。
在國際象棋中,如果我們停止構建人類數據,并允許機器構建自己的數據來優化學習過程,后深度學習就能有所突破 。在計算機視覺中,我們也必須允許機器自主生成可以促進它們學習的數據 。
CV未來:合成計算機視覺
通過虛擬現實引擎,可以更好地創建訓練數據 。在準確率方面,模型的輸出已經達到了現實世界的標準 。意味著可以通過模型生成智能化的數據,來指導計算機視覺模型的學習 。這種合成數據可以成為以數據為中心的人工智能框架的基礎 。
因此,我認為,現在需要廣泛使用視覺合成數據 。
  • 虛擬現實引擎有專門的生成合成數據的組件(比如 NVIDIA IsaacSim,Unity Perception),這些合成數據不僅美觀,而且有助于訓練更好的算法 。
  • 3D 功能正迅速成為一種必需品——最新的 iPhone 手機就配備了激光雷達(LiDAR)和用于 3D 掃描的應用程序,來達到更好的性能 。
  • 元宇宙(Metaverse)的時代即將開始 。人們將會漸漸習慣生活在虛擬現實的世界中 。比如未來的寶馬制造廠和谷歌的孿生供應鏈,就會應用到數字孿生技術 。
  • 行業的領頭者已經開始使用虛擬現實技術來改進計算機視覺算法:特斯拉(Tesla)就在利用虛擬現實技術來生成駕駛場景的邊緣情況和更多的新視角 。
如果我們有合適的工具來構建數據集,就可以省去繁瑣的給數據手工打標的過程,更好地對計算機視覺算法進行開發和訓練 。Gartner 認為在未來 3 年中,合成數據將比真實數據更占優勢 。
如果往前再進一步呢?進入一個不需要人類對圖像打標的計算機視覺的世界 。
通過合成計算機視覺,我們可以在虛擬現實中構建模型,并在現實世界中進行部署 。就像國際象棋比賽中,AlphaZero 可以自己學習重要的部分,所以我們用算法來決定模型需要重點學習的內容,以達到最佳的學習效果 。
在合成計算機視覺(SCV)中,我們使用虛擬現實引擎訓練計算機視覺模型,并將訓練好的模型部署到現實世界 。
人眼能看到的東西遠不如現實世界豐富,所以我們構建的算法只能到人類理解和標記出的信息范圍內 。但事實可能并不是那樣,所以我們可以為傳感器構建算法,來測量超越人類感知范圍的東西 。這些算法可以在虛擬現實中通過編程的方式進行有效訓練 。
與其建立更大的模型,使用更多的計算能力來解決問題,我們不如更好地獲取有助于算法學習的數據 。算法的學習不需要同樣類型的數據,而需要各種各樣不同的數據 。
Deep Mind 表明 AlphaZero 只是一個開始,他們已經將同樣的方法應用到圍棋、星際爭霸和蛋白質折疊方面 。我們現在已經擁有為計算機視覺構建類似 AlphaZero 系統的所有必要組件,讓它不受人類設計輸入的限制,可以進行自我學習 。這個系統可以創建和操作虛擬場景,還可以通過自學去解決視覺自動化的任務 。
合成計算機視覺的基礎是合成數據 。大約有 30 家處于早期階段的公司開展了視覺合成數據生成的業務 。有些公司專注于某個垂直領域的特定用例,而大多數公司是在多個垂直領域上同時進行 。
2021 年只是新研究的開始,合成數據僅僅是需要被解決的一小部分問題 。
圖 | 合成數據公司


    以上關于本文的內容,僅作參考!溫馨提示:如遇健康、疾病相關的問題,請您及時就醫或請專業人士給予相關指導!

    「愛刨根生活網」www.malaban59.cn小編還為您精選了以下內容,希望對您有所幫助: