電腦視覺是什麼?實際上大多數(shù)人每天都會用到這項科技,舉兩個例子:一個是智慧型手機上的臉部辨識。如果手機上有這一功能,平時也會用於解鎖螢幕或是電子支付,那麼你就正在使用電腦視覺。另一個是當平時去超市或者超商付款,收銀員會用掃描你所購買的產(chǎn)品條碼,這類日常生活情境都會用到電腦視覺。本文專訪了意法半導體亞太區(qū)影像事業(yè)部技術(shù)行銷經(jīng)理林國志,與意法半導體亞太區(qū)影像事業(yè)部資深技術(shù)行銷經(jīng)理張程怡,為所有讀者分享意法半導體電腦視覺全域快門影像感測器產(chǎn)品與應(yīng)用趨勢。
我們可以看到電腦視覺的定義,電腦視覺是人工智慧的一個分支,能夠讓電腦和系統(tǒng)從數(shù)位影像、視訊和其它的視覺輸入資料中提取有意義的資訊,并根據(jù)這些資訊采取行動或提出建議。
在臉部辨識中具有意義的資訊就是臉,系統(tǒng)會對臉進行影像采集,然後進行資訊處理,得出的結(jié)果就是驗證使用者身份,接著解鎖手機。通常情況下電腦視覺都會產(chǎn)生資訊輸入和輸出,就拿條碼掃描機來說,掃描條碼即是資訊輸入,鏡頭采集條碼的影像,系統(tǒng)讀取以辨識產(chǎn)品和價格。
接下來說明電腦視覺的應(yīng)用范例,這些應(yīng)用均使用到全域快門感測器的技術(shù)。實際上,電腦視覺的應(yīng)用情境無處不在,可以將其歸為四大類。
第一類叫做深度感測,這項應(yīng)用時間比較久。透過使用兩個全域快門感測器搭建一組立體視覺系統(tǒng),或者是使用一個全域快門感測器搭建結(jié)構(gòu)光鏡頭系統(tǒng)。通常深度感測可以用於臉部辨識和3D掃描這類應(yīng)用情境。
第二類叫做生物辨識,這項應(yīng)用采集人體各個部位的資訊并將其用於身份辨識。人臉資訊可以用於臉部辨識或者2D智慧解鎖,體形資訊可以用於人存在偵測,除此之外還有手勢偵測、掌紋辨識、虹膜辨識等等。這些人體資訊都是獨一無二的,包括人臉、掌紋和虹膜,皆可用於身份辨識。還有駕駛與車艙監(jiān)視,采集司機與乘客的行為資訊,產(chǎn)生的結(jié)果就是系統(tǒng)發(fā)出的各類警示。
第三類就是擴增實境(VR)、虛擬實境(AR)和混合現(xiàn)實(MR),最近這類話題很紅,因為其涉及元宇宙的概念。
當戴上VR頭部顯示裝置之後我們看不見周圍環(huán)境,只能依靠光學感測器讓你知道環(huán)境的變化。通常VR頭戴式顯示裝置在內(nèi)部和外部分別有一個鏡頭,內(nèi)建鏡頭用於眼球追蹤,并透過兩個全域快門感測器進行眼球觀測,因為在實際應(yīng)用情境中需要感知你的眼睛看哪個方向,透過眼球追蹤得到的資訊將提供不同的反??。外置鏡頭用於外部世界追蹤,主要感知外部環(huán)境而非使用者眼球的變化。
這里有兩類重要應(yīng)用情境:一類叫做6DoF,針對的是頭部行為。當使用者戴上VR頭戴式顯示裝置後就會獲得6D感知能力。頭部可以做出左右、上下、前後六個角度的動作,因此被稱為「6DoF」(六個自由度追蹤)。另一類稱為「SLAM」(同步定位與地圖構(gòu)建),例如使用者需要掌握所處房間的狀況,墻壁在哪里、沙發(fā)在哪里、自己所處哪個位置,戴上VR頭戴式顯示裝置走動的時候如何避免撞墻。因此在使用AR/VR5裝置的過程中,手勢偵測、掌紋辨識、臉部與情緒追蹤等功能是非常重要的。
除此之外,使用VR/AR裝置還可以進行生物辨識,例如手勢偵測或者手勢追蹤。通常在這種情境下,裝置可以透過使用者一個手勢辨識出這是哪種行為目的。例如使用者進行一場演講,透過一個手勢就可以自動翻到下一頁簡報檔或者翻回到首頁,又或是透過手勢告知助理按一下或按兩下滑鼠。這些應(yīng)用都是透過手勢偵測實現(xiàn),裝置無需揣測使用者想表達的資訊,只需追蹤手勢即可。
最後一類應(yīng)用是機器人與工業(yè)控制。例如無人機和掃地機器人在使用過程中需要避免相撞,所以要有物體偵測和情境分析能力,而這些都需要使用全域快門感測器。之前提到的條碼辨識也屬於工業(yè)控制中的電腦視覺應(yīng)用。
除了全域快門之外,還有卷簾快門,因為總共分為這兩種鏡頭。卷簾快門的設(shè)計目的是為了捕捉靜態(tài)影像和視訊拍攝,因此需要非常高的解析度和顏色處理能力。我們身邊大多數(shù)鏡頭都屬於卷簾快門,例如智慧型手機的主鏡頭、自拍鏡頭、建筑中的監(jiān)控鏡頭,甚至數(shù)位相機都是采用卷簾快門技術(shù)。因為這些應(yīng)用情境都需要捕捉彩色影像,因此需要相當高的解析度。
唯一的問題在於,采用卷簾快門的電腦視覺技術(shù)都是逐行拍攝影像。照片采用卷簾快門逐行拍攝的話,整個影像只有一幀。如果拍攝物件是車輛這樣的快速移動物體,影像可能會扭曲,無法顯示拍攝物件原本的樣子。如果影像扭曲就無法顯示物體的真實狀態(tài),也就不能用於電腦視覺,無法判斷影像中的是不是另一輛車。
因此卷簾快門沒有被應(yīng)用於電腦視覺技術(shù)中。全域快門的原理完全不同,一次拍攝整幅影像,且拍攝時間非常短。只要拍攝物件不是快速移動的物體,成像效果非常準確,因此完全可以用於電腦視覺。
接著來了解意法半導體的影像感測器產(chǎn)品。ST在影像領(lǐng)域已有超過二十年的發(fā)展歷史。1999年收購VISION,2002年開始為智慧型手機產(chǎn)業(yè)供應(yīng)鏡頭模組,2012年將業(yè)務(wù)從手機通訊拓展至醫(yī)學、航空、個人電腦和其它領(lǐng)域,2014年又推出ST dToF直接感測器感測器,2018年推出ALS感測器,2020年推出最新的全域感測器。
ST影像感測器產(chǎn)品包括三大家族:一是飛行時間感測器,包括dToF直接感測器和iToF間接感測器。二是全域快門影像感測器,包括主動立體視覺或結(jié)構(gòu)光鏡頭。三是環(huán)境光感測器,包括自動調(diào)整平衡技術(shù)。
下面來看ST消費和工業(yè)用全域快門影像感測器。目前ST共有兩類產(chǎn)品:一類是VD55G0, 40萬像素。另一類是VD56G3, 150萬像素。兩種產(chǎn)品采用的都是ST 3D技術(shù),最初的設(shè)計包括兩層陣列,之後ST將其合二為一形成單一陣列。
這些產(chǎn)品擁有三大優(yōu)勢:首先ST的感測器940nm具有最高的量子效率,這會帶來極高的NIR敏感度。電腦視覺主要采用NIR技術(shù),後面我會詳細講解。其次是正方形感測器的解析度與鏡頭最隹配對,之所以采用正方形是因為電腦視覺的采集物件通常是正方形,例如人臉通常就是的正方形。ST感測器拍攝時間很短,能夠在確保準確成像的同時降低系統(tǒng)功耗。
除了以上這些影像輸出功能,我們還可以進行資料輸出,其中之一就是光流輸出,透過運算動作向量獲得資料。圖中顯示人的肢體動作,感測器可以采集資訊、輸出資料,利用光流進行手勢辨識和追蹤。
接著來看用於智慧家庭和智慧大樓的ST全域快門感測器:智慧家庭的應(yīng)用需要考慮周全,使用者不希??家里有個鏡頭全天候監(jiān)視自己,與此同時又想要鏡頭和感測器帶來的益處,因為很多輔助功能可以讓使用者的生活變得更加舒適。全域快門感測器能夠?qū)崿F(xiàn)這一點,圖十中都是采用電腦視覺開發(fā)的功能,透過追蹤技術(shù)實現(xiàn)人機互動。
接下來是用於筆電和個人電腦鏡頭的ST全域快門感測器。我們將所有ST影像產(chǎn)品都應(yīng)用於此,例如之前提到的全域快門產(chǎn)品,ToF、ALS等等,包括各種叁考設(shè)計。筆電和PC應(yīng)用全域快門技術(shù)的意義,可以進行臉部辨識、手勢控制、眼動追蹤、舒適度監(jiān)測和隱私保護。ToF和ALS則可進行存在偵測、電池續(xù)航、螢幕亮度自動調(diào)整和隱私保護。
另外,ST還有一種產(chǎn)品叫做ST AI鏡頭,包括三大類:一是感測,二是運算,三是通訊,電腦視覺技術(shù)基本上需要這三步。首先要有許多感測器進行資訊采集,包括ToF、IMU這些全域快門感測器,然後將資訊傳送至MCU這些AI深度學習演算法以取得產(chǎn)出,最後再將結(jié)果傳送至無線裝置。
接著介紹ST的客戶合作:ST標準感測器開發(fā)評估套件目前已經(jīng)上市,這款產(chǎn)品完全根據(jù)客戶需求而開發(fā)。ST交貨的產(chǎn)品還有裸片,客戶可以選擇協(xié)力廠商所提供的封裝感測器或是鏡頭模組,包括PCB、影像感測器、鏡頭和介面,共同打造整套工業(yè)用鏡頭產(chǎn)品供應(yīng)鏈。
接著要來探討的是汽車領(lǐng)域的應(yīng)用,車內(nèi)感測器主要包括四大類:剛才提到的車內(nèi)鏡頭,ADAS鏡頭、觀測鏡頭和售後鏡頭,主要用於行車記錄器。其中除了車內(nèi)鏡頭屬於新品,其它產(chǎn)品都已經(jīng)相當成熟。
圖中右側(cè)顯示目前的市場趨勢,黃線代表車內(nèi)鏡頭市場趨勢。可以看到2021年底車內(nèi)鏡頭的市場滲透率約為10%,而到2024年就會達到50%。因此這一新興市場發(fā)展是十分迅速的,產(chǎn)業(yè)生態(tài)中的關(guān)系人正紛紛涌入。
車內(nèi)鏡頭并不只一種,Euro NCAP為車輛評估標準體系,曾經(jīng)對車內(nèi)監(jiān)控系統(tǒng)分為兩類:一類叫做駕駛監(jiān)控系統(tǒng)DMS,另一類叫做車內(nèi)乘客監(jiān)控系統(tǒng)CMS或者OMS。駕駛監(jiān)控系統(tǒng)觀測物件就是司機,主要監(jiān)控司機是否注意力集中,是否有分神或是打瞌睡,因為這些現(xiàn)象會嚴重危及行車安全。而車內(nèi)乘客監(jiān)控系統(tǒng)則主要觀測乘客狀況,特別是兒童,因為有些粗心的使用者下車後會將孩子遺留在車內(nèi)。
如圖所示,駕駛監(jiān)控系統(tǒng)DMS鏡頭安裝在駕駛員面前,觀測物件主要是臉,鏡頭必須做得很大,大概50~60度,解析度100~230萬畫素。重點之一在於這里必須采用NIR鏡頭,因為不僅需要白天對駕駛員進行監(jiān)控,晚上也是需要,因為很多人會在夜里開車。在這種漆黑的環(huán)境下,必須要有光源投射在駕駛員臉上,但肯定不能使用可見光,所以需要NIR技術(shù)。圖中就是NIR影像和普通鏡頭模組的比較,除了一個感測器之外還有NIR光源。
車內(nèi)乘客監(jiān)控系統(tǒng)觀測的是車內(nèi)所有乘員,但不同之處在於,因為這里需要物體探測和辨識,所以需要彩色影像,而且觀測范圍比較寬廣,因此鏡頭視角需要更大,解析度需要更高,才能獲取觀測領(lǐng)域內(nèi)所有細部資訊。
車內(nèi)乘客監(jiān)控與駕駛監(jiān)控二合一系統(tǒng),是將CMS、OMS和DMS結(jié)合。剛才提到車內(nèi)乘客監(jiān)控需要RGB彩色影像,駕駛監(jiān)控則需要NIR影像,現(xiàn)在僅需單個鏡頭就可以同時支援RGB和NIR。以上都是車內(nèi)鏡頭的要點,下面來看ST全域快門感測器用於汽車領(lǐng)域的兩代產(chǎn)品。
第一代包括四類產(chǎn)品:VD5661A具有160萬像素解析度,主要用於DMS。VD5761A具有230萬像素解析度,因為屬於Mono(單色)所以也可以用於DMS。ST還有采用彩色RGB的VD6763A和RGB-NIR一體化的VD1762A。可以說ST第一代全域感測器就已經(jīng)能夠覆蓋所有客戶需求,這里需要注意三個要點。
首先是高對比,感測器能夠輸出對比度極高的影像意味著能夠獲取更加準確的資訊,例如取得使用者目視方向必須要有極為準確的虹膜影像。其次是RGB和NIR的資料管理,這些也需要非常靈活。再來是高動態(tài),如果使用者處於非常明亮或者黑暗的環(huán)境中需要HDR感測器采集亮暗環(huán)境的影像,通常車內(nèi)都很暗,而車外非常亮,HDR能夠在這兩種環(huán)境條件下取得清晰的影像。
第二代產(chǎn)品VB56G4A具備150萬像素解析度,主要用於駕駛監(jiān)控,包括三大要點。首先是高靈敏度,NIR的高靈敏度意味著無需強勁的LED光源,因為LED耗能會帶來更高的功耗,高靈敏度則可避免這些問題。其次是感測器面積小,因為整體體積很小,意味著鏡頭模組也可以做得更小,安裝在各種機械裝置內(nèi)更加容易。再來就是內(nèi)建處理,感測器有著智慧自動曝光演算法,所有處理運算過程都是自動的,無需人工作業(yè)。
ST標準感測器評估套件現(xiàn)可依需求提供,我們的協(xié)力廠商供應(yīng)商也可提供成品鏡頭模組。這些已經(jīng)非常接近最終成品,使用者可以將其安裝在車內(nèi),然後進行快速測試或安裝其它軟體,所有產(chǎn)品都是為客戶帶來便利。
總結(jié)來看,ST汽車全域快門感測器總共五類產(chǎn)品,解析度為150萬到230萬畫素,能夠滿足車內(nèi)所有類型的需求。所有感測器具備AEC-Q100二級汽車認證,擁有HDR高動態(tài)范圍技術(shù),支援單色和彩色以及一體化成像。ST感測器擁有彈性的閃光照明控制、高靈敏度近紅外線感測器和出色的近紅外線頻譜內(nèi)MTF性能。
ST為全球排名前列的全域快門感測器供應(yīng)商。關(guān)鍵資訊結(jié)論如下:
●當下新興影像應(yīng)用不斷涌現(xiàn),尤其是人工智慧和元宇宙,需要大量的電腦視覺技術(shù)。剛才已經(jīng)提到AR和VR,再加上當下很紅的元宇宙概念,全域快門技術(shù)在這些領(lǐng)域大有可為。
●全域快門感測器以具有競爭力的成本、精確的測量將成為電腦視覺應(yīng)用的首選成像技術(shù)。
●ST全域快門感測器具有意法半導體專有的像素技術(shù)、更高的方形解析度以及多種嵌入式電腦視覺功能,完全滿足電腦視覺應(yīng)用要求。
●作為全球重量級供應(yīng)商,ST在出貨、品質(zhì)和服務(wù)都在市場名列前茅。
●最後一點,ST不僅能夠提供全域快門技術(shù),同樣也提供飛行時間和環(huán)境光感測器等光學技術(shù),使用者可以根據(jù)自己的需求,將這些不同產(chǎn)品整合在各類情境應(yīng)用中,滿足無限的未來應(yīng)用需求。