(承前文)不同於3D雙目相機感測系統,單視角的深度估測(Monocular Depth Estimation)系統只需輸入由單視角(Single View)拍攝的平面RGB影像,就能估算出圖像(Image)中每個物件的深度資訊。具有多鏡頭(Shots)和多場景(Scenes)的2D視訊影片,也能應用單視角的線索(Cue)和偵測技術,獲得在2D視訊影像內每個物件的深度資訊。
廣域的深度梯度
先辨別圖像的類型,然後才能算出廣域的深度梯度。有三種常見的圖像:風景照、直線透視圖、普通的前景聚焦照片,如圖6所示。就一張風景照而言,上方通常是天空,下方通常是地面或水系。利用HSI色彩空間的特性,可以使用式子(3)來判斷風景照中的像素(x,y)是否是天空、水或地面。其中,H(x,y)、S(x,y)、I(x,y)分別代表像素(x,y)的色調、飽和、亮度。符合((80<I(x,y)<255)&&(100 <H(x,y)<180))條件的像素(x,y)是天空或水。符合((80<S(x,y)<255)&&(20< H(x,y)<100))條件的像素(x,y)是地面。LS(x,y)表示像素(x,y)是屬於風景類的實體元素-天空、水、地面。
於是,圖像內所有屬於風景類的像素之LS(x,y)總和可以使用式子(4)來表示,其中X和Y代表圖像解析度的寬和高。將式子(4)的應用延伸,能產生式子(5)和(6),就可以使用它們來判斷一張圖像是否是風景照。其中,prop是屬於風景類的像素之LS(x,y)總和對圖像解析度的比值,TLS是臨界值。
圖12是判斷圖像類型的流程。直線透視圖中的直線,可以使用霍夫轉換(Hough Transform)偵測出來。若主要的兩直線的交叉點都集中於一點,這交叉點就是消失點(Vanishing Point),那些相交的直線就是消失線(Vanishing Lines),如圖13所示。
如圖6所示,風景照的廣域深度梯度是從上而下,以灰階0至255表示。0是全黑代表天空,距離最遠;255是全白代表地面或水,距離最近。在直線透視圖中,消失點是最遠的地方。消失線將圖像分割成水平的和垂直的深度平面,如圖14所示。其中,圓點是消失點,線條是水平的或垂直的深度平面。在水平的平面上,每行(Row)的深度值是固定的。在垂直的平面上,每列(Column)的深度值是固定的。
在普通的前景聚焦照片中,有許多邊緣,代表豐富的細節。因此,必須將圖像分割成N個區塊Bi(i=1, 2, …, N,通常N=4×4=16),計算每個區塊內的邊緣數量Ei,並從中找出距離觀測者最近的主區塊。假設Eav是所有區塊的邊緣的平均數,邊緣數量大於Eav的區塊被選為主區塊。假設T是主區塊的總數,ETi(i=1,2, …., T)是個別主區塊的邊緣數。這些主區塊的廣域深度梯度GTi(i=1, 2, …, T)和相對應的加權係數WTi相乘的總和,就是普通的前景聚焦照片的廣域深度梯度Dglobal,如式子(7)和(8)所示。因為邊緣數量最多的主區塊是距離最近的,所以可以它為中心,相對地估算出其他區塊的深度。
更精細的深度圖
一旦求出了廣域的深度梯度Dglobal,就可以使用式子(9)加入區域的深度資訊,產生更精細的深度圖。根據溫/冷色彩理論(Warm/Cool Color Theory),溫暖色系會給人近距離的感覺,寒冷色系會給人遠距離的感覺,所以結合區域的色彩資訊後,能使廣域的深度梯度變得更精細。式子(9)中的DY是YCbCr色彩空間內亮度Y的深度資訊,DCr是Cr色彩的深度資訊。Df是結合區域的色彩資訊後的精細深度圖,是以黑白灰階(0至255)來代表距離的遠近,黑色是最遠的,白色是最近的。α和β是經驗係數。
單視角2D影像深度資訊不漏接 平面影像重建3D立體視覺(1)