谷歌最近發(fā)布了一款為移動(dòng)GPU推理量身定制的輕量級(jí)人臉檢測(cè)器——亞毫秒級(jí)人臉檢測(cè)算法BlazeFace。它可以在旗艦設(shè)備上以200-1000+fps的速度運(yùn)行,可以應(yīng)用于許多需要快速準(zhǔn)確識(shí)別人臉區(qū)域的任務(wù),如2D/3D人臉關(guān)鍵點(diǎn)識(shí)別和幾何評(píng)價(jià)、人臉特征和表情分類(lèi)、人臉區(qū)域分割等。
說(shuō)到“人臉識(shí)別技術(shù)”,我想大家都不會(huì)覺(jué)得奇怪。"人臉識(shí)別技術(shù)自20世紀(jì)60年代末研發(fā)以來(lái),到了90年代才逐漸進(jìn)入市場(chǎng),技術(shù)的準(zhǔn)確率也逐漸達(dá)到99%。一些人臉識(shí)別軟件在國(guó)際標(biāo)準(zhǔn)LFW數(shù)據(jù)庫(kù)中甚至達(dá)到了99.15%的準(zhǔn)確率,已經(jīng)超過(guò)了人眼的識(shí)別能力。正因?yàn)槿绱?,各行各業(yè)都將人臉識(shí)別帶入了未來(lái)的規(guī)劃前景,尤其是AI領(lǐng)域的企業(yè),如迪法恩科技、易圖科技、極地鏈條科技等,都渴望嘗試這一點(diǎn)。
AI,人臉識(shí)別背后的推動(dòng)者?
在人臉識(shí)別技術(shù)發(fā)展之初,一個(gè)典型的基于視頻圖像的人臉識(shí)別系統(tǒng)一般會(huì)自動(dòng)檢測(cè)人臉區(qū)域,從視頻中提取特征,最后識(shí)別出是否存在人臉的身份。在視頻監(jiān)控、信息安全和門(mén)禁應(yīng)用中,基于視頻的人臉識(shí)別是一個(gè)非常重要的問(wèn)題,也是目前人臉識(shí)別的熱點(diǎn)和難點(diǎn)?;谝曨l的優(yōu)于基于靜態(tài)圖像的,因?yàn)椴剪斔购湍翁匾呀?jīng)證明,當(dāng)一張人臉被反轉(zhuǎn)或倒置時(shí),運(yùn)動(dòng)信息有助于人臉識(shí)別。雖然視頻人臉識(shí)別是基于靜態(tài)圖像的人臉識(shí)別的直接擴(kuò)展,但一般認(rèn)為視頻人臉識(shí)別算法需要同時(shí)使用空間和時(shí)間信息,而這類(lèi)方法直到最近幾年才受到重視,需要進(jìn)一步的研究和發(fā)展。
目前,視頻人臉識(shí)別仍然存在許多困難和挑戰(zhàn)。具體來(lái)說(shuō),視頻圖像的質(zhì)量比較差:視頻圖像一般采集在室外(或者室內(nèi),但是采集條件比較差),通常沒(méi)有用戶(hù)的配合,所以視頻人臉圖像往往會(huì)有很大的光照和姿態(tài)變化,也可能會(huì)有遮擋和偽裝。
第二,人臉圖像相對(duì)較小:同樣,由于采集條件較差,視頻人臉圖像一般小于基于靜態(tài)圖像的人臉識(shí)別系統(tǒng)的預(yù)設(shè)尺寸。小尺寸圖像不僅會(huì)影響識(shí)別算法的性能,還會(huì)影響人臉檢測(cè)、分割和關(guān)鍵點(diǎn)定位的準(zhǔn)確性,這必然會(huì)導(dǎo)致整個(gè)人臉識(shí)別系統(tǒng)的性能下降。
在這種情況下,提高系統(tǒng)識(shí)別的精度和準(zhǔn)確度顯然成為人臉識(shí)別領(lǐng)域的一項(xiàng)緊迫任務(wù)。如何利用人工智能有效地促進(jìn)人臉識(shí)別的發(fā)展,已經(jīng)成為人工智能視覺(jué)和圖像領(lǐng)域的一個(gè)關(guān)鍵應(yīng)用。
AI,人臉識(shí)別背后的推動(dòng)者?
比如視頻AI領(lǐng)域的獨(dú)角獸極鏈技術(shù)提出了四個(gè)模塊來(lái)識(shí)別場(chǎng)景中的人臉:
模塊1:視頻結(jié)構(gòu)化,將視頻分成鏡頭。
在這個(gè)過(guò)程中,通常采用全局特征和局部特征相結(jié)合的方法。全局特征檢測(cè)全局顏色分布的突變,然后利用局部特征獲得的人臉識(shí)別跟蹤結(jié)果和跟蹤軌跡的不連續(xù)性來(lái)判斷視頻是否有鏡頭切換。跟蹤判斷鏡頭切換有很大的優(yōu)勢(shì),因?yàn)楹竺娴牟襟E會(huì)采用類(lèi)似的算法,所以這一步需要的算法是可以重用的。
模塊2:人臉軌跡提取。
鏡頭分割完成后,可以在單個(gè)鏡頭中提取人臉軌跡。在軌跡提取算法中,還應(yīng)考慮精度和速度指標(biāo)。要實(shí)現(xiàn)速度和精度的平衡,有兩種方式:間隔采樣或逐幀處理,以及檢測(cè)和跟蹤的配合。
模塊3:人臉識(shí)別。
一旦我們有了人臉軌跡,我們就可以開(kāi)始識(shí)別人臉了。但是,在將人臉數(shù)據(jù)輸入到深層網(wǎng)絡(luò)之前,需要對(duì)其進(jìn)行轉(zhuǎn)換和處理。轉(zhuǎn)型的一部分很重要的是人臉,尤其是消費(fèi)視頻,就是人臉對(duì)齊。人臉對(duì)齊是通過(guò)檢測(cè)和定位人臉的特征點(diǎn),將各種姿態(tài)的人臉圖像恢復(fù)和校正為正面人臉的過(guò)程。在算法框架中,需要加入人臉質(zhì)量評(píng)估算法,過(guò)濾低質(zhì)量的人臉圖像,保證人臉數(shù)據(jù)的準(zhǔn)確性。
在樣本充足的前提下,可以利用訓(xùn)練好的模型從人臉樣本中提取特征。測(cè)試時(shí),將視頻中檢測(cè)到的人臉輸入到生成的特征向量中,并與人臉的交互特征向量進(jìn)行匹配,找到特征空間中最接近的樣本。
模塊4:識(shí)別結(jié)果的融合。
上面說(shuō)的人臉識(shí)別是針對(duì)單幀識(shí)別圖片的,前面說(shuō)的系統(tǒng)識(shí)別結(jié)果是針對(duì)整個(gè)人臉軌跡的。因此,最后需要將人臉識(shí)別的結(jié)果與整個(gè)人臉軌跡融合,得到整個(gè)軌跡的識(shí)別結(jié)果。
識(shí)別結(jié)果的融合策略有很多。簡(jiǎn)單的投票策略,即尾框的識(shí)別結(jié)果為一票,識(shí)別結(jié)果中票數(shù)最高的一票為軌跡的最終識(shí)別結(jié)果。神經(jīng)網(wǎng)絡(luò)也用于實(shí)現(xiàn)這種融合,它可以在時(shí)間維度上訓(xùn)練一個(gè)神經(jīng),將每幀中識(shí)別的特征向量作為網(wǎng)絡(luò)的輸入,通過(guò)時(shí)間維度上的一系列參數(shù)變換得到最終的特征向量。
如果說(shuō)AI是時(shí)代的潮流,那么人臉識(shí)別就是乘風(fēng)破浪的小船。今天,隨著人工智能的發(fā)展,人臉識(shí)別可以有更高的準(zhǔn)確率、更強(qiáng)的識(shí)別能力和更廣闊的前景。
成都融和實(shí)業(yè)排隊(duì)叫號(hào)系統(tǒng)廠家是一家集研發(fā)、生產(chǎn)、營(yíng)銷(xiāo)、服務(wù)于一體的高新技術(shù)企業(yè).主營(yíng)智能排隊(duì)叫號(hào)系統(tǒng)、排隊(duì)機(jī)、叫號(hào)機(jī)、評(píng)價(jià)器、呼叫器、多媒體查詢(xún)及信息發(fā)布配套系統(tǒng)等,公司產(chǎn)品已廣泛應(yīng)用于不動(dòng)產(chǎn)登記、智慧稅務(wù)、智慧政務(wù)、智慧金融、智慧醫(yī)療、智慧通訊、智慧服務(wù)大廳、智慧機(jī)關(guān)單位等服務(wù)窗口行業(yè).咨詢(xún)電話:028-87438905。