雷鋒網(wǎng) AI 科技評(píng)論曾專門整理并介紹了多篇將BERT應(yīng)用到視覺(jué)/視頻領(lǐng)域的重要論文,其中包括最早的VideoBERT以及隨后的ViLBERT、VisualBERT、B2T2、Unicoder-VL、LXMERT、VL-BERT等。其中VL-BERT是由來(lái)自中科大、微軟亞研院的研究者共同提出的一種新型通用視覺(jué)-語(yǔ)言預(yù)訓(xùn)練模型。繼語(yǔ)言BERT之后,視覺(jué)BERT隱隱成為一種新的研究趨勢(shì)。
近期,來(lái)自微軟的Bing 多媒體團(tuán)隊(duì)在arXiv上也同樣發(fā)表了一篇將BERT應(yīng)用到視覺(jué)中的論文《ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Data》
與語(yǔ)言嵌入類似,圖像嵌入也是通過(guò)類似的過(guò)程從視覺(jué)輸入中產(chǎn)生的。用Faster-RCNN從 o RoIs中提取特征(記為{r0,...ro-1}),從圖像中提取特征,從而讓這兩個(gè)特征代表視覺(jué)內(nèi)容。檢測(cè)到的物體對(duì)象不僅可以為語(yǔ)言部分提供整個(gè)圖像的視覺(jué)上下文(visual contexts),還可以通過(guò)詳細(xì)的區(qū)域信息與特定的術(shù)語(yǔ)相關(guān)聯(lián)。另外,還通過(guò)將對(duì)象相對(duì)于全局圖像的位置編碼成5維向量來(lái)向圖像嵌入添加位置嵌入。5維向量表示如下:
3)預(yù)訓(xùn)練任務(wù)
在模型預(yù)訓(xùn)練過(guò)程中,設(shè)計(jì)了四個(gè)任務(wù)來(lái)對(duì)語(yǔ)言信息和視覺(jué)內(nèi)容以及它們之間的交互進(jìn)行建模。四個(gè)任務(wù)分別為:掩碼語(yǔ)言建模(Masked Language Modeling)、掩碼對(duì)象分類(Masked Object Classification)、掩碼區(qū)域特征回歸(Masked Region Feature Regression)、圖文匹配(Image-Text Matching)。