有限語義標註的視頻場景自動理解技術研究

項目摘要

隨著視頻規模的快速增長，視頻場景自動理解在網際網路視頻搜尋與城市視頻監控等視頻大數據套用領域的重要價值日漸凸顯。但是，由於過度依賴視頻語義標註信息，傳統視頻場景理解方法無法有效識別真實套用環境中大量未經標註的視頻語義信息。因此，本項目擬採用深度視覺-語義嵌入與遞歸神經網路結合的方法，探索有限語義標註的視頻場景自動理解問題。首先，針對視頻語義標註數量的限制，研究基於多任務深度並行嵌入神經網路的視頻語義識別技術，突破傳統方法對可識別語義類別的限制；其次，通過研究遞歸神經網路對視頻時間序列建模的能力，設計一種視頻場景中多個孤立語義間的時空關聯挖掘算法，獲取語義之間的邏輯關係；進一步針對視頻場景中視覺內容的準確自然語言表述的問題，提出一種基於多路解析結果融合的語句級別自然語言表述生成方法。最後，開發一套視頻場景自動識別原型系統，在網際網路視頻搜尋和城市視頻監控等真實套用中對本項目研究成果進行充分驗證。

結題摘要

本項目面向大數據環境下視頻複雜場景的自動分析與理解需求，針對有限語義標註的特定限制，對視頻目標間的時空關聯挖掘、有限語義標註下的視頻語義識別、視頻內容的自然語言表述三個關鍵科學問題進行了深入研究，項目取得了多項創新成果，包括：基於時序編碼三維卷積神經網路的視頻語義實時識別算法；基於多尺度時空推理的視頻中人物關係識別方法；視頻中的漸進式搜尋方法；面向廣義零樣本條件下的視頻動作識別方法；基於混合池化的視頻場景自動理解方法；基於能量圖深度學習的體育視頻自動理解方法；基於時序注意力編碼分層遞歸神經網路的視頻自然語言描述生成方法；以及一種面向視頻問答的多樣性學習聚合網路。最後，開發了基於結構化雙流注意力機制的視頻語義問答系統和基於時空漸進式搜尋的監控視頻中的關鍵目標搜尋系統。成果可以有效突破數據瓶頸的限制，提高了視頻複雜語義識別的廣度和準確度，最終為網際網路視頻搜尋與城市視頻監控等視頻大數據套用提供理論支持和技術支撐。項目已在相關領域期刊和會議上發表和錄用學術論文總計29篇，其中SCI檢索論文8篇，包括IEEE Trans. on Multimedia (SCI 1區) 論文2篇，ACM MM, IJCAI, AAAI, ICCV等CCF A 類論文9篇，EI檢索論文21篇。申請專利9項，授權國際專利2項，國內專利1項。研發的監控視頻中的漸進式搜尋技術獲得了多媒體領域旗艦雜誌IEEE Multimedia Magazine 2018最佳論文獎，所研發的城市視頻監控網路中的車輛搜尋系統，獲得了多媒體頂級期刊IEEE Trans. on Multimedia 2019最佳論文獎, 並為城市視頻監控等視頻大數據套用提供關鍵技術支持。培養碩士畢業生3人，博士畢業生2人，其中1人獲得中國圖形圖像學會優秀博士學位論文獎。

有限語義標註的視頻場景自動理解技術研究

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條