ImageNet

簡介

ImageNet就像一個網路一樣，擁有多個Node（節點）。每一個node相當於一個item或者subcategory。據官網訊息，一個node含有至少500個對應物體的可供訓練的圖片/圖像。它實際上就是一個巨大的可供圖像/視覺訓練的圖片庫。

ImageNet的結構基本上是金字塔型：目錄->子目錄->圖片集。

該資料庫首次作為一個海報在普林斯頓大學計算機科學系的研究人員在佛羅里達州舉行的2009年計算機視覺與模式識別（CVPR）會議上發布。

數據集

ImageNet對其注釋過程進行了眾包。圖像級注釋表示圖像中存在或不存在對象類，例如“此圖像中有老虎”或“此圖像中沒有老虎”。對象級注釋提供了指定對象（的可見部分）周圍的邊界框。 ImageNet使用廣泛的WordNet架構的變體來對對象進行分類，增加了120種類別的狗品種以展示細粒度的分類。WordNet使用的一個缺點是這些類別可能比ImageNet最適合的“提升”：“大多數人對Lady Gaga或iPod Mini比對這種罕見的雙龍座更感興趣。” 2012年，ImageNet是Mechanical Turk的全球最大學術用戶。普通工人每分鐘識別50張圖像。

ImageNet挑戰

自2010年以來，每年度ImageNet大規模視覺識別挑戰賽（ILSVRC），研究團隊在給定的數據集上評估其算法，並在幾項視覺識別任務中爭奪更高的準確性。 ILSVRC旨在“追蹤2005年建立的規模較小的PASCAL VOC挑戰”，該挑戰僅包含大約20000個圖像和20個目標類別。 ILSVRC使用僅包含1000個圖像類別或“類別”的“修剪”列表，其中120個品種中有90個由完整的ImageNet架構分類。 2010年在圖像處理方面取得了顯著進展。 2011年左右，ILSVRC分類錯誤率為25%。 2012年，深卷積神經網路達到了16%;在接下來的幾年中，錯誤率下降到幾個百分點。雖然2012年的突破是“前所未有的組合”，但大幅量化的改進標誌著全行業人工智慧繁榮的開始。到2015年，研究人員報告說，軟體在狹窄的ILSVRC任務中超出人類能力。然而，作為挑戰組織者之一的Olga Russakovsky在2015年指出，這些計畫只需將圖像識別為屬於千分之一的圖像;人類可以識別更多的類別，並且（不像程式）可以判斷圖像的上下文。

到2014年，超過50家機構參加了ILSVRC。2015年，百度科學家因使用不同帳戶而被禁止使用一年，大大超過每周兩次提交的指定限制。百度後來表示，它解僱了涉及的團隊領導，並建立了一個科學諮詢小組。

ImageNet

基本介紹

簡介

數據集

ImageNet挑戰

相關詞條

熱門詞條