ImageNet

ImageNet

ImageNet項目是一個用於視覺對象識別軟體研究的大型可視化資料庫。超過1400萬的圖像URL被ImageNet手動注釋,以指示圖片中的對象;在至少一百萬個圖像中,還提供了邊界框。ImageNet包含2萬多個類別; [2]一個典型的類別,如“氣球”或“草莓”,包含數百個圖像。第三方圖像URL的注釋資料庫可以直接從ImageNet免費獲得;但是,實際的圖像不屬於ImageNet。自2010年以來,ImageNet項目每年舉辦一次軟體比賽,即ImageNet大規模視覺識別挑戰賽(ILSVRC),軟體程式競相正確分類檢測物體和場景。 ImageNet挑戰使用了一個“修剪”的1000個非重疊類的列表。2012年在解決ImageNet挑戰方面取得了巨大的突破,被廣泛認為是2010年的深度學習革命的開始。

基本介紹

  • 外文名:ImageNet
  • 屬性:計算機視覺系統識別項目名稱
  • 地位:世界上圖像識別最大的資料庫
簡介,數據集,ImageNet挑戰,

簡介

ImageNet就像一個網路一樣,擁有多個Node(節點)。每一個node相當於一個item或者subcategory。據官網訊息,一個node含有至少500個對應物體的可供訓練的圖片/圖像。它實際上就是一個巨大的可供圖像/視覺訓練的圖片庫。
ImageNet的結構基本上是金字塔型:目錄->子目錄->圖片集。
該資料庫首次作為一個海報在普林斯頓大學計算機科學系的研究人員在佛羅里達州舉行的2009年計算機視覺與模式識別(CVPR)會議上發布。

數據集

ImageNet對其注釋過程進行了眾包。 圖像級注釋表示圖像中存在或不存在對象類,例如“此圖像中有老虎”或“此圖像中沒有老虎”。 對象級注釋提供了指定對象(的可見部分)周圍的邊界框。 ImageNet使用廣泛的WordNet架構的變體來對對象進行分類,增加了120種類別的狗品種以展示細粒度的分類。WordNet使用的一個缺點是這些類別可能比ImageNet最適合的“提升”:“大多數人對Lady Gaga或iPod Mini比對這種罕見的雙龍座更感興趣。” 2012年,ImageNet是Mechanical Turk的全球最大學術用戶。 普通工人每分鐘識別50張圖像。

ImageNet挑戰

自2010年以來,每年度ImageNet大規模視覺識別挑戰賽(ILSVRC),研究團隊在給定的數據集上評估其算法,並在幾項視覺識別任務中爭奪更高的準確性。 ILSVRC旨在“追蹤2005年建立的規模較小的PASCAL VOC挑戰”,該挑戰僅包含大約20000個圖像和20個目標類別。 ILSVRC使用僅包含1000個圖像類別或“類別”的“修剪”列表,其中120個品種中有90個由完整的ImageNet架構分類。 2010年在圖像處理方面取得了顯著進展。 2011年左右,ILSVRC分類錯誤率為25%。 2012年,深卷積神經網路達到了16%;在接下來的幾年中,錯誤率下降到幾個百分點。雖然2012年的突破是“前所未有的組合”,但大幅量化的改進標誌著全行業人工智慧繁榮的開始。到2015年,研究人員報告說,軟體在狹窄的ILSVRC任務中超出人類能力。然而,作為挑戰組織者之一的Olga Russakovsky在2015年指出,這些計畫只需將圖像識別為屬於千分之一的圖像;人類可以識別更多的類別,並且(不像程式)可以判斷圖像的上下文。
到2014年,超過50家機構參加了ILSVRC。2015年,百度科學家因使用不同帳戶而被禁止使用一年,大大超過每周兩次提交的指定限制。百度後來表示,它解僱了涉及的團隊領導,並建立了一個科學諮詢小組。
2017年,38個競爭團隊中有29個錯誤率低於5%。 2017年,ImageNet宣布將在2018年推出一項新的,更加困難的挑戰,其中涉及使用自然語言對3D對象進行分類。由於創建3D數據比注釋預先存在的2D圖像更昂貴,數據集預計會更小。這方面的進展套用範圍從機器人導航到增強現實。
2017年11月前後,谷歌的AutoML項目發展出新的神經網路拓撲結構,創建了NASNet,這是一個針對ImageNet和COCO最佳化的系統。 據Google稱,NASNet的性能超過了以前發布的所有ImageNet性能。

相關詞條

熱門詞條

聯絡我們