Перейти к основному содержимому

Соревнование на ImageNet

Выборка ImageNet

ImageNet - одна из самых больших размеченных баз данных для классификации и локализации изображений. Она содержит свыше 14 миллионов изображений, для каждого из которых поставлен в соответствие класс изображённого на нём объекта вместе с координатами выделяющего его прямоугольника.

Сами классы разбиты по категориям и подкатегориям аналогично семантической сети WordNet.

С 2010 года ведётся проект ILSVRC (ImageNet Large Scale Visual Recognition Challenge), в котором различные исследовательские команды соревнуются по построению наиболее точных классификаторов изображений, взятых из базы ImageNet. В ILSVRC рассматривается задача классификации на 1000 отобранных классов.

Поскольку классов много, то методы оцениваются по top-5 точности. То есть предсказание считается успешным, если правильный класс встречается среди пяти наиболее вероятных классов по мнению модели.

Top-5 точность для прогнозирующих алгоритмов, которые победили в различные года соревнования ILSVRC, приведена ниже [1]:

Результаты соревнования ILSVRC породили массовый интерес к глубоким нейросетям, которые, начиная с 2012 года стали показывать лучшие результаты по точности, а c 2015 - даже более высокую точность, чем человек, оцениваемую в 5.1% [2]. При этом видно, что число используемых слоёв в сетях-победителях соревнования также росло.

Бурный рост развития глубоких нейросетей был обеспечен в первую очередь появлением мощных вычислителей (видеокарт), на которых эти сети можно было настраивать и применять. Также он был обеспечен появлением многих архитектурных инноваций и инженерных приёмов по регуляризации, позволивших настраивать эти нейросети так, чтобы они не переобучались.

Далее мы изучим архитектуры, показавшие лучшие результаты в соревнованиях: AlexNet и ZFNet, VGG, GoogleNet, ResNet, а также их дальнейшие усовершенствования. Также изучим, какие идеи используются, чтобы как можно точнее классифицировать изображения на простых вычислителях, таких как процессор мобильного телефона.

Литература

  1. Nguyen K. et al. Iris recognition with off-the-shelf CNN features: A deep learning perspective //Ieee Access. – 2017. – Т. 6. – С. 18848-18855.
  2. Russakovsky O. et al. Imagenet large scale visual recognition challenge //International journal of computer vision. – 2015. – Т. 115. – С. 211-252.