Соревнование на ImageNet
Выборка ImageNet
ImageNet - одна из самых больших размеченных баз данных для классификации и локализации изображений. Она содержит свыше 14 миллионов изображений, дл я каждого из которых поставлен в соответствие класс изображённого на нём объекта вместе с координатами выделяющего его прямоугольника.
Сами классы разбиты по категориям и подкатегориям аналогично семантической сети WordNet.
С 2010 года ведётся проект ILSVRC (ImageNet Large Scale Visual Recognition Challenge), в котором различные исследовательские команды соревнуются по построению наиболее точных классификаторов изображений, взятых из базы ImageNet. В ILSVRC рассматривается задача классификации на 1000 отобранных классов.
Поскольку классов много, то методы оцениваются по top-5 точности. То есть предсказание считается успешным, если правильный класс встречается среди пяти наиболее вероятных классов по мнению модели.
Top-5 точность для прогнозирующих алгоритмов, которые победили в различные года соревнования ILSVRC, приведена ниже [1]:
Результаты соревнования ILSVRC породили массовый интерес к глубоким нейросетям, которые, начиная с 2012 года стали показывать лучшие результаты по точности, а c 2015 - даже более высокую точность, чем человек, оцениваемую в 5.1% [2]. При этом видно, что число используемых слоёв в сетях-победителях соревнования также росло.
Бурный рост развития глубоких нейросетей был обеспечен в первую очередь появлением мощных вычислителей (видеокарт), на которых эти сети можно было настраивать и применять. Также он был обеспечен появлением многих архитектурных инноваций и инженерных приёмов по регуляризации, позволивших настраивать эти нейросети так, чтобы они не переобучались.
Далее мы изучим архитектуры, показавшие лучшие результаты в соревнованиях: AlexNet и ZFNet, VGG, GoogleNet, ResNet, а также их дальнейшие усовершенствования. Также изучим, какие идеи используются, чтобы как можно точнее классифициро вать изображения на простых вычислителях, таких как процессор мобильного телефона.