Блог → Технологии, определяющие наше завтра. Обзор конференции Computer Vision & Machine Learning [2018, Одесса]

7-го июля в Одессе прошла третья ежегодная конференция EECVC (Eastern European Computer Vision Conference), которую посетили и наши сотрудники.

В прошлом году мы одни из первых на территории СНГ запустили функцию анализа визуального контента и для дальнейшего усовершенствования наших инструментов внимательно следим за новинками в этой сфере.

Главный организатор конференции Виталий Гончарук собрал максимально профессиональных спикеров и слушателей, более 250 CV/ML специалистов из десяти разных стран.

Цель конференции не столько в приобретении глубоких знаний в Computer Vision, сколько в возможности «сверить часы» и не упустить новшества. Ведь в этой сфере каждая новая идея уже через год-два может стать state-of-the-art technology (самой современной общепринятой технологией), а в выигрыше окажутся те, кто раньше других сумел ее применить.

В первую очередь нас интересовали доклады, близкие к тематике распознавания объектов на изображениях. Обзор архитектуры быстрых и эффективных нейронных сетей для классификации и сегментации изображений от Павла Акапяна как раз открывал список тем конференции.

В докладе было представлено несколько новых моделей, разработанных для запуска на мобильных устройствах (ShuffleNet, ENet, Sub-Pixel CNN и др.), которые работают в режиме realtime. Также их вполне возможно использовать и на серверах с GPU.  Главное, что за счет легкой оптимизированной архитектуры они дают высокую точность при очень хорошей производительности, превосходя в этом предыдущие «мобильные» аналоги.

Еще один многообещающий доклад, касающийся анализа объектов окружающей среды для самоуправляющихся автомобилей, к сожалению, был отменен из-за того, что автор не смог прибыть на конференцию.

Зато приятно порадовали некоторые другие выступления, которые напрямую не относились к задаче object detection. Например, доклад о применении условной генеративно-состязательной сети (Generative Adversarial Network, GAN) для восстановления четкости изображения (image deblurring).

Алгоритм DeblurGAN отличается от других подходов тем, что не требует дополнительной входной информации об источнике размытия, а также работает в 5 раз быстрее! Авторы предложили простой метод анализа эффективности деблуринга — оценить точность детектирования объектов на восстановленном изображении. И по этому критерию алгоритм тоже превосходит конкурентов.


Докладчик Орест Купин представлял совместное исследование Украинского Католического Университета (г. Львов) и специалистов из Праги. Исследование доступно по ссылке.
 


Закономерный вопрос — что же это за чудо-алгоритм, который так «лихо» по всем параметрам побеждает своих «старших собратьев»?

Впервые GAN была представлена разработчиком из Google в 2014 году. Это отличный пример технологии, которая за три года стала общепринятой (state-of-the-art) для решения таких сложных задач, как создание фотореалистичных изображений лиц несуществующих людей или интерьеров помещений, подготовка кадров для фильмов, улучшение изображений с результатами астрономических наблюдений и др.

Чего стоит только нашумевшая история с созданием в 2017 году компанией DeepMind программы для игры в Го на базе особого вида GAN. AlphaGo Zero победила свою предшественницу AlphaGo с разгромным счетом 100:0. Отметим, что ранее алгоритм AlphaGo уже обыграл действующего чемпиона мира по этой игре.

Более того, если AlphaGo требовались для обучения гигабайты данных с результатами игр гроссмейстеров и месяцы обучения с ручной установкой ориентиров, то AlphaGo Zero обучилась с нуля всего за 3 дня, играя только сама с собой! Естественно, это не могло не породить очередной всплеск споров и опасений по поводу того, что скоро компьютеры захватят мир!

Возвращаясь к тематике EECVC-конференции, хотелось бы также отметить доклады профессора из Польши Богдана Кволека о классификации раковых заболеваний по высокодетальным изображениям и исследователя из Франции Mazen Hittawe о детектировании «аномалий» на видео (падение человека, массовое бегство людей, внезапное появление лодки на причале и т. п.), при котором сводится воедино информация из разных датчиков и камер видеонаблюдения. Оба доклада опирались на модификации свёрточных нейронных сетей и были особенно интересны практическими результатами.

Но Mazen, работающий сейчас в Саудовской Аравии, пожалуй, многим даже больше запомнится размером своей зарплаты — 2 000 000$. Правда, публика несколько вздохнула с облегчением, когда выяснилось, что это сумма дохода за год, а не за месяц. Тем не менее, данный факт для многих может послужить хорошим стимулом к еще более активному изучению Computer Vision. Ведь немалая часть участников конференции — это молодые перспективные специалисты.


Видеозаписи всех докладов доступны по ссылке.

PS: В 2019 году конференция пройдет уже в течении двух дней: больше спикеров, докладов и, главное, времени на неформальное общение. До встречи в следующем году!

Автор:
R&D specialist

Читайте также:

Добавить комментарий:

Blog comments powered by Disqus