Джозеф Редмон
2,533,287 views • 7:37

Десять лет назад исследователи компьютерного зрения думали, что научить компьютер различать изображения кошки и собаки будет практически невозможно, даже несмотря на значительный прогресс в развитии искусственного интеллекта. Сегодня мы можем это делать с точностью до 99 процентов. Это называется классификацией изображений, дайте компьютеру картинку, присвойте этой картинке категорию, и он выдаст вам тысячи похожих.

Я аспирант в Вашингтонском университете, работаю над проектом Darknet, который представляет собой нейронную сеть для обучения и тестирования модели компьютерного зрения. Давайте посмотрим, что думает Darknet о данном изображении. Когда мы запускаем наш классификатор для этого изображения, мы видим, что мы не просто получаем предположение, собака здесь изображена или кошка, мы фактически получаем варианты конкретных пород. Вот современный уровень детализации. И он не ошибся. Порода моей собаки действительно маламут.

Поэтому мы сделали удивительные успехи в классификации изображений, но что происходит, когда мы запускаем наш классификатор применительно к картинке, которая выглядит вот так? Ну... Мы видим, что классификатор выдаёт довольно похожие варианты. Всё правильно: на фото — маламут, но по одной такой метке мы на самом деле не знаем, что происходит на снимке. Нам нужно нечто более мощное. Я работаю над вопросом, касающимся обнаружения объекта, то есть, когда мы смотрим на фото и пытаемся найти все объекты, ставим ограничивающие прямоугольники вокруг них и определяем эти объекты.

Вот что происходит, когда мы запускаем детектор на этом изображении.

И теперь, имея такой результат, мы можем сделать гораздо больше с нашими алгоритмами компьютерного зрения. Мы видим, что компьютер знает, где кошка, а где собака. Он знает их расположение относительно друг друга, их размер. Он даже может знать какую-то дополнительную информацию. На заднем плане находится книга. И если вы хотите построить сверхсистему компьютерного зрения, например, самоуправляемое транспортное средство или робототехническую систему, это именно та информация, которая вам пригодится. Вам нужно что-то, что поможет вам взаимодействовать с материальным миром. Сейчас, работая над проблемой обнаружения объекта, я добился того, что для обработки одного изображения требуется 20 секунд. И чтобы понять, почему скорость так важна в этой области, вот пример детектора объекта, которому требуется две секунды на обработку изображения. Он в 10 раз быстрее 20-секундного детектора, понятно, что к моменту, когда он выдаёт варианты, в мире происходит много изменений, и это делает приложение бесполезным.

Если увеличить скорость операций в 10 раз, получим детектор, обрабатывающий пять кадров в секунду. Это значительно лучше, но в случае, если произойдёт значительное движение, я бы не хотел, чтобы подобная система управляла моим автомобилем.

На ноутбуке видно, как наша система обнаружения работает в реальном времени. Она плавно отслеживает, как я передвигаюсь по помещению, и она точно определяет широкий спектр изменений в размере, позе, движений вперёд и назад. Великолепно. Это как раз то, что нам нужно, если мы хотим создать систему самого лучшего компьютерного зрения.

(Аплодисменты)

Всего лишь за несколько лет мы продвинулись от 20 секунд на одно изображение до 20 миллисекунд, что в тысячу раз быстрее. Как нам это удалось? В прошлом система опознавания объектов брала такое вот изображение и разделяла его на множество секций, а затем запускала классификатор по каждой из этих секций, и высокий рейтинг классификатора считался определением изображения. Подразумевается, что классификатор должен перебрать тысячи вариантов изображения, тысячи оценок нейронной сети, чтобы выдать конечный результат. Вместо этого мы использовали единственную сеть, которая выполнила всю работу за нас. Она производит все ограничения и варианты видов одновременно. Благодаря нашей системе, вместо того, чтобы смотреть на изображение тысячи раз для его опознавания, достаточно взглянуть раз, вот почему мы назвали её метод опознавания YOLO. С такой скоростью мы не ограничены разнообразием объектов, мы можем воспроизвести видео в режиме реального времени. Сейчас вместо того, чтобы просто смотреть на эту кошку и собаку, мы видим, как они двигаются и общаются друг с другом.

Мы обучили этот детектор на 80 разных видах в наборе данных COCO от Майкрософт. Он учитывает все виды вещей, такие как как ложка, вилка, миска и другие обычные предметы. Есть и более специфичные объекты: животные, автомобили, зебры, жирафы. А сейчас сделаем кое-что прикольное. Я подойду к кому-нибудь из аудитории, и мы посмотрим, какие объекты мы сможем определить. Кто-нибудь хочет чучело? Мы подготовили несколько плюшевых медведей. Можно немного снизить порог опознавания, так что мы сможем кое-что о вас узнать, друзья. Посмотрим, сможем ли получить эти знаки остановки. Обнаружили несколько рюкзаков. Давайте немного увеличим масштаб. Класс! Весь процесс происходит в режиме реального времени на ноутбуке.

Важно помнить, что это главная цель системы обнаружения, поэтому мы можем экспериментировать с изображениями из разных областей. Тот же самый код, который мы используем для обнаружения знаков «Стоп» или пешеходов, велосипедов в самоуправляемых автомобилях, может быть использован для поиска раковых клеток в биопсии ткани. Исследователи по всему миру уже используют эту технологию для внедрения инноваций в медицине, робототехнике. Сегодня утром я прочёл статью о том, что в национальном парке Найроби при составлении переписи животных используют YOLO как часть этой системы обнаружения. Причина этого о в том, что Darknet является общедоступным ресурсом и любой пользователь может пользоваться им бесплатно.

(Аплодисменты)

Но мы хотели сделать опознавание ещё более доступным и удобным, и благодаря комбинации модели оптимизации, сети бинаризации и приближения, в итоге мы смогли добиться опознавания объекта с помощью телефона.

(Аплодисменты)

И я очень рад, потому что теперь у нас есть очень мощное решение проблемы низкого уровня компьютерного зрения, и любой может взять его и что-нибудь создать с его помощью. Так что остальное теперь зависит от всех вас и людей по всему миру, имеющих доступ к данному программному обеспечению, и я не могу дождаться, чтобы увидеть, что люди создадут с помощью этой технологии.

Спасибо.

(Аплодисменты)