В последнее десятилетие происходит активное внедрение технологий компьютерного зрения во многие сферы деятельности. Так, в связи с внедрением концепции «Умный город» и увеличением транспортного потока для управления транспортной сетью крупных городов требуются системы автоматического детектирования и контроля трафика на дорогах [1-5]. На данный момент в крупных городах за автомобильными дорогами ведется круглосуточное видеонаблюдение, как с помощью стационарных фото-, видеокамер, так и с помощью фото- и видеокамер, размещаемых на беспилотных летательных аппаратах, и осуществляется автоматическое детектирование и классификация транспортных средств с высокой достоверностью. Но широкое применение данных систем ограничивается высокой стоимостью оборудования и сопутствующей инфраструктуры хранения, передачи, обработки и защиты информации [6-11]. Одним из направлений удешевления процесса внедрения систем автоматического детектирования и контроля транспортных средств на дорогах является реализация в системах фото- и видеонаблюдения методов детектирования и классификации по монохромным изображениям, достоверность результатов которых будет соответствовать достоверности, получаемой при обработке цветных фото- и видеоизображений. Это позволит значительно сократить расходы, как на аппаратуру видеонаблюдения, так и на сопутствующую инфраструктуру, необходимую для обеспечения хранения и обработки и передачи изображений [12-18].
Таким образом, целью настоящей работы является определение архитектуры ИНС и методов её обучения для детектирования и классификации транспортных средств на дорогах по оптическим монохромным снимкам, снятым с БЛА на ближней и средней дистанциях (от 40 до 300 метров) с различных ракурсов с достоверностью распознавания класса, сопоставимой с получаемой при детектировании по цветным снимкам.
В настоящее время активно проводятся исследования в области детектирования и классификации транспортных средств. Например, в работе [19] предлагается система по распознаванию транспортных средств на основе сверточной ИНС R-CNN [20]. В ней в качестве источника данных использованы цветные изображения, снятые с БЛА. В данной работе получены достаточно хорошие результаты при классификации транспортных средств, однако в случае если на изображении не подобран масштаб, т.е. съемка осуществляется с фиксированной высоты, то распознавание осуществляется некорректно и учащаются ложноположительные ошибки, когда вместо транспортных средств распознаются элементы домов. В работе [21] автор сравнивает три способа детектирования целей: с помощью смеси Гауссовых распределений (MOG – Mixture of Gaussian), с помощью сверточной нейронной GoogLeNet и с помощью HOG (histogram of oriented gradients). В данной работе получены высокие значения достоверности распознавания для первых двух используемых методов (96 и 94% соответственно), однако наблюдение за транспортными средствами происходит на цветных изображениях под фиксированным углом, с обзором только на дорогу. В работе [22] авторы исследовали алгоритмы детектирования транспорта на дорогах для дальнейшего распознавания номеров машины с помощью библиотеки алгоритмов обработки изображений – OpenCV. У авторов удалось получить невысокую точность (70%) распознавания, которая связана с тем, что обычные алгоритмы обработки изображений значительно проигрывают ИНС при решении задач классификации. Кроме этого, как и в предыдущей работе, обзор за транспортными средствами проводился на цветных оптических изображениях под фиксированным углом с помощью стационарной камеры.
Анализ работ в области детектирования и классификации транспортных средств на дорогах показал, что, хотя и существует множество решений для детектирования транспортных средств, все они реализованы только для цветных изображений с привязкой к ракурсу и высоте наблюдения за объектами. Кроме этого, проведенный анализ существующих методов распознавания показал, что ИНС со сверточной архитектурой при обработке фото- и видеоматериалов дают достоверность классификации значительно выше, чем обычные алгоритмы обработки изображений. Исходя из вышеизложенного, для решения задачи детектирования и классификации транспортных средств на дорогах по черно-белым снимкам, полученным с БЛА, целесообразно использовать ИНС со сверточной архитектурой.
В качестве методической основы решения задачи детектирования и классификации транспортных средств на дорогах по монохромным снимкам, полученным с БЛА, использованы инструменты программного продукта MATLAB – Image and Video Ground Truth Labeling и готовая архитектура нейронной сети по детектированию объектов на изображениях: ACF-detector, из пакета Deep Learning Toolbox.
Для обучения ИНС детектирования и классификации транспортных средств, на этапе подготовки исходных данных, было получено 245 305 монохромных изображений разрешением 1024х512 пикселей на различных высотах и с различных углов обсервации. Так как интерес представляют только снимки, снятые с БЛА на ближней и средней дистанциях, то из исходных данных были исключены изображения, на которых были сняты транспортные средства, либо слишком близко, либо слишком далеко. В итоге было получено 48 935 изображений.
Далее для решения задачи детектирования объектов была проведена разметка изображений транспортные средства на изображениях. Пример разметки приведен на рис. 1.
|
|
|
Рис. 1. Пример разметки изображения
На данном изображении показана разметка 2-х классов транспортных средств: легкового и грузового автотранспорта. Также произведена семантическая сегментация на дороги и остальную область (леса, поля, дома и т.д.). Данные о разметке записаны в структуре Ground Truth, рамки размеченных объектов представлены в виде целочисленного вектора - [left bottom width height], т.е. координата левой нижней точки рамки и ширина, и высота самой рамки. Таким образом, на данном этапе размечено всего 620 изображений.
На предварительном этапе детектирования был использован детектор ACF Object detector [23], так как он имеет простую архитектуру, вследствие чего имеет низкие требования к вычислительным ресурсам компьютера, что позволило сократить время на проверку гипотез. Структура детектирования для детектора ACF Object detector представлена на рис. 2.
Рис. 2. Структура детектирования для ACF Object detector
Было проведено обучение выбранного детектора. В случае с ACF Object detection, полученная обучающая выборка подавалась на вход функции в форме таблицы, где в первом столбце указывался двумерный массив с координатами рамок объектов, а во втором столбце – путь к исходному изображению. Для учета правильности детектирования и классификации объектов в качестве численной метрики была выбрана метрика Recall:
(1)
где TP – количество истинно-положительных результатов;
FN – количество ложноотрицательных результатов.
Обучение детектора осуществлялось итеративно по стадиям, с различными размерами обучающей выборки: размера 320, 480 и 620 изображений. Наибольшая точность была получена для выборки из 620 изображений на 6 стадиях.
|
|
|
|
|
|
Рис. 3. Полученные результаты детектирования машин на оптических изображениях
В результате при тестировании на изображениях, не вошедших в обучающую выборку, было получено значение метрики Recall равное 0,51. При тестировании было выявлено, что в среднем детектируется половина объектов на изображении, однако классификация происходит с высокой достоверностью – порядка 94%. А относительно невысокий процент правильного детектирования связан с тем, что на данный момент выборка имеет весьма скромный размер, а также из-за того, что съемка происходит с БЛА, и в процессе съемки возникают дополнительные помехи из-за движения объектов наблюдения, такие как размытие изображения при движении. В случаях со съемкой со стационарной камеры такие помехи будут возникать реже.
В дальнейшем, для повышения точности детектирования транспортных средств, планируется увеличить размер обучающей выборки и снизить помехи при съемке объектов в движении с использованием подходов, изложенных в [24-30]. Расширение обучающей выборки предполагается провести путем кадрирования имеющихся изображений до размеров 512х1024 до 256х256. Обрезка изображений позволит значительно увеличить размер обучающей выборки и исключить элементы, не подходящие для детектирования (дома, леса, водоёмы). При этом необходимые признаки окружающей среды будут по-прежнему учитываться (признаки дороги). Кроме этого, уменьшение изображений позволит значительно уменьшить время обучения.
Таким образом, результаты исследования доказали принципиальную возможность обеспечения детектирования и классификации транспортных средств на дорогах по оптическим монохромным снимкам, снятым с БЛА на ближней и средней дистанциях с различных ракурсов с достоверностью распознавания класса, сопоставимой с получаемой при детектировании по цветным снимкам.



