STATISTICAL SIGNIFICANCE OF PREDICTING THE PRODUCTION PROCESS RESULTS BY MEANS OF AN ARTIFICIAL NEURAL NETWORK
Abstract and keywords
Abstract (English):
As a result of the research of production process organization for the roof construction of residential multi-storey buildings, an artificial neural network (ANN) was designed, the purpose of which is to predict the labor productivity based on organizational factors. One of the main tasks on the way to this purpose is the training of ANN on precedents of the sample extracted from the research object. In view of the deficiency of training data, the main problem is to determine the conditions for the statistical significance of the predictions of the model trained on limited sample. This article is devoted to solving this problem within the research of production organization. The paper uses the provisions of the statistical learning theory, the notion of the Vapnik-Chervonenkis dimension for describing the sample complexity, and also the approaches of probably approximately correct learning (PAC-learning). The technologies of statistical bootstrapping and bagging are described, which allow expanding the training sample. ANN training is conducted using a computer experiment on the programming language Python. The bounds of the theoretical sample complexity, which is necessary for obtaining of ANN results within a given confidence interval with a confidence level of 0,95, were estimated. The sample was transformed by an order comparable to the theoretical lower bound. ANN was trained and the mean square error (MSE) in the test sample was defined, which amounted to . The theoretical bounds of the sample complexity to ensure a given statistical significance are determined in the article. After the ANN training on the sample, the order of which corresponds to theoretical lower bound, a prediction error was obtained on the test sample within the given confidence interval.

Keywords:
artificial neural network (ANN), machine learning, organization of production, training sample size, VC-dimension, statistical bootstrapping, bagging
Text
Publication text (PDF): Read Download

Введение. В настоящее время вектор оптимизации управления производством заключается в разработке и внедрении компьютерных технологий, позволяющих автоматизировать организационные процессы и осуществляющих эффективную поддержку принятия решений. В связи с этим в большинстве прикладных наук особое место начинает занимать методология машинного обучения, которая уже доказала свою универсальность в успешном решении разнообразных практических задач [1, 2]. Подход по созданию нового инструмента, аппроксимирующего реальный процесс, в рамках данной методологии укрупненно можно представить в виде четырех основных блоков, представленных на рисунке 1.

 

Рис. 1. Блок-схема разработки компьютерной модели, аппроксимирующей реальный процесс, с помощью

подходов машинного обучения

 

 

Первый блок формируется с помощью научного наблюдения за объектом, экспертных опросов, а также его системного анализа, если объект не представляет собой «черный ящик». Выбор математической модели важнейший этап исследования. Разработано и исследовано большое число разнообразных математических моделей, таких как линейная, полиномиальная, логистическая регрессии, дискриминантный анализ, машина опорных векторов, искусственная нейронная сеть и другие. Каждая из которых имеет свои недостатки и преимущества в зависимости от процесса, на формализацию которого она направлена [3, 4]. Подбор математической модели, наиболее эффективно описывающей поведение реальной системы, сам по себе может являться целью исследования, для успешного завершения которого с каждой моделью нужно последовательно пройти последние три блока на рисунке 1. Третий блок включает в себя настройку модели под функционирование изучаемого объекта. Наиболее распространенный подход – это обучение «с учителем», заключающийся в корректировке свободных параметров математической модели на основе информации, полученной непосредственно от исследуемой системы. Данную информацию представляют в виде обучающей выборки , состоящую из множества прецедентов ,

,             (1)

где  – вектор значений входов модели;  – отклик реальной системы при зафиксированном ;  – номер прецедента;  – количество примеров в обучающей выборке или длина выборки.

Существуют различные технологии и алгоритмы обучения модели, которые в основном зависят от ее математической формализации, а также от способа измерения входов и выходов модели.

В рамках диссертационного исследования, посвященного разработке методики оптимальной организации производственного процесса по строительству кровельных конструкций жилых многоэтажных зданий, автор статьи прошел первые три блока, определив с помощью системного анализа и экспертных опросов структуру исследуемого объекта [5], выполнив математическую интерпретацию его функционирования с помощью искусственной нейронной сети [6], а также определив алгоритм и порядок обучения модели  с помощью метода обратного распространения ошибки [7]. В данной статье приведены результаты определения условий и принципов качественного обучения созданной модели. Это завершающий этап создания компьютерной модели объекта исследования, определяющий перспективы ее практического применения в выбранной проблемной области.

Достоверность получаемых с помощью созданной модели результатов зависит от трех основных факторов. Первый фактор - это сама разработанная математическая модель. Так как невозможно идеально аппроксимировать реальный процесс с помощью математического закона, гибкость выбранной модели играет большую роль в точности предсказания. Вторым фактором выступает процесс обучения, а именно, выбранный алгоритм, а также контроль переобучения, использование дополнительных механизмов и технологий, увеличивающих скорость и качество обучения. И последний и самый значимый фактор – это состав и длина обучающей выборки. Если первые два фактора исследователь может изменять, то обучающая выборка есть априорная информация о системе, которая принимается им как данность. При этом в большинстве практических задач отсутствуют готовые данные об исследуемом объекте, и выборку приходится извлекать вновь, что всегда является трудоемким процессом, требующим больших затрат времени и финансов. Поэтому актуальными являются определение необходимой и достаточной сложности обучающего множества для получения результатов с заданным уровнем доверия, а также проблема обучения модели на выборках, ограниченной длины.

Модель исследования. Системообразующим фактором организационного процесса по строительному производству кровельных конструкций в настоящем исследовании выступает производительность труда. В результате системного анализа исследуемого объекта выделены основные параметры: Cs – строительный контроль, Ccr – строительная бригада, P&T– производственно-технические ресурсы. С помощью морфологического анализа данные параметры разбиты на элементарные организационные факторы следующим образом: Cs ( – мастер, –прораб,  – инженер строительного контроля,  – начальник участка), Ccr (  – квалификация рабочих,  – опыт работы,  – трудовая дисциплина), P&T (  – машины, инструменты и инвентарь  – производственно-технический отдел,  – компьютеризация строительного участка).

Математической моделью объекта исследования выступает искусственная нейронная сеть (ИНС) прямого распространения сигнала с одним скрытым слоем нейронов и единственным выходом, архитектура которой показана на рисунке 2.

Описание: диссертация_recover_recover-Модель

Рис. 2. Архитектура ИНС

Входы ИНС  – вектор значений организационных факторов производственного процесса, измеренных с помощью теории нечетких множеств [8]. Выход модели  – сменная производительность процесса, взятая относительно нормативного значения, полученного из государственных сметных нормативных документов. Функционирование нейронов соответствует классической схеме работы искусственного нейрона МакКаллока-Питтса [9]. Функцией активации  нейронов является логистическая функция

,                       (2)

где  – индуцированное локальное поле нейрона (сигнал на выходе из сумматора нейрона);  – константа, определяющая область значений функции. Для скрытого слоя , для выходного нейрона P , что связано с подходом к измерению выхода модели, учитывающего возможность перевыполнения нормативного значения производительности.

Обучение ИНС производится по методологии «с учителем» с помощью классического алгоритма обратного распространения ошибки [10]. Обучение происходит по выборке типа (1), извлеченной автором статьи в результате научного наблюдения за реальным производственным процессом, исполняя обязанности инженера строительного контроля в компании, осуществляющей строительство. Обучающая выборка репрезентативна и содержит  прецедента.

Определение достаточной длины обучающей выборки. Обучение ИНС можно представить, как поиск такой функции  в пространстве всех возможных функций , которая аппроксимирует работу реальной системы  с допустимым отклонением (ошибкой)  и достаточной степенью надежности. В фокусе статистической теории обучения [11] задача состоит в минимизации по свободному параметру  функционала среднего риска, который служит оценкой доверительного интервала  

,         (3)

где – свободные параметры модели (весовые коэффициенты связей ИНС);  – функция потерь, описывающая ошибку модели;  – совместное распределение вероятностей параметров реальной системы, соответствующих входам x и выходу y модели.

В связи с тем, что восстановление плотности распределения вероятностей по выборке трудоемкая задача, большинство алгоритмов обучения ИНС по прецедентам, в частности алгоритм обратного распространения ошибки, направлены на минимизацию эмпирического риска

.             (4)

Так как длина обучающей выборки N в основном ограничена, то главный вопрос состоит в том, насколько хорошо полученная на опытных данных функция  минимизирует функционал фактического риска (3), другими словами, насколько ошибка сети на обучающей выборке

                (5)

будет отличаться от ошибки  на контрольной выборке , состоящей из прецедентов, не задействованных в процессе обучения модели и, следовательно, ей незнакомых. Решение данной задачи связано с определением условий сходимости эмпирических средних к математическим ожиданиям [12], которая имеет вид

,       (6)

где  – уровень значимости.

В ходе анализа условий сходимости (6) на выборках конечной длины  и обобщения теоремы Гливенко для задачи распознавания образов советские ученые В. Вапник и А. Червоненкис ввели понятие емкости h множества функций , которое в мировой литературе принято называть размерностью Вапника-Червоненкиса (VC-dimension) [13]. С помощью данного параметра были определены допустимые условия равномерной сходимости через длину выборки , из которых можно выделить выражение для оценки доверительного интервала

,     (7)

где B – верхняя граница функции потерь , зависящая от области значений выхода ИНС,

  .                 (8)

Так как в основном, Rвтр    (w)  1  из выражения (7) можно заключить что доверительный интервал  соответствует среднему риску  и зависит от размерности Вапника-Червоненкиса и сложности обучающего множества N (длины выборки), при условии .

Для нейронных сетей с сигмоидальной функцией активации установлены границы VC-dimension [14, 15], имеющие следующие порядки

, ,                       (9)

где W – количество свободных параметров сети, то есть весовых коэффициентов связей .

В созданной ИНС количество связей
, тогда размерность Вапника-Червоненкиса согласно (9) имеет границы порядка , . Область значений функции активации выходного нейрона (0;1,3), тогда , а также примем эмпирический риск , который в большинстве моделей соответствует средней квадратической ошибке ( ) модели на обучающей выборке . Тогда согласно (7) и (8) для достижения достоверности прогнозирования данной ИНС в пределах доверительного интервала  с надежностью  ее необходимо обучить на выборке, длина которой имеет следующие границы

, .          (10)

Верхняя граница длины выборки не является обязательным условием для успешного обучения, что подтверждается многими практическими исследованиями [16]. При подготовке к обучению ИНС необходимо обеспечить соответствие обучающей выборки  нижней границе, как минимально необходимой для обеспечения уровня достоверности модели.

Расширение обучающей выборки. Извлеченная в рамках исследования обучающая выборка имеет длину , которая не сопоставима с теоретическими границами (10). Самостоятельное извлечение выборки для достижения порядка сложности (10) может занять несколько лет, что лишает исследование практической рентабельности. Для решения данной проблемы применим технологию статистический бутстрэп (statistical bootstrapping) [17], заключающуюся в расширении объема обучающего множества за счет создания бутстрэп-выборки . Формирование бутстрэп-выборки происходит путем последовательного проведения двух операций: случайный отбор прецедента   из выборки  и добавление его в выборку . При этом добавление происходит с повторением, например, если произошел повторный выбор прецедента  в результате операции случайного отбора на третьем шаге формирования выборки, данный прецедент вновь добавляется в , которая в данном примере примет вид

.                    (11)

Таким образом на основании данного подхода мы можем получать выборку произвольной длины N. Но обучение ИНС с помощью алгоритма, основанного на градиентом спуске, на бутстрэп-выборке , размер которой сопоставим с нижней границей (10), может привести к возникновению эффекта переобучения, так как она получена из одного вероятностного распределения  выборки , длина которой в пятьдесят раз меньше. Поэтому для повышения качества обучения ИНС применим технологию бэггинг (bagging или bootstrap aggregating).

Данный подход состоит в обучении модели отдельно на нескольких бутстрэп-выборках и дальнейшего усреднения полученных выходов. Размер каждой бутстрэп-выборки  зададим равной размеру исходной выборки , что обосновано практической реализацией данного подхода [18].  В соответствии с данной методикой обучение ИНС разбивается на обучение n моделей на разных бутстрэп-выборках , соответственно.

Таким образом, для удовлетворения условия (10) потребуется создать не менее 50 бутстрэп-выборок. Окончательное количество бутстрэп-выборок, участвующих в обучении модели, зависит от сходимости ИНС на контрольных данных и определяется непосредственно в процессе обучения модели. Под сходимостью ИНС подразумевается процесс достижения средней квадратической ошибки ( ) модели на контрольной выборке  заданного значения доверительного предела .

Обучение ИНС. Для обучения ИНС был проведен компьютерный эксперимент с помощью разработанной программы [19], интерпретирующей функционирование и алгоритм обучения ИНС на языке программирования Python. Обучение проводилось в несколько циклов. Один цикл включал в себя создание бутстрэп-выборки  согласно подходу, описанному в предыдущем разделе, обучение модели на  до достижения сходимости ИНС на обучающих данных, то есть до получения  за последнюю эпоху обучения, сопоставимой с заданным значением эмпирического риска . За эпоху обучения принят один полный проход всех примеров бутстрэп-выборки  через алгоритм обучения. Затем вычислялась  на контрольной выборке . При расчете  на каждом последующем цикле за выход ИНС  принималось среднее значение выходов моделей  по всем пройденным циклам. Результаты обучения отражены на рисунке 3.

Описание: Figure_3

Рис.3. Сходимость ИНС на контрольной выборке

 

По графику на рис. 3 прослеживается явная сходимость ИНС на контрольной выборке, что свидетельствует об успешной реализации обучения модели. Ошибка на контрольной выборке  соответствующая доверительному пределу  достигнута на 26 цикле, в котором сложность обучающего множества составила 26 бутстрэп-выборок, что соответствует 22152 обучающих прецедентов. Данное количество меньше нижней границы, установленной с помощью размерности Вапника-Червоненкиса, но дальнейшее увеличение точности происходит намного медленнее, так при увеличении обучающей выборки до    составила 0,193.

Выводы. В статье представлен подход определения достаточной длины обучающей выборки для получения с помощью искусственной нейронной сети прогнозируемых значений относительной производительности труда с заданным уровнем доверия. Решена проблема обучения на выборках ограниченной длины. Получено практическое подтверждение выполненного исследования с помощью проведения компьютерного эксперимента, состоящего в обучении созданной ИНС на выборке, извлеченной из исследуемого объекта.

References

1. Khademi F., Jamal S.M., Deshpande N., Londhe S. Predicting strength of recycled aggregate concrete using Artificial Neural Network, Adaptive Neuro-Fuzzy Inference System and Multiple Linear Regression // International Journal of Sustainable Built Environment, 2016, vol. 5, pp. 355–369.

2. Lee S., Choi W.S. A multi-industry bankruptcy prediction model using back-propagation neural network and multivariate discriminant analysis // Expert Systems with Applications, 2013, vol. 40. no. 8. pp. 2941–2946.

3. Roy S.S., Roy R., Balas V.E. Estimating heating load in buildings using multivariate adaptive regression splines, extreme learning machine, a hybrid model of MARS and ELM // Renewable and Sustainable Energy Reviews, 2018, vol. 82, no. 3, pp. 4256–4268.

4. Mayfield H., Smith C., Gallagher M., Hockings M. Use of freely available datasets and machine learning methods in predicting deforestation // Environmental Modelling & Software, 2017, vol. 87, pp. 17–28.

5. Lapidus A., Makarov A. Model for the potential manufacture of roof structures for residential multi-storey buildings // Procedia Engineering, 2016, no. 153, pp. 378–383.

6. Makarov A.N. Artificial neural network for organization and management of construction process // Bulletin of BSTU named after V.G. Shukhov, 2017, no. 4, pp. 117–122.

7. Lapidus A., Makarov A. Automation of Roof Construction Management by Means Artificial Neural Network // Advances in Intelligent Systems and Computing, 2017, vol. 692, EMMFT 2017, pp. 1168–1176.

8. Lapidus A.A., Makarov A.N. Fuzzy model of organization of construction process // Proceedings of universities. Investments. Construction. Real estate, 2017, vol. 7, no. 1(20), pp. 59–68.

9. McCalloch W.S., Pitts W. A logical calculus of the ideas immanent in nervous activity // Bull. Math. Biophys, 1943, vol. 5, pp. 115–133.

10. Rumelhart D.E., Geoffrey E. Hinton, Ronald J. Williams. Learning representations by back-propagating errors // Nature, 1986, vol. 323, pp. 533–536.

11. Vapnik V.N. An overview of statistical learning theory // IEEE Transactions on neural networks, 1999, vol. 10, no. 5, pp. 988–999.

12. Vapnik V.N., Chervonenkis A.Ya. Theory of uniform convergence of frequencie of appearance of attributes to their probabilities and problems of defining optimal solution by empiric data // Automation and Remote Control, 1971, no. 2, pp. 42–53.

13. Vapnik V.N., Chervonenkis A.Ya. Teoriya raspoznavaniya obrazov (statisticheskie problemy obucheniya). M.: Nauka, 1974. 416 s.

14. Pascal Koiran, Eduardo D. Sontag. Neural networks with quadratic VC dimension // Journal of computer and system sciences. 1997. Vol. 54. Pp. 190–198.

15. Michael Schmitt. Lower bounds on the complexity of approximating continuous functions by sigmoidal neural networks // NIPS 1999 Proceeding. 1999. Pp. 328–334.

16. Sally Floyd, Manfred Warmuth. Sample compression, learnability, and the Vapnik-Chervonenkis dimension // Machine Learning. 1995. Vol. 21. Pp. 269–304.

17. Efron B. Bootstrap Methods: Another Look at the Jackknife // The Annals of Statistics. 1979. Vol. 7. № 1. Pp. 1–26.

18. Breiman L. Bagging predictors // Machine Learning. 1996. Vol. 24. Pp. 123–140.

19. Svidetel'stvo o gosudarstvennoy registracii programmy dlya EVM №2017662846 ot 17.11.2017. Iskusstvennaya neyronnaya set' dlya ocenki i prognozirovaniya stroitel'stva krovel'nyh konstrukciy / A.A. Lapidus, A.N. Makarov; zayavitel' i pravoobladatel' NIU MGSU


Login or Create
* Forgot password?