Tomsk, Tomsk, Russian Federation
GRNTI 55.01 Общие вопросы машиностроения
GRNTI 55.13 Технология машиностроения
Predlozhen podhod k resheniyu zadachi ocenki prakticheskoy primenimosti sredstv vizualizacii, privlekaemyh dlya issledovaniya i interpretacii bol'shih ob'emov geterogennyh dannyh. V kachestve mery rezul'tativnosti sredstv vizualizacii vybrana izmerennaya prodolzhitel'nost' etapov vizual'nogo issledovaniya, pozvolyayuschaya delat' vyvody o celesoobraznosti primeneniya konkretnyh sredstv vizualizacii dlya dostizheniya celi issledovaniya dannyh. Privedeno opisanie sozdannogo programmnogo resheniya dlya provedeniya neobhodimyh izmereniy i predlozhena metodika ego ispol'zovaniya.
sredstva vizualizacii, rezul'tativnost', vizual'noe vospriyatie, analiz dannyh
Введение
Развитие цифровых технологий сделало актуальным создание средств обработки, передачи и хранения больших объемов данных. Существующие подходы к исследованию накапливаемых данных обладают рядом недостатков, к которым следует отнести значительную ресурсоемкость и высокие требования к подготовке специалистов, использующих доступные данные в качестве источника новых знаний [13]. Потенциальные возможности визуализации сформировали условия для ее привлечения к решению актуальных задач во многих сферах человеческой деятельности (медицина, техника, экономика, юриспруденция и т.д.). Одним из практических направлений развития визуализации, обладающим возрастающей актуальностью, становится создание средств когнитивной интерпретации данных, опирающихся на визуальное восприятие.
Средства визуализации и область их применения
Практическое применение средств визуального исследования (средств визуализации) может быть организовано различными способами и, следовательно, может дать пользователю ответы на вопросы различного уровня сложности. В простейшем случае визуализация предоставляет подтверждение или опровержение предварительно сформулированного ответа на вопрос и не требует дополнительного осмысления. Таким образом определяется иллюстративная функция средств визуализации, имеющая выраженную практическую направленность. Частным случаем подобного применения средств визуализации является демонстрация результатов решения задач анализа, полученных другими средствами. Развитие возможностей визуализации в этом направлении - автоматизация процедур разработки средств визуализации, а также поиск форм визуального представления, сокращающих время интерпретации исследуемых данных [16].
Значительный интерес представляют способы более сложного использования средств визуализации, основанные на целенаправленном взаимодействии исследователя и инструментов визуального исследования. Подобный вывод связан с особенностями визуализации, обеспечивающими интерпретацию визуальных образов на основании предварительной информированности пользователя и высокой скорости процессов визуального восприятия. Однако реализация потенциальных преимуществ средств визуализации при решении практических задач может быть обеспечена лишь при появлении систематизированного подхода к разработке средств визуализации, а также после определения методики проведения визуального исследования. Целью подобной систематизации является обоснованное использование любых привлекаемых ресурсов для достижения цели исследования.
Проблемы визуального исследования
Сложность извлечения новых знаний в результате интерпретации исходных данных с применением средств визуализации связана с недостаточной обоснованностью существующих подходов к использованию визуализации. Кроме того, развитие средств визуализации и их прикладное значение делают актуальным рациональное использование потенциала современных компьютерных технологий и любых иных задействованных ресурсов. Для получения подобного обоснования необходимо проведение больших объемов междисциплинарных исследований и определение формализованного подхода к визуальному исследованию.
Систематизация усилий, прилагаемых для создания средств визуализации, является условием достижения высокого уровня когнитивной интерпретируемости исследуемых данных, обеспечивая получение новых знаний. Создание средств визуального исследования, обладающих предсказуемой и управляемой результативностью, позволит расширить их применение в качестве прикладного инструмента в научных исследованиях. Специфика средств визуализации позволяет утверждать, что их результативность может быть существенно улучшена благодаря активному использованию собственного потенциала исследователя, в том числе информативного, когнитивного и эмоционального. В настоящее время привлечение и активное использование когнитивного потенциала исследователя является пассивным резервом существующих средств исследований.
В исследованиях [2] сформулированы положения, указывающие на необходимость учета при анализе визуальных образов нескольких уровней дополнительной информации: технологического, лингвистического, жанрового, эстетического, идеологического. Известен ряд общих проблем, которые препятствуют реализации потенциала средств визуализации в качестве инструмента для исследования данных различного типа [1; 9]. Анализ примеров фактического применения визуализации, в том числе для проведения научных исследований [3; 5; 7], позволил выделить наиболее актуальные вопросы, ответы на которые дают основания для обоснованного практического использования визуализации. В результате систематизации усилий, направленных на разработку средств визуального исследования данных [4; 6; 8], выделенные вопросы могут быть разделены на две группы:
- группа обоснования - вопросы, связанные с ошибками в понимании внутренних закономерностей визуализации;
- группа оценки - вопросы, связанные с получением количественных характеристик для сравнения между собой различных средств визуализации [15].
Определение количественных характеристик средств визуализации является условием увеличения практической применимости средств визуализации, так как позволит делать обоснованный выбор необходимых средств исследования до его начала, а также создаст условия для разработки инструментов визуального исследования, превосходящих существующие по критериям, представляющим интерес в рамках решаемой практической задачи.
Результативность визуализации и ее составляющие
В качестве одной из возможных количественных оценок средств визуализации может выступать их результативность. В данном случае интуитивное понимание термина «результативность» позволяет говорить о количественной характеристике, отражающей практическую ценность средств визуализации как инструмента исследования, необходимого для получения нужных и полезных результатов. Существующие подходы к измерению ценности знаний [12; 14] имеют ограничения, не позволяющие применять их в качестве способа определения результативности средств визуализации.
При определении результативности визуализации Wtotal используем предположение о том, что визуальные образы данных, за исключением тривиальных случаев, содержат избыточные сведения: фоновый шум, помехи, дублирующиеся данные. Следовательно, изображение I представляет собой сумму элементов, вносящих положительный и негативный вклад в результативность визуализации:
- Положительным вкладом считается результат визуализации, интерпретация которого дает ответ на вопрос исследования.
- Негативным является результат, препятствующий достижению цели исследования.
Передача новых знаний dK наблюдателя является результатом когнитивной интерпретации визуальной модели:
dK = P(I,K)dt = P+(I,K)dt + P—(I,K)dt ,
где P(I, K) - процесс когнитивной интерпретации, включающий в себя визуальное восприятие и интерпретацию его результатов.
Процесс интерпретации P+(I,K), вносящий положительный вклад, объединяет действия, приводящие к появлению у исследователя знаний, отсутствовавших на момент начала исследования и необходимых для его завершения. Присутствие в визуальном образе повторяющихся представлений увеличивает объем переданной информации, однако, с учетом возможностей и ограничений визуального восприятия, может играть роль отвлекающего фактора. Следовательно, значение P+(I,K) неоднозначно, как и определение величины общей результативности Wtotal.
Примером негативного процесса P—(I, K) является интерпретация атрибутов неопределенности в исходных данных или отсутствие данных. Однако для визуального исследования характерной особенностью является ситуация, когда отсутствие исходных данных, препятствующее привлечению традиционных методов исследования, может иметь положительный когнитивный результат, так как снимает ограничения для построения гипотез на этапе схематизации.
На основании схемы процесса визуального анализа, предложенной в [11], выражение для общей результативности визуализации должно объединить вклады процессов создания средств визуализации, их использования и интерпретации. Таким образом, общая результативность:
WF = W+(KTrg(TA)) + W+(KAdd(TA)) — WC (TA) — WM (TA),
где W+(KTRG(TA)) – ценность решения задачи анализа; W+(KADD(TA)) – ценность дополнительных знаний, полученных в результате формулирования и проверки гипотез решения; WС(TA) – ценность ресурсов, израсходованных для создания средств визуализации; WM(TA) – ценность ресурсов, использованных для управления средством визуализации в ходе исследования.
Средство исследования. ПО «Анализатор визуального представления»
Достижение цели исследования является последовательностью действий, направленных на поиск необходимого числа зависимостей в исходных данных, обеспечивающих построение гипотезы ответа и ее последующую верификацию [17]. Увеличение результативности визуального исследования WF происходит при увеличении положительного вклада составляющих, характеризующих полученные пользователем знания, или при уменьшении суммарной ресурсоемкости процессов, связанных с проведением исследования.
Процессы, оказывающие влияние на результативность исследования, разделены на составляющие, управление которыми может происходить независимыми способами. Таким образом, общая результативность, учитывающая совокупность всех факторов, участвующих в процессе визуального исследования:
W(t) = = Wcogn(t) — Wcreate(t) — Wmanage(t),
где Wcogn(t) - когнитивная результативность визуализации, связанная с объемом полученных знаний; Wcreate(t) - конструктивная ресурсоемкость, зависящая от объема усилий, приложенных для построения средства визуального исследования; Wmanage(t) - интерактивная ресурсоемкость, характеризующая уменьшение результативности исследования при росте затрат на его проведение.
Величина каждой составляющей может быть связана с длительностью интервала времени, затрачиваемого на выполнение соответствующего этапа визуального исследования. Полагая результативность процесса визуального исследования величиной, зависящей от времени, затраченного пользователем на достижение цели анализа, основной задачей для разработчиков средств визуального исследования данных следует считать сокращение времени анализа [10]. Таким образом, для оценки результативности средств визуализации необходим инструмент, который позволяет получать данные о зависимости времени исследования на каждом этапе исследования от любых факторов, оказывающих на него существенное влияние.
Для достижения этой цели предложено и разработано ПО «Анализатор визуального представления», предназначенное для получения экспериментально подтвержденных оценок результативности средств визуализации. Разработанное ПО представляет собой интерактивный инструмент, позволяющий создавать средства визуализации, использовать их при решении задач, связанных с исследованием данных различных типов, а также фиксировать результаты измерений длительности соответствующих этапов исследования. В результате использования ПО «Анализатор визуального представления» при проведении исследования реальных данных в различных практических задачах были получены данные, позволяющие оценивать практическую применимость средств визуализации (рис. 1).
Методика исследования. Тестовые задачи
Для получения эмпирических данных, позволяющих оценить практическую
предложена методика исследований, использующая возможности ПО «Анализатор визуального представления». Методика состоит в проведении серий решений тестовых задач, характеризуемых рядом контролируемых ограничений, и измерении интервалов времени взаимодействия пользователя и средства визуализации. Взаимодействие пользователя с моделью в этом случае подразумевает любые доступные пользователю операции, за исключением изменения способа визуализации. Измеряемыми интервалами являются продолжительность этапов построения средства визуализации, интерпретация визуального образа исследуемых данных, изменение свойств визуального представления, общая продолжительность исследования и т.д.
При определении применимости средств визуализации проводилось решение искусственно сформулированных задач, условия которых должны были уменьшить влияние сторонних факторов. В их число включались изменяющаяся предварительная информированность пользователя, личный опыт, заинтересованность, усталость и т.д. Исходя из этих требований задачей пользователей являлось обнаружение в объеме исходных данных, заимствованных в реальных практических задачах, искусственно созданной аномалии. Особенностью визуального исследования являлась необходимость достижения его цели при использовании лишь средств визуализации. Это означает, что пользователь, участвующий в тестовом решении, формулирует гипотезу ответа на основании интерпретации визуального образа без привлечения в качестве подтверждающей аргументации собственного понимания особенностей исходной информации, связанных с предметной областью их происхождения.
Тестовая задача и ее решение предполагают создание образа исследуемых данных с использованием предопределенного способа визуального представления. В процессе решения задачи участнику тестирования позволяется формулировать неограниченное число гипотез ответа на вопрос задачи. Каждая гипотеза считается очередным шагом анализа, т.е. действием, завершающимся интерпретацией визуального образа данных. Формулирование верной гипотезы означает завершение решения задачи. Полученные результаты позволили определить степень влияния факторов, входящих в общее определение результативности визуального анализа, на ее значение.
Некоторые результаты. Сравнение двух моделей
На основании результатов проведения серий решений тестовых задач с применением различных средств визуализации, а также измерений длительностей различных этапов решения с помощью разработанного ПО «Анализатор визуального представления» получены эмпирические данные, позволившие сделать ряд полезных выводов. К ним относятся оценки воспринимаемых элементов визуального образа с точки зрения их влияния на скорость формирования новой гипотезы. Получение этих данных создает условия для разработки средств визуализации, обладающих преимуществами перед инструментами визуального исследования, не имеющими обоснованных средств воздействия на визуальное восприятие целевой аудитории.
Примером практического применения предложенной методики использования ПО «Анализатор визуального представления» может служить определение целесообразности использования цветового кодирования при построении образа исследуемых данных. Проведено сравнение результатов применения средств визуализации, разработанных для решения практической задачи [10] и отличающихся лишь использованием цвета для сохранения визуальных различий между отдельными объектами. Получены результаты, которые показали отличия в скорости достижения цели визуального исследования и должны учитываться при создании новых средств визуализации (рис. 2). В соответствии с результатами тестовых измерений цветовая составляющая, во-первых, воспринимается пользователем как дополнительные данные, участвующие в анализе. Это увеличивает время мысленной обработки в тех случаях, когда эти данные не согласованы с результатами восприятия других элементов образа. Во-вторых, пользователь, согласно результатам опросов участников тестовых решений, во многих случаях отдавал предпочтение информативности формы объектов в образе данных и игнорировал цветовую составляющую.
На основании предложенной методики использования ПО «Анализатор визуального представления» возможно проведение исследований другого типа. Их целью является определение роли и возможностей средств визуализации в качестве инструмента для передачи, обработки и сохранения информации. Гипотезой исследований такого типа является предположение о возможности использования средств визуализации в качестве формальной языковой системы.
С этой целью проведено экспериментальное измерение результативности использования средств визуализации, разработанных для задачи анализа данных в одной предметной области, в решении других задач, отличающихся предметной областью или формулировкой цели исследования (рис. 3). Сравнение скорости построения гипотез решения разных задач участниками тестирования, имеющими различный уровень предварительной информированности и разную специализацию, подтвердило предположение о возможности формализации решения задач анализа данных благодаря применению средств визуализации.
Оценка средств визуализации
На основании полученных эмпирических данных и решения ряда практических задач с привлечением возможностей визуализации может быть сделан вывод о необходимости формирования собственной характеристики средств визуализации. Введение подобной характеристики, использующей объективные результаты измерений скорости решения тестовых задач, позволит принимать решение о целесообразности применения конкретных средств визуализации для решения прикладных задач с учетом сформулированных ограничений. К таким ограничениям могут быть отнесены доступные вычислительные или временные ресурсы, уровень подготовки специалистов, принимающих участие в решении задач, необходимость информационного обмена между ними и т.д.
В качестве элементов такой характеристики предложено использовать величины интервалов времени, соответствующих этапам описания, создания и использования средства визуализации. Определение этих величин возможно в случае проведения соответствующих измерений в стандартизированных условиях, к которым следует отнести характеристики используемых вычислительных мощностей, усредненное описание пользователя и постановку цели исследования, позволяющую считать измерение независящим от особенностей предметной области. Введенная таким образом комплексная характеристика является обобщением опыта применения каждого средства визуализации и позволяет снизить затраты времени на этапе подготовки к решению задачи анализа данных (рис. 4). Методика получения сведений, включенных в комплексную характеристику, позволяет получать дополнительные данные, имеющие практическую ценность, такие как оценка квалификации участников исследования, направление приложения усилий для дальнейшего увеличения общей результативности использования визуализации, достаточность или избыточность вычислительных ресурсов и т.д.
Заключение
В работе предложены способы оценки практической применимости средств визуализации, используемых для исследования больших объемов разнородных данных. В качестве измеримой характеристики, позволяющей оценивать результативность средств визуализации, приняты продолжительности этапов визуального исследования. Показана возможность проведения необходимых измерений при использовании ПО «Анализатор визуального представления», а также методики измерений, предполагающей решение серий тестовых задач. Особенностью тестовых решений является введение контролируемых ограничений в процесс решения для получения представления о степени влияния отдельных параметров на общее значение результативности. В результате создания условий для получения измеряемых параметров процесса визуального исследования предложено введение комплексной характеристики средств визуализации. Практическое значение этой характеристики заключается в возможности сокращения времени выбора средства визуализации, соответствующего условиям решения задачи анализа данных.
1. Batch, A. The Interactive Visualization Gap in Initial Exploratory Data Analysis / A. Batch, N. Elmqvist // IEEE Trans. Vis. Comput. Graph. – 2018. – T. 24. – № 1. – R. 278–287.
2. Berger, A.A. Seeing is believing : an introduction to visual communication / A.A. Berger. – McGraw-Hill Education, 2011. – 267 r.
3. Cook, K. Mixed-initiative visual analytics using task-driven recommendations IEEE / K. Cook. - 2015. – R. 9–16.
4. Elmqvist, N. Patterns for visualization evaluation / N. Elmqvist, J.S. Yi // Inf. Vis. – 2015. – T. 14. – № 3. – R. 250–269.
5. Globus, A. Fourteen Ways to Say Nothing with Scientific Visualization / A. Globus // Computer (Long. Beach. Calif). – 1994. – T. 27. – № 7. – R. 86–88.
6. North, C. Toward measuring visualization insight / C. North // IEEE Comput. Graph. Appl. – 2006. – T. 26. – № 3. – R. 6–9.
7. Pienta, R. VIGOR: Interactive Visual Exploration of Graph Query Results / R. Pienta, F. Hohman, A. Endert, A. Tamersoy, K. Roundy, C. Gates, S. Navathe, D. H. Chau // IEEE Trans. Vis. Comput. Graph. – 2018. – T. 24. – № 1. – R. 215–225.
8. Pontis, S. Understanding "influence": An empirical test of the Data-Frame Theory of Sensemaking / S. Pontis, A. Blandford // J. Assoc. Inf. Sci. Technol. – 2016. – T. 67. – № 4. – R. 841–858.
9. Ragan, E.D. Characterizing Provenance in Visualization and Data Analysis: An Organizational Framework of Provenance Types and Purposes / E.D. Ragan, A. Endert, J. Sanyal, J. Chen // IEEE Trans. Vis. Comput. Graph. – 2016. – T. 22. – № 1. – R. 31–40.
10. Shklyar, A. Visual modeling in an analysis of multidimensional data / A. Shklyar, A. Zakharova, E. Vekhter, A. Pak // J. Phys. Conf. Ser. – 2018. – T. 5. – № 1. – R. 125–128.
11. Shklyar, A. Visual detection of internal patterns in the empirical data / A. Shklyar. - Springer Verlag, 2017. – R. 215–230.
12. Tufte, E.R. The visual display of quantitative Information / E.R. Tufte // Vis. Disp. Quant. Inf. – 2008. – R. 1–191.
13. Vieira, C. Visual learning analytics of educational data: A systematic literature review and research agenda / C. Vieira, P. Parsons, V. Byrd // Comput. Educ. – 2018.
14. Ward, M.O. Perceptual Benchmarking for Multivariate Data Visualization / M.O. Ward. - 1997. – R. 314–321.
15. Manakov, D. Verifikaciya vizualizacii / D. Manakov, V. Averbuh // Nauchnaya vizualizaciya. – 2016. – T. 8. – № 1. – S. 58–94.
16. Shklyar, A. Informativnye priznaki zadach vizualizacii / A. Shklyar, A. Zaharova // Nauchnaya vizualizaciya. – 2015. – T. 7. – № 2. – S. 73–80.
17. Shklyar, A. Izmeryaemye harakteristiki zadach vizualizacii / A. Shklyar, A. Zaharova, Yu. Rizen // Nauchnaya vizualizaciya. – 2016. – T. 8. – № 1. – S. 95–107.