32x32

BVS 31.05.2018

Data Mining в экономике знаний

  Применение методов Data Mining сегодня широко обсуждается в научной и экспертной среде, становится обыденным в научных исследованиях, в ИТ-секторе и других отраслях экономики. Актуальность использования этих методов обусловлена, прежде всего, усложнением различных систем, которые представляют окружающий нас мир, что затрудняет их анализ и поиск оптимальных решений.

 Осознание возможностей современных компьютером (их вычислительной мощности) актуализировало существовавшие в математике наработки, касающиеся анализа данных, а также активизировало разработку новых подходов. Компьютер целенаправленно начал применяться для накопления и обработки данных с целью получения результатов, ценных для познания и управления. Развитие методологии Data Mining (наряду с Big Data), которая охватывает разные области исследований и отрасли экономики, формирует  отдельное научное направление – Науку о данных (Data Science).

  Расширение практического использования Data Mining (как и Big Data) во многом связано с построением так называемой Интернет-экономики (цифровой экономики), что предполагает перенос социально-экономических процессов в Интернет. Так или иначе, это охватило практически все сферы жизни общества и отрасли экономики, порождая цифровые трансформации. Интернет создал новые формы взаимодействия и моделей коммуникации (сети), смог перенести различные структуры в виртуальную среду (например, рынки). Это поменяло организацию экономики. Активность человека все больше происходит виртуально в Интернете, что отражается теми или иными данными, анализ которых позволяет определить потребности, предпочтения, запросы, склонности людей и т.п. Естественно, в условиях рыночной экономики возникла коммерческая направленность такого анализа, который начал сопутствовать маркетингу, особенно с развитием электронной коммерции и Интернет-медиа.

  Интернет-цифровизация экономики существенно популяризировала Data Mining. Эти методы начали широко применяться в медицине – для диагностики заболеваний и определения наилучших методик их лечения, в промышленности и сельском хозяйстве – для оптимизации процессов и работы оборудования, в страховании – для оценки клиентов, в сфере безопасности – для идентификации лиц, определения мошенников, и мн. др.

  Под Data Mining, в общем, понимается связывание и обработка разнообразных и неоднородных данных (различного объема) с использованием специальных методов для обнаружения скрытых, ранее неизвестных, нетривиальных закономерностей (шаблонов, паттернов). Data Mining имеет свою историю появления и развития и сегодня Data Mining оформился в самостоятельную область.

 Экономику знаний мы определяем с нескольких точек зрения, прежде всего: 1) как тип экономики, при котором параметры и условия воспроизводства в большей степени зависят от объективных знаний; 2) как дисциплину, призванную изучить и обеспечить эффективное получение, распространение и использование знаний (а также ряд смежных процессов и операций). Естественно эти интерпретации требуют пояснений, однако остановимся на том, что главным ресурсом (экономическим фактором) признаются знания, а главными процессами в экономике – их получение, распространение и применение на практике. По сравнению с индустриальной экономикой, значимость быстрого обнаружения скрытых, ранее неизвестных, нетривиальных закономерностей, т.е. фактически   знаний и операций с ними по объективным причинам возрастает, так как в большинстве случаев это дает явные конкурентные преимущества.  

  Поэтому это обстоятельство заставляет обратить внимание на методы Data Mining, которые за счет обработки данных позволяют получить доступные для понимания и практически полезные знания, необходимые для принятия решений. Знания генерируются за счет выявления закономерностей (шаблонов, паттернов), которые позволяют понять (изучить) отношения свойств объектов и в итоге сами объекты. Методы Data Mining применимы в различных направлениях социального, экономического, технического, физического, биологического анализа. Этим обусловлена его меж(мульти)дисциплинарность.

  Раньше такой анализ осуществлялся «вручную», сегодня – с помощью компьютера эти операции автоматизируются. Появились возможности охватить, структурировать и обработать большие объемы данных, применить новые методы, более сложные подходы и алгоритмы обработки данных, а также реализовать новые способы визуализации данных и  результатов обработки.

  Цель применения Data Mining – получить новые, ранее неизвестные знания для принятия более рациональных решений. Это как раз и отвечает специфике экономики знаний. Основные задачи Data Mining, которые наиболее часто встречаются в экономике знаний:

  • кластеризация – предполагает сегментацию объектов, представленных в виде наборов разнотипных данных - таблицы объект-свойство – т.е. позволяет выделить несколько групп (кластеров) объектов, объединенных некоторым «сходством» («обучение без учителя»);
  • классификация – предполагает поиск различий между классами (кластерами) за счет выделения определенных признаков (свойств) и/или их сочетаний, которые являются разделяющими; при этом принадлежность объектов к классам заранее определена («обучение с учителем»);
  • уменьшение размерности – предполагает объективное обобщение данных (снижение числа измерений), которые сохраняет общее представление о закономерностях, заложенных в выборке;
  • ассоциативные правила – предполагает поиск ассоциаций и понимание взаимосвязей (зависимостей) между событиями с определенной вероятностью;
  • и другие.

  Data Mining (наряду с Big Data), конечно, не панацея от всех проблем, имеет объективные трудности применения и ограничения. Однако в этих методах много полезного и их практическая значимость неоспорима.

  Сейчас вокруг Data Mining и Big Data много «шума». Это очень модные термины. В современных условиях это нормальный процесс популяризации.  Постепенно «шум» пройдет, а полезное останется. Созданные во время бума инструменты займут свое место и, оценивая решаемые задачи, должны стать привычными. Однако пока Data Mining остается преимуществом в основном тех, кто владеет специальными математическими методами и языками программирования (R и Python) либо же навыками работы со сложными программными инструментами. Конечно, профессиональное занятие Data Science и работа с огромными объемами данных обязательно требуют этого. Однако огромное количество профессионалов в различных сферах (предметников) не имеют таких навыков, поэтому для анализа данных им приходится обращаться к программистам, что порождает организационные сложности и увеличивает затраты времени и денег. На практике возможности «непрограммистов» (а их большинство) остаются ограниченными.

  Мы пришли к выводу, что предметникам необходимы свои инструменты, которые бы позволяли применять Data Mining без знания языков программирования, в частности, R и Python, без обращения к программистам, а также без углубленных познаний в математике. Профессионалы должны быть сосредоточены на своих предметных областях, но при этом, должны иметь возможность применять Data Mining в своей работе, обладая только методическими основами. Тем более, чаще всего мы анализируем сравнительно небольшой объем данных, далеко не выходящих за рамки возможностей Excel. Эта программа, кстати, является хорошим примером создания «массового» инструмента, удобного, доступного в освоении, многофункционального и эффективного.

  На основе философии доступности на нашем портале SCIENCEHUNTER.net создан комплекс онлайн программных средств для Data Mining, включающий:

  • обучающий курс;
  • уникальный инструмент для оценки качества выборки;
  • сервисы для предобработки, кластеризации и классификации данных (при этом используются различные методы, в том числе и структурно-логические, которые позволяют интерпретировать результаты и в итоге приводят к лучшему пониманию);
  • удобные алгоритмы 3-х и 2-х мерной визуализации данных, которые позволяют наглядно представить данные, визуально оценить наличие и количество кластеров, их взаимное расположение в пространстве, дают возможность разметить объекты разными цветами, при необходимости вмешаться в структуризацию (изменить «вручную» полученную разметку объектов на группы).

  Таким образом, обучающие материалы и средства на портале SCIENCE HUNTER.net позволяют профессионалам из различных сфер деятельности, аспирантам и студентам ознакомиться с методологией и методикой осуществления Data Mining, заниматься практическим анализом данных в рамках решения своих исследовательских задач. Считаем, что в экономике знаний, когда приходится часто анализировать данные, такой комплекс необходим именно «непрограммистам», в том числе предметникам из гуманитарных сфер. Мы хотим, в некотором смысле, ликвидировать монополию программистов на Data Mining, дать исследователям возможность напрямую использовать эти методы в своей деятельности, не затрачивая много времени на глубокое изучение математических методов и языков программирования. При этом предлагаемые инструменты не уступают многим другим подобным методам по эффективности обработки данных, а иногда даже превосходят их за счет таких использования таких новаций, как оценка качества выборки, собственной методологии, инструментов визуализации. 

 Этими тезисами я хотел бы открыть дискуссию по основам, направлениям и проблемам применения Data Mining в современной экономике с акцентом на обнаружении скрытых, ранее неизвестных, нетривиальных закономерностей и знаний.