Анализ данных: технологии, методы, приемы

Анализ данных: технологии, методы, приемы .doc

Зарегистрируйся в два клика и получи неограниченный доступ к материалам,а также промокод на новый заказ в Автор24. Это бесплатно.

Введение

Математические методы анализа данных широко используют при исследовании различных систем и процессов - естественных, технических, экологических, экономических, социальных и тому подобное.
О применении статистических методов анализа данных впервые упоминается в Книге чисел. Основы современных методов анализа данных были заложены Томасом Байесом (Байесовский подход, Байесовские оценки), Даниилом Бернулли (применение нормального распределения в теории погрешностей, первые таблицы нормального распределения, разделение погрешностей наблюдений на случайные и систематические и т.д.), Карлом Гауссом (метод наименьших квадратов), А.Н. Колмогоровым (статистические методы контроля качества, статистика Колмогорова - Смирнова, обобщенная расстояние Колмогорова и т.д.), А.М. Лежандром (метод наименьших квадратов), Вильфредо Парето (распределение Парето, диаграмма Парето), Фрэнсисом Гальтоном (теория корреляции), Карлом Пирсоном (теория корреляции, критерии согласия, метод главных компонент), Чарльзом Спирменом (техника факторного анализа, ранговая корреляция), Рональдом Фишером (метод максимального правдоподобия, критерии согласия и т.д.).
Заметный вклад в развитие этих методов сделал выдающийся математик М.В. Остроградский, который в середине XIX в. сформулировал основные идеи статистического контроля качества производства.
Современные методы анализа данных были развиты в трудах Ю.П. Адлера, С.А. Айвазяна, Т. Андерсона, И. Барда, Л. Большева, Б.В. Гнеденко, Н. Дрейпера, А.М. Дуброва, К. Иберлы, И.А. Ибрагимова, А. Ивахненко, Дж. Кифера, К.Х. Крамера, М. Кендалла, Г. Куллдорфа, Б.Ю. Лемешко, Ю.В. Линника, В. Мартынова, В. В. Налимова, М.С. Никулина, А.И. Орлова, И.М. Парасюка, Е. Питмена, Ю.В. Прохорова, С.Р. Рао, Г. Смита, А. Стьюарта, Дж. Тьюки, Г. Хоттелинга, П. Хьюбера, А. Хьютсона, А.А. Чупрова, Д.У. Юла и многих других исследователей.

1. Теоретические понятия анализа данных и интеллектуального анализа данных

В последнее время широкое распространение приобретают новые технологии и методы анализа данных, в частности методы интеллектуального анализа данных (data mining) [1-2], которые используют для выявления скрытых закономерностей в больших массивах данных, и нейроинформатики, а также методики и средства статистического контроля качества на производстве и в управлении организациями.
Концепция шаблонов (паттернов) лежит в основе интеллектуального анализа данных (Data Mining, ИАД), отражающая фрагменты многочисленных и различных взаимосвязей данных. Данные шаблоны являются определенными закономерностями, которые характерны подвыборке данных, и выраженные в рациональной и понятной для человека форме. Нахождение шаблонов осуществляется при помощи формализованных методов, а не при помощи закрытых гипотез о структуре выборки, и видами распределений анализируемых значений. Ключевой особенностью ИАД является неординарность искомых шаблонов [3]. Из этого в свою очередь следует то, что полученные шаблоны должны отражать нетривиальные регулярности в данных, и содержать так называемые замкнутые знания (hidden knowledge). Со временем в обществе зародилось понимание, что не обработанные данные имеют глубинный слой знаний, и что при эффективной и качественной обработке этих данных, они могут быть настоящим кладезем знаний.
Интеллектуальный анализ данных - это процесс нахождения в не обработанных данных ранее неизвестных, оригинальных, практически эффективных и открытых интерпретации знаний, которые необходимы для осуществления принятия решений в многочисленных отраслях человеческой деятельности.
Основные процедуры анализа данных чаще всего реализуют с помощью современных компьютерных технологий. При этом исследователи или сами строят расчетные алгоритмы и пишут соответствующие компьютерные программы, или используют имеющееся программное обеспечение - электронные таблицы MS Excel, специализированные пакеты SPSS, STATISTICA, математические пакеты общего назначения MatLab, MathCad и др. Но даже при применении специализированных пакетов исследователю необходимо обладать теоретическими основами математических методов анализа данных, поскольку обычно это предполагает необходимость выбора оптимальных алгоритмов и определенных параметров их реализации, иногда из нескольких сотен возможных вариантов.
Результатом развития информационных технологий и сети Internet является количество информации, накопленной человечеством в электронном виде: тексты, изображения, аудио, видео, гипертекстовые документы, базы данных и т. д. Современные системы извлечения информации используют основанные на методах искусственного интеллекта средства представления и интерпретации для поиска в терабайтных хранилищах весьма ценную информацию.
Большинство современных программ контент-анализа ограничены обработкой текста, однако их возможности гораздо шире. Примером технологии этого поколения является технология "добычи" данных или Text Mining [4]. Вообще результатом естественной эволюции информационных технологий стали облачные технологии и методы (классификация, кластеризация, прогнозирование) и технологии (Data Mining, Text Mining, Web Mining, OLAP) интеллектуального анализа данных. Причинами их популярности стали следующие: стремительное накопление данных; общая компьютеризация; проникновение Интернет во все сферы деятельности; прогресс в области информационных технологий (совершенствование СУБД и хранилищ данных); прогресс в области производственных технологий (рост производительности компьютеров, объемов накопителей, внедрение Grid-систем).
На сегодняшний день Data Mining (не принимаю во внимание огромное количество иных методов) получает большее смещение в бок логических алгоритмов поиска данных при помощи которых получаются решения задач прогнозирования, распознавания образов, классификации, извлечения из данных закрытых значений, разбиения на сегменты БД, интерпретирование данных, установление в БД определенных закономерностей и т.д.
Как итог такие алгоритмы достаточно эффективны и легко трактуются. Однако основной проблемой логических методов выявления принципов является сложность рассмотрения всех вариантов за определенное время. Данные методы искусственным образом сдерживают такой перебор и создают деревья решений по строгим формализованным ограничениям качества поиска if-then правил.
Ключевая особенность ИАД - это комбинация большого математического инструментария и новейших достижений в области информационных технологий.
В технологии ИАД согласованно соединились принципиальные методы и методы неформального анализа, т.е. качественный и количественный анализы данных.
Множество аналитических методов, которые применяются в технологии ИАД, являются популярными математическими алгоритмами и методами. Новым является то, что их можно применять при решении различного набора определенных проблем. Это обусловлено новыми свойствами технических и программных средств.
Задачи анализа данных состоят в разработке алгоритмов классификации, кластеризации, ассоциации, прогнозирования, регрессионного и корреляционного анализа.
Сущностными задачами ИАД являются анализ структуры баз данных, запросов, журналов транзакций, поиск закономерностей и взаимосвязей между данными, построение производительных моделей, эмпирических моделей, деревьев решений и семантических сетей [5].
Осуществление ИАД можно представить в виде следующих шагов:
- постановка проблемы;
- сбор данных;
- исследование данных;
- организация и проектирование моделей;
- исследование и контроль моделей;
- оптимизация моделей.
База данных информационной системы (ИС) представляет собой определенный набор таблиц, в которых находятся записи о свойствах множественных элементов. Эти записи включают в себя данные, показывающие тот или иной факт в границах предметной области, но при этом не несущие никакого смысла.
Массивы данных значительного объема, собранные за конкретные временные рамки, могут быть использованы в качестве базовых элементов информации о принципах поведения ИС, связующими звеньями между данными, данными для проектирования и создания сценариев работы системы

Зарегистрируйся, чтобы продолжить изучение работы

. Полученная данным способом информация используется во многих отраслях прогнозирования, стратегического антикризисного управления, в анализе рисков [6].
Определены виды закономерностей, которые определяются благодаря анализу данных (рис.1):
1) ассоциация - определение взаимосвязей между событиями, которые объявляют, что событию X следует событие Y; данные законы имеют название ассоциативные;
2) секвенция - анализ вероятности происшествия цепочки событий;
3) классификация - определение функциональной зависимости между исходными и расчетными выходными неизвестными. При помощи классификации может быть решена задача причисления объектов к одному из заведомо известных классов;
4) кластеризация - это комбинация объектов (наблюдений, событий) на основе элементов, представляющих суть объектов; объекты, входящие в состав кластера должны быть «схожими» друг с другом, при этом иметь отличие от объектов, вошедших в другие кластеры;
5) регрессия - установление функциональной зависимости между входными и непрерывными выходными переменными; прогнозирование, чаще всего, сводится к решению задачи регрессии.

Рис. 1 Виды закономерностей, выявляемые при помощи анализа данных

Ассоциация (Associations). В процессе осуществления поиска решения задачи ассоциативных правил находятся взаимозависимости между общими событиями в наборе данных. Отличительная особенность ассоциации от двух прошлых задач ИАД: отбор закономерностей происходит не на принципе свойств анализируемого объекта, а между некоторыми событиями, которые происходят в одно время. Одним из популярных алгоритмов решения задачи поиска ассоциативных правил является алгоритм Apriori.
Прогнозирование (Forecasting). В ходе решения задачи прогнозирования на базе ключевых отличий имеющихся данных происходит оценка пропущенных или будущих значений целевых числовых показателей. Для решения таких задач широко используются методы математической статистики, нейронные сети и др.
Визуализация (Visualization, Graph Mining). В ходе работы визуализации формируется графический образ данных, которые анализируются. Для решения задачи визуализации применяются графические методы, отображающие существование закономерностей в данных. Примером методов визуализации может выступать концепция данных в 2D- и 3D-измерениях.
Подведение итогов (Summarization) - задача, цель которой состоит в описании определенных групп объектов из определенного набора данных и т.д.
Задачи ИАД, в зависимости от рассматриваемых моделей могут быть дескриптивными и прогнозируемыми. В ходе решения описательных задач аналитик работает с шаблонами, которые описывают данные, а также подвергаются интерпретации.
Данные задачи приводят обобщенную концепцию анализируемых данных, выявляют информативные, итоговые, отличительные особенности данных.
Прогнозирующие (predictive) задачи базируются на анализе данных, проектировании модели, прогнозе будущих тенденций или свойств новых или неизвестных данных.

2. Методы и приемы интеллектуального анализа данных

Интеллектуальный анализ данных - это процесс выявления в первичных данных ранее неизвестных, доступных, практически полезных и нетривиальных интерпретаций знаний, необходимых для принятия решений во многих сферах человеческой деятельности. Визуальные инструменты Data mining позволяют анализировать данные при помощи привлечения предметных специалистов, не обладающими соответствующими математическими знаниями [7].
Методы ИАД можно классифицировать на: статистические: корреляционный и регрессионный анализ, дескриптивный анализ, факторный анализ, компонентный анализ, дисперсионный анализ, анализ временных рядов; кибернетические: эволюционное программирование, искусственные нейронные сети, генетические алгоритмы, нечеткая логика, деревья решений, системы обработки экспертных знаний.
ИАД возник и получил дальнейшее развитие на основе достижений статистики, методов искусственного интеллекта, распознавания образов, теории баз данных и тому подобное. Некоторые из систем совмещают в себе сразу несколько подходов. Однако, как правило, в каждой системе имеется один главенствующий элемент, на котором сконцентрировано все снимание. Классифицируем алгоритмы и методы ИАД[8].
Предметно-ориентированные аналитические системы - достаточно распространенные и разнообразные. Наиболее широким подклассом таких систем, получивших распространение в сфере исследования финансовых рынков, является «технический анализ». Данные методы в большинстве своем применяют простой статистический аппарат, при этом по максимуму принимают во внимание отраслевую направленность, как, например, системы различных индексов или профессиональный язык.
Статистические пакеты включают элементы ИАД, но основное внимание в них обращается на классические методики - корреляционную, регрессионную, факторный анализ и др.
Минусом систем данного класса является требование к определенной подготовке пользователя. Множество методов, которые входят в состав пакетов, базируются на статистической парадигме, в которой основными действующими элементами служат среднестатистические характеристики выборки, которые при рассмотрении реальных действующих ситуаций обычно являются вымышленными величинами.
Искусственная нейронная сеть - математическая модель, а также ее программная или аппаратная реализация, построенная по принципу организации и функционирования биологических нейронных сетей - сетей нервных клеток живого организма. Это понятие возникло в ходе изучения процессов, протекающих в мозге, в частности при попытке моделирования этих процессов.
С математической точки зрения обучение нейронных сетей - это многопараметрическая задача нелинейной оптимизации. В результате на выходе нейрона высокого уровня производится некоторое значение, рассматривается как ответ - реакция всей сети на введенные значения входных параметров. Для того чтобы сеть применялась в дальнейшем, ее прежде надо "обучить" на полученных ранее данных, для которых известны значения входных параметров.
Персептрон - одна из первых моделей нейронных сетей. Несмотря на свою простоту, персептрон способен учиться и решать достаточно сложные задачи. Основная математическая задача, с которой он справляется - это линейное разделение любых нелинейных множеств, так называемое обеспечение линейной сепарабельности [9].
Сверточные нейронные сети могут включать слои локальной или глобальной подвыборки, которые сочетают выходы кластеров нейронов. Они также состоят из различных комбинаций сверточных и полносвязанных слоев, с применением поточечной нелинейности в конце каждого слоя. Для снижения числа свободных параметров и улучшения обобщения вводится операция свертки на малых областях входа. Одним из главных преимуществ сверточных нейронных сетей является использование совместного веса в сверточных слоях, что означает, что для каждого пикселя слоя используется один и тот же фильтр (банк веса) это как уменьшает объем требуемой памяти, так и улучшает производительность.
Классическими реализациями сверточных нейронных сетей, ставшие прорывом в индустрии, является LeNet5 и AlexNet.
Можно выделить четыре ключевых свойства, которые обеспечивают преимущество использование сверточных нейронных сетей для обработки геопространственных данных: локальные соединения, общие веса (shared weights), подвыборка (pooling) и использование многих слоев.
Ассоциативная память в нейронных сетях реализуется в двух формах: автоасоциация и гетероассоциация. В первом случае сеть учится на основе входных образов, которые могут быть зашумлены. Происходит выделение и запоминание основных признаков, на основе которых и происходит в дальнейшем восстановление (упоминание) образа. Гетероассоциация отличается от автоасоциации только наличием учителя, то есть каждому представленному зашумленному образу соответствует определенный заданный исходный образ.
Задача кластеризации тесно связана с ассоциацией