Відкритий міжнародний університет розвитку людини «УКРАЇНА»
Перемикач режиму перегляду сайту
Збільшений розмір шрифту Великий розмір шрифту Нормальний розмір шрифту
Чорно-білий В сірих відтінках Синьо-голубий
Нормальний режим
+38-067-406-53-92
Приймальна комісія
відділ оргроботи
+38-067-503-64-52
+38-067-328-28-22
Viber відділу обліку
+38-067-500-68-36
Київ, вул. Львівська, 23 office@uu.ua

Дисципліна: Інтелектуальний аналіз даних

Кількість годин (кредитів ЄКТС): 180 (6)

 

Мета навчальної дисципліни:

-  прийняття рішень в умовах визначеності, коли дані відомі;

-  прийняття рішень в умовах ризику, коли дані можна описати за допомогою ймовірнісних альтернатив;

-  прийняття рішень в умовах невизначеності, коли даним не можна призначити визначені ваги (вагові коефіцієнти), які представляли б ступінь їх значимості у процесі прийняття рішень.

 

Зміст дисципліни (тематика):

 

Методи первісної обробки даних

Необхідність попередньої обробки даних. Причини, що вимагають очистки даних. Сутність методів попередньої обробки даних.

 

Методи дослідження структури даних: візуалізація та автоматичне групування даних

Дослідження структури даних методами візуалізації даних: лінійні методи зменшення розмірності, нелінійні відображення, когнітивна графіка. Дослідження структури даних методами автоматичного групування даних: факторний аналіз об'єктів та їх ознак, кластерний аналіз об'єктів та їх ознак, ієрархічне групування, визначення точок скупчення.

 

Кореляційний і регресійний аналіз даних. Множинний регресійний аналіз

Завдання кореляційного та регресійного аналізу даних. Вимоги до інформаційної бази, етапи кореляційно-регресійного аналізу даних. Алгоритм регресійного аналізу. Показники щільності зв’язку. Множинний регресійний аналіз. Види рівнянь множинної регресії. Оцінка параметрів рівняння множинної регресії методом найменших квадратів.

 

Лінійна множинна регресійна модель. Перевірка адекватності моделі

Класична нормальна лінійна модель множинної регресії. Оцінка значущості множинної регресії. Властивості коефіцієнта детермінації. Визначення довірчих інтервалів для функції регресії та її параметрів. Перевірка адекватності моделі.

 

Нелінійне оцінювання параметрів

Загальне призначення. Оцінювання лінійних та нелінійних моделей. Методи нелінійного оцінювання.

 

Кластерний аналіз. Ієрархічна та секційна кластеризації

Мета, основні завдання кластерного аналізу. Формальне визначення кластеризації. Етапи кластерного аналізу. Множина метрик. Ієрархічна кластеризація (таксономія) та секційна кластеризація. Дендрограми. Стійкість та якість кластеризації. Застосування кластерного аналізу. Програмна реалізація кластерного аналізу.

 

Методи кластеризації: процедура Мак-Кіна, метод k-середніх, сітчасті методи

Метод k-середніх, Мак-Кіна, його відмінності від ієрархічної кластеризації. Метод найближчого та найвіддаленішого сусіда. Метод незваженого або зваженого попарного середнього. Методи нечіткої кластеризації. Нейронні мережі, генетичні алгоритми, метод загартування, ймовірнісний підхід, теоретико-графовий підхід). Особливості кластеризації великих масивів даних сітчастими методами (grid-based).

 

Растрова кластеризація об'єктів

Вибір метрики. Аксіоми. Вибір способу визначення відстані між крапкою і множиною крапок. Вибір способу кластеризації. Кластеризація растрових об’єктів із використанням карт Кохонена. Критерії оцінки точності класифікації.

 

Лінійний дискримінантний аналіз. Побудова канонічних та класифікаційних функцій

Мета дискримінантного аналізу. Методи дискримінації даних. Моделі дискримінантного аналізу. Основні припущення. Основні статистики, що пов’язані з дискримінантним аналізом. Правила об’єднання об’єктів у кластери. Дерева класифікації, їх властивості. Побудова канонічних та класифікаційних функцій. Зв'язок між дискримінантним, дисперсійним і регресійним аналізом.

 

Дерева рішень

Основні визначення. Типологія дерев. Побудова дерева рішень, основні алгоритми. Методи регулювання глибини дерева. Сфери застосування методу. Переваги та недоліки методу. Системи, що використовують метод.

 

Методи опорних векторів, «найближчого сусіда», Байєса

Основні поняття методу опорних векторів. Метод опорних векторів для випадків лінійного розподілу вибірки, нероздільних даних, задач із декількома класами і нелінійні задачі. Функції ядра, спрямляючий простір. Способи побудови ядер. Приклади ядер. Недоліки, переваги та ефективність методу опорних векторів. Програмні засоби реалізації. Алгоритми методу «найближчого сусіда». Переваги та недоліки методу «найближчого сусіда». Застосування методу. Теорема Байєса, особливості застосування. Варіанти інтерпретації ймовірностей у теоремі Байєса. Переваги байесовських мереж як методу Data Mining.

 

Аналіз багатовимірних угруповань

Поняття багатомірного угрупування. Розрахунок багатомірної середньої. Кластерний аналіз як спосіб багатомірної класифікації. Програмні засоби.

 

Статистична обробка часових рядів і прогнозування

Завдання аналізу часових рядів. Методи первісної обробки часових рядів. Методи аналізу часових рядів. Методи знаходження параметрів рівняння тренду. Метод найменших квадратів. Методика прогнозування. Екстраполяція тенденції як метод прогнозування. Передумови застосування екстраполяції. Метод середнього абсолютного приросту. Метод середнього темпу зростання. Визначення довірчих інтервалів прогнозу.

 

Класифікація об'єктів у випадку невідомих розподілень даних

Огляд непараметричних процедур. Непараметричні методи статистки. Непараметричні алгоритми класифікації множини випадкових величин. Програмна реалізація методів класифікації.

 

Методи оцінювання помилок класифікації

Задача оцінки якості роботи класифікаторів. Класичний підхід до оцінювання надійності алгоритму класифікації. Теорія Вапника-Червоненкіса. Аналітичні методи оцінювання. Частотний і байєсовський підходи до оцінювання характеристик розподілу випадкових спостережень.

 

Асоціаційні правила. Послідовне відображення шаблонів даних

Задача пошуку асоціаційних правил. Види асоціаційних правил. Характеристики асоціаційних правил. Шаблони даних. Методи пошуку асоціаційних правил.

 

Метод Apriori, побудова FP-дерев пошуку шаблонів даних

Алгоритм Аргіогі, побудова FP-дерев пошуку шаблонів даних, метод пошуку найбільш популярних шаблонів FP-growth, метод зменшення кількості наборів-кандидатів.

 

Min-max асоціації у базах даних

Min-max асоціації у базах даних. Прості, складні та умовні асоціації.

 

Побудова hash-дерев

Основні поняття про дерево Меркла. Правила обчислення кількості хешів на одному рівні. Побудова. Використання.

 

Розробка OLAP-кубів під час аналізу багатомірних даних у великих БД

Системи аналітичної обробки даних OLAP. Багатовимірні куби, визначення, властивості. Виміри куба. Ієрархії та рівні. Операції. Програмні реалізації.

 

Способи та методи візуального відображення даних

Функції візуальних інструментів Data Mining. Візуалізація моделей Data Mining. Представлення даних в одному, двох і трьох вимірах. Способи багатовимірного представлення інформації. Якість візуалізації. Основні тенденції в області візуалізації.

 

Методи, стадії, задачі Data Mining

Класифікація технологічних методів Data Mining. Властивості методів Data Mining. Класифікація стадій Data Mining. Задачі Data Mining: класифікація, кластеризація, прогнозування, асоціація, візуалізація, аналіз та виявлення відхилень, оцінювання, аналіз зв'язків, підведення підсумків.

 

Упровадження Data Mining, OLAP і сховищ даних у СППР

Призначення, структура СППР та їх класифікація. Концепція оперативної аналітичної обробки даних (On-Line Analytical Processing - OLAP). Способи зберігання даних в OLAP-системах (MOLAP, ROLAP, HOLAP). Порівняння різних моделей управління даними. Інтеграція OLAP і Data Mining. Основні поняття сховища даних та його переваги.

 

Процес Data Mining

Традиційний процес Data Mining (аналіз предметної області, постановка задачі; підготовка даних, побудова моделей, перевірка та оцінювання моделей, вибір моделі, застосування моделі, корекція та поновлення моделі). Типи моделей Data Mining.

 

Стандарти Data Mining

Методологія CRISP-DM. Методологія SEMMA. Стандарт зберігання і передачі моделей Data Mining - PMML. Стандарти уніфікації інтерфейсів - CWM Data Mining, JDM. Стандарт SQL/MM, OLE DB for Data Mining.

 

Інструменти Data Mining

Огляд ринку програмного забезпечення Data Mining. Інструменти класифікації, кластеризації та сегментації даних. Інструменти статистичного аналізу, аналізу текстів (Text Mining), виявлення відхилень (Information Retrieval (IR)). Інстументи візуалізації. Програмне забезпечення Data Mining для пошуку асоціативних правил. Програмне забезпечення Data Mining для розв'язку задач оцінювання і прогнозування.

 

Результати навчання за навчальною дисципліною:

знати:

  • основні поняття, визначення та проблеми курсу;
  • вимоги до постановки основних задач;
  • призначення та особливості застосування основних методів, а зокрема актуальність теорії прийняття рішень; моделі та методи прийняття рішень;
  • властивості бінарних відношень та механізми прийняття рішень;
  • сутність метризованих відношень й експертних оцінювань;
  • зміст теорії ігор та концепцію корисності та раціонального вибору;
  • основи побудови моделей вирішення проблемних ситуацій та методи їх оптимізації;
  • створення та користування системами автоматизованого прийняття рішень.

вміти:

  • класифікувати та вирішувати задачі з прийняття рішень;
  • застосовувати комп’ютерну техніку для прийняття рішень.

 

Види робіт: лекційні заняття, лабораторні роботи, модульні контрольні роботи.