Главная \ Методичні вказівки \ Методичні вказівки \ 1634 Практична робота 3 на тему Багатофакторна регресія

Практична робота 3 на тему Багатофакторна регресія

« Назад

Практична робота №3

Багатофакторна регресія

Відкриємо файл Job_prof.sta (див. рис. 7.1). У файлі вказано бали, отримані претендентами під час тестування при прийнятті на посаду (у перших чотирьох стовпцях), та оцінка професійної здатності претендентів (у п’ятому стовпці) після закінчення випробувального терміна. Нам потрібно знайти лінійну багатофакторну регресійну модель залежності оцінки професійної здатності від оцінок за тести. Завантажимо модуль Multiple Regression: Statistics -> Multiple Regression.

Натиснувши Variables, обираємо Job-Prof, як залежну змінну, а як незалежні змінні вибираємо перші чотири змінні (див. рис. 7.2). Двічі натискаємо ОK. Результати регресійного аналізу зображені на рисунку 7.3. Всі змінні, окрім другої, є значимими (виділені червоним).

У закладці Quick натиснемо Summary: Regression result (див. рис. 7.3). У вікні, що з’явилось (див. рис. 7.4), бачимо результати аналізу: у третьому стовпці – коефіцієнти багатофакторної лінійної регресійної моделі, а в першому стовпці – коефіцієнти цієї ж регресійної моделі для стандартизованих змінних.

Проаналізувавши результати прийдемо до висновку, що Test 2 досить мало впливає на оцінку професійної здатності претендентів: відповідний коефіцієнт у першому стовбці становить 0,043. Тому можливо є доречним взагалі вилучити Test 2 з регресійної моделі.

Проведемо спочатку аналіз залишків побудованої моделі. У закладці Residuals/assumptions/prediction, натиснемо кнопку Perform residual analysis. У вікні, що з’явилось, обираємо Residuals -> Casewise plot of residuals (див. рис. 7.5).

Так ми перевіримо, чи не виходять залишки за межі 3δ. Отримаємо таблицю (див. рис. 7.6), в якій знаком «*» вказано де знаходиться залишок у інтервалі (-3δ; 3δ). У правій частині таблиці міститься додаткова інформація про залишки.

Бачимо, що залишки лежать у проміжку (-2δ; 2δ) і їхні середнє і медіана дорівнюють нулю.

Потім оберемо закладку Outliers (див. рис. 7.7). Натиснемо Casewise plot outliers та упевнимося, що викидів немає – з’явиться відповідне повідомлення (див. рис. 7.8).

На основі цих результатів можна вважати, що багатофакторна регресійна модель достатньо добре описує наші дані.

Цікаво дослідити, що відбудеться, якщо вилучити змінну Test 2, яка досить мало впливає на оцінку професійної здатності претендентів, з регресійної моделі. Розглянемо, як автоматизовано процес знаходження змінних, які дають малий внесок у регресійну модель, у пакеті Statistica.

У вікні Multiple Regression у закладці Advanced відмітимо Advanced options (stepwise or ridge regression) та натиснемо OK (див. рис. 7.9).

У закладці Stepwise вкажемо метод Forward stepwise – змінні будуть введені у регресійну модель по одній. У Display results вкажемо покроковий вивід результатів – At each step (див. рис. 7.10). Тобто ми будемо здійснювати покрокову регресію, з виводом результатів після кожного кроку. У полі F to enter вказуємо значення 1, а у полі F to remove вказуємо 0.01. Ці два числа визначають верхню та нижню межі проміжку для значимості внеску у регресійну модель змінних. Якщо значимість змінної потрапляє в цей проміжок, то включаємо її до регресійної моделі, інакше – відкидаємо.

Оскільки маємо чотири незалежні змінні, то кількість кроків множинної регресії Number of steps досить вказати рівною чотирьом (після кожного кроку до моделі може включатись не більше однієї змінної). Натискаємо кнопку OK.

У вікні, що з’явилось, бачимо, що в моделі ще немає жодної змінної (див. рис. 7.11). Натискаємо Next. З’явився перший коефіцієнт та перша, вибрана до рівняння регресії змінна (див. рис. 7.12). Натискаємо кнопку Next, допоки на цій кнопці не з’явиться напис ОК. Це означатиме, що процедуру вибору змінних до регресійної моделі закінчено і всі змінні значимість внеску яких знаходиться у вказаних межах увійшли до рівняння регресії. Бачимо, що змінна Test 2 не увійшла у нову багатофакторну регресійну модель (див. рис. 7.13).

Далі можемо подивитися результати. Для цього натиснемо на закладці Advanced, кнопку Stepwise Regression Summary (див. рис. 7.14). У вікні, що з’явилось (див. рис. 7.15), бачимо, статистику внеску обраних змінних і порядок включення їх у регресійну модель. Якщо натиснемо на закладці Advanced, кнопку Summary: Regression results (див. рис. 7.14), то у вікні, що з’явилось (див. рис. 7.16), побачимо з якими коефіцієнтами змінні увійшли до регресійної моделі.

Використовуючи отриману інформацію (рис. 7.15 і 7.16) можемо порівняти стару і нову регресійну моделі. Бачимо, що вони майже не відрізняються. Отже, внесок змінної Test 2 дійсно був незначним.

Якщо є мультиколінеарність змінних (наприклад, в кількох стовпцях містяться дані про ціну одного і того ж товару в різних валютах), то очевидно, що для регресійної моделі слід взяти не всі із таких змінних.

Якщо для обробки таблиці мультиколінеарних даних так як і раніше скористатися стандартним алгоритмом, то з’явиться повідомлення про помилку (див. рис. 7.17).

У цьому разі для регресійного аналізу потрібно вибирати метод Forward stepwise (який дозволяє вводити у модель по одній змінній), а не Standard.

Конторольні запитання

На рис. 7.4. представлені результати аналізу. Яким чином з рисунка можна визначити які змінні несуттєво впливають на регресійну модель?
На основі яких результатів можна вважати, що багатофакторна регресійна модель достатньо добре описує дані?
Скільки незалежних змінних розглядається в прикладі Job_prof.sta ?
Наведіть приклад мультиколінеарності змінних.

З повагою ІЦ "KURSOVIKS"!