Методические рекомендации к лабораторной работе на тему Множественная регрессия
« Назад
Множественная регрессия Пример 1 В качестве примера множественной регрессии рассмотрим данные из файла Оценки. xls, которые были собраны для изучения зависимости успеваемости первокурсников от разных предикторов (см. рис. 1), которые содержит данные об успеваемости первокурсников по математическому анализу в зависимости от разных предикатов. Таблица 1 Переменные рабочей книги оценки.xls
Рис. 1. Данные об успеваемости первокурсников. Требуется:
Анализ регрессии и построение линии регрессии (линии прогноза) Вычисление параметров регрессии Упражнение 1 1. Откройте рабочую книгу Оценки.xls , которая находится в каталоге Примеры. 2. Выберите команду Файл-Сохранить как ОценкиЗ .xls.
Создание таблицы с параметрами регрессии Множественная регрессия дает представление о точности предикторов при их совместном использовании. В данном примере используется следующая модель множественной регрессии: оценка = + (Исчисление_в_школе) + (ACT) + (Алгебра_поступление) + +(Алгебра_2год) + (Ранг) + (Код_пола) + . Чтобы выполнить анализ множественной регрессии, следует прибегнуть к команде Регрессия модуля Пакет анализа. Для использования которой нужно применять непрерывные диапазоны. В качестве предикторов следует использовать столбцы А, В, С, D, Е и G, поэтому для соблюдения условия непрерывности диапазона нужно переместить данные из столбца G в столбец F. Упражнение 2. Анализ множественной регрессии оценки за первый семестр на основе переменных Исчисление_в_школе (Calc_HS), ACT (ACT_Math), Алгебра_поступление (Alg„Place), Алгебра„2год (Alg2„Grade), Ранг (HS_Rank) и Код_пола (Gender_code) . 1. Выберите команду меню Сервис-Анализ данных, затем элемент Регрессия в окне Анализ данных и щелкните на ОК. 2. В появившемся окне Регрессия введите диапазон H1:H81 в поле Входной интервал Y нажмите клавишу <Таb>, а затем введите диапазон Al: F81 в поле Входной интервал X. 3. Установите флажки Метки и Уровень надежности, а затем введите значение 95 в текстовом поле справа. 4. Выберите переключатель Новый рабочий лист, а затем введите значение Множественная регрессия в текстовом поле справа. 5. В разделе Остатки установите флажки Остатки, Стандартизованные остатки, График остатков и График подбора. После выполнения этих действий диалоговое окно Регрессия будет выглядеть так, как на рис. 1. 6. Щелкните на кнопке ОК. Excel создаст новый рабочий лист Множественная регрессия с итоговыми параметрами регрессии и диаграммой остатков. Рис. 2. Окончательный вид диалогового окна Регрессия Получаем результат в виде 4 таблиц и 12 диаграмм (см. рис.3). Рис. 3. Результат выполнения команды Регрессия.
Интерпретация итоговых параметров регрессии Для интерпретации итоговых параметров регрессии рассмотрим сначала таблицу 2 Дисперсионный анализ (ANOVA), которая находится в ячейках A10:F14. В таблице анализа дисперсии содержится информация о статистической значимости подогнанной модели регрессии. Дисперсионный анализ основывается на следующих гипотезах: ■ нулевая гипотеза: коэффициенты регрессии для всех шести предикторов равны 0; ■ альтернативная гипотеза по крайней мере один из шести коэффициентов регрессии не равен 0. В данном примере следует сконцентрироваться только на F-отношении и р-значении (Значимость F), которые определяют статистическую значимость регрессии. F-отношение очень велико (а р-значение мало) в том случае, когда изменчивость зависимой переменной в основном объясняется изменчивостью независимой переменной. Наоборот, F-отношение очень мало в том случае, когда изменчивость зависимой переменной объясняется случайностью (которая оценивается остатками модели), а не изменчивостью независимой переменной Значимость нулевой гипотезы может быть проверена двумя способами. 1 способ. В ячейке Е12 приводится значение 7,197 для F-отношения. Для проверки нулевой гипотезы нужно сравнить вычисленное значение F-отношения с критическим значением F*. Для получения визуального представления этой гипотезы следует использовать рабочий лист F-распределения из рабочей книги Распределения. xls и отобразить в нем распределение F (6,73)(значения 6 и 73- это первые два элемента столбца df таблицы Дисперсионный анализ). Так как, то нулевую гипотезу следует отвергнуть и принять альтернативную. 2 способ. В столбце Значимость F в ячейке F12 приводится р-значение0.0000047, которое представляет вероятность того, что критическое значение F* имеет значение 7,197 или больше. Эта вероятность гораздо ниже 0,05, т.е. регрессия имеет статистическую значимость на уровне 5%. Иными словами, нулевую гипотезу можно отвергнуть на уровне статистической значимости 5% и принять альтернативную гипотезу о том, что по крайней мере, один из коэффициентов регрессии не равен нулю. Если F-отношение не имеет достаточную статистическую значимость, то нет смысла интересоваться остальными результатами анализа.
Множественная корреляция На рис. 3 показана таблица со статистическими параметрами регрессии, которые располагаются в диапазоне ячеек А3:В8. Рис. 4. Таблица со статистическими параметрами регрессии В ячейке В5 находится значение 0,372 параметра Множественный R , т.е. коэффициент, который рассматривается в предыдущей главе. Это значит, что 37% изменчивости оценок по математике за первый семестр можно приписать регрессии. Это значение может показаться очень низким, но, к сожалению, многие предсказания делаются на основании крайне слабой связи с предикторами. В ячейке В4 находится значение 0,610 параметра Множественный R , т.е. квадратный корень параметра, который также называется коэффициентом множественной корреляции). Он описывает корреляцию между предсказываемой переменной, т.е. оценкой по математике после первого семестра, и линейной комбинацией предикторов. В ячейке В6 находится значение 0,320 параметра Нормированный R-квадрат, подогнанное значение для нескольких предикторов. Его удобнее использовать вместо не подогнанного значения, так как последнее увеличивается или остается прежним при увеличении числа предикторов в модели. В ячейке В7 находится значение =9.430 параметра Стандартная ошибка, т.е. оценка стандартного отклонения ошибки.
Коэффициенты и предсказанное уравнение регрессии Итак, нам известно, что данная модель регрессии статистически значима и объясняет около 37% изменчивости оценки по математике после первого семестра. Как выглядит уравнение регрессии и какие предикторы имеют наибольшую статистическую значимость? На рис. 4 параметры уравнения регрессии показаны в ячейках А16:123, а имена предикторов — в первом столбце. Рис. 5. Оценки параметров уравнения регрессии и р-значения В столбце Коэффициенты в ячейках В16:В23 находятся оценки коэффициентов уравнения регрессии. Соответствующее предсказанное уравнение регрессии имеет вид Оценка = 27.943 + 7.192 (Исчисление_в_школе) + 0.352 (ACT) + 0.827 (Алгебра_поступление) +3.б83(Алгебра_2год) + 0.111 (Ранг) + 2.627(Код_пола). Коэффициент перед каждой переменной показывает изменение оценки по математике за первый семестр при изменении переменной на 1, если другие переменные остаются неизменными. Например, коэффициент 0,352 перед переменной ACT означает, что оценка по математике за первый семестр увеличивается на 0,352 при изменении переменной ACT на 1, если другие переменные остаются неизменными. Некоторые переменные, например в данном случае Исчисление_в_школе, могут иметь значение 0 или 1, что соответствует отсутствию или наличию курса исчисления в школьной программе. Коэффициент 7,192 перед переменной Исчисление_в_школе обозначает степень ее влияния на оценку по математике за первый семестр, если другие переменные остаются неизменными. С помощью коэффициентов уравнения регрессии можно предсказать оценку по математике за первый семестр, зная базовые сведения об успеваемости студента. Допустим, что студент не учил исчисление в школе, получил оценку 30 по экзамену ACT, оценку 23 по алгебре в школе, оценку 4,0 по алгебре на втором году ее изучения в школе, а также имел успеваемость выше 90% своих сверстников в школе. В таком случае его оценку можно предсказать с помощью уравнения оценка = 27.943 + 7.192(0) + 0.352(30) + 0.827(23) + +3.683(4.0)+ 0.111 (90)+ 2.627(1) = 74.87 = 75. Обратите внимание: коэффициент перед переменной Код_пола равен 2,627, что означает степень влияния полового признака на оценку по математике за первый семестр, если другие переменные остаются неизменными. Поскольку мужской пол обозначается 1, а женский — 0, тогда, если модель регрессии верна, студент может получить оценку на 2,627 балла выше студентки при равных значениях прочих предикторов.
Доверительные интервалы для линии прогноза (регрессии) Если выполнены допущения регрессии, то при доверительном уровене 0,05, то с вероятностью (1-)=0,95 можно утверждать, что функция находится в интервале к - число независимых переменных n - число записей в выборке -стандартная ошибка, -матрица коэффициентов из уравнения, где - неизвестный вектор коэффициентов регрессии, - заданный вектор предикторов, для которых вычисляется прогноз. Ввиду сложности проверки выполнимости допущений множественной регрессии в данной лабораторной работе доверительные интервалы для линии регрессии не строятся.
Уменьшение числа переменных в уравнении множественной регрессии Еще раз обратимся к таблице 3 на листе Параметры регрессии. P-значение коэффициента Исчисление в школе меньше 0.05, это значит этот коэффициент значимый (другими словами, это вероятность того, что t-статистика, равная в данном случае 2.4882, меньше чем критическое значение статистики t* ). Значимым также является коэффициент Алгебра при поступлении. Остальные коэффициенты (кроме сдвига) являются незначимыми. В таком случае появляется искушение удалить все переменные, которые не имеют достаточной статистической значимости. Учтите, что отдельные тесты могут быть взаимосвязаны и удаление одной переменной может привести к изменению значимости связанных с ней переменных.. В нашем случае уравнение множественной регрессии примет вид. оценка = + (Исчисление_в_школе) (Алгебра_поступление) +. Чтобы проверить правомерность такого подхода, будем исходить из данных ( лист Новые_ данные) Для новых данных постоим таблицу параметров регрессии (лист Новая_регрессия) В таблице приведено сравнение двух регрессий по основным показателям.
Выводы: Обе регрессии состоятельны; Значимость коэффициентов обеих регрессии не изменилась; Уменьшение основных характеристик регрессии с отбрасыванием незначимых переменных незначительно. Переход к укороченной регрессии оправдан.
Проверка допущений регрессии Здесь рассматриваются четыре основных диаграммы, которые используются для оценки успеха регрессии. 1. Диаграмма зависимой от предикторов переменной с отображением соответствия линии регрессии и данных. 2. Диаграмма остатков от предикторов с отображением вертикального разброса данных, что также позволяет проверить обоснованность допущений модели. Искривленная форма распределения остатков свидетельствует о несоответствии выбранной модели и данных. Если вертикальный разброс шире на одной стороне диаграммы, то предполагается, что дисперсия не является постоянной. 3. Диаграмма остатков от отдельных предикторов, которая позволяет легко обнаружить проблемы, не очевидные на диаграмме остатков от предикторов. 4. Диаграмма плотности вероятности остатков, которая позволяет оценить обоснованность допущений о нормальном распределении остатков в данной модели регрессии.
Наблюдаемые и предсказываемые значения Упражнение 3. Создание диаграммы наблюдаемых и предсказываемых значений. 1. В рабочем листе Множественная регрессия выберите диапазон В29:В109 и щелкните на кнопке Копировать в стандартной панели инструментов. 2. Выберите рабочий лист Днные об оценках. 3. Выберите диапазон Н1:Н81, а затем выберите команду меню Вставка- Скопированные ячейки для вставки предсказываемых значений в столбец H. 4. В появившемся диалоговом окне Вставка скопированных ячеек выберите переключатель Добавить диапазон со сдвигом вправо ) для смещения наблюдаемых оценок в столбец I и щелкните на кнопке ОК. После выполнения этих действий предсказываемые значения появятся в столбце H. Далее по столбцам H и I стандартным образом строится диаграмма Предсказание наблюдение, как показано на рисунке. Из рисунка видно, что разброс наблюдаемых значений меньше для более высоких значений предсказываемой оценки. Это является нарушением третьего допущения регрессии, в котором говорится о постоянной величине разброса ошибки. Диаграмма остатков и предсказываемых значений
Диаграмма остатков и предсказываемых значений Эта диаграмма дает иное представление о разбросе, поскольку остатки являются разностями между фактическими и предсказываемыми значениями оценки. Упражнение 4. Создание диаграммы остатков и предсказываемых значений. 1. Выберите рабочий лист Множественная регрессия с итоговыми параметрами регрессии и диаграммой остатков. 2. Стандартным образом постройте диаграмму для переменных Предсказанная оценка-Остатки. Должна получится диаграмма вида Эта диаграмма очень полезна для проверки допущений регрессии. Например, в первом допущении регрессии говорится о правильности формы модели, т.е. при нарушении данного предположения появится искривленная форма модели. Как видите, данная модель не имеет искривленной формы. Если предположение о постоянстве дисперсии не удовлетворяется, то это должно быть очевидным на рисунке выше. Обратите внимание на склонность к вертикальному разбросу данных: не расширяется ли разброс по мере увеличения предсказываемых значений? На самом деле по мере увеличения предсказываемых значений разброс уменьшается, и это вызывает сомнения в справедливости регрессии, хотя регрессия обладает устойчивостью по отношению к предположению о постоянстве дисперсии.
Диаграммы остатков и предикторов Эти диаграммы (в числе 12 штук) имеют большое значение, потому что кривая зависимости остатков от какого-то отдельного предиктора может демонстрировать, что дисперсия не является постоянной. Как известно, такие диаграммы создаются автоматически с помощью команды Регрессия модуля Пакет анализа. Упражнение 5. Просмотр отдельных диаграмм. 1. Выберите рабочий лист Множественная регрессия с итоговыми параметрами регрессии. Созданные отдельные диаграммы располагаются в ячейках L5—Q14. Эти диаграммы располагаются уступом с отображением названия каждой из них. После щелчка на заголовке диаграмма отображается на переднем плане. Однако малый размер диаграммы не позволяет просматривать детали. Для перемещения диаграммы в отдельный лист диаграммы выполните перечисленные ниже действия. 1. Выделите диаграмму Алгебра при поступлении График остатков, которая находится в диапазоне L5:Q14. 2. Выберите команду Диаграмма-Размещение. 3. В появившемся диалоговом окне Размещение диаграммы выберите переключатель отдельном, введите строку График остатков Алгебра_поступл в текстовом поле справа и щелкните на кнопке ОК. После этого диаграмма будет размещена на отдельном листе. Рис. 6. Диаграмма остатков как функция оценки по алгебре во время поступления Остается ли постоянным разброс остатков для разных значений оценки по алгебре во время поступления? Похоже, что разброс больше для меньших значений оценки по алгебре. Вероятно, для проверки предположения о том, что дисперсия является постоянной, придется выполнить специальное преобразование на основе арксинуса. Нормальные ошибки и нормальная диаграмма Как проверить, является ли распределение ошибок нормальным? Обычно при отсутствии нормального распределения ошибок экстремальные ошибки появляются на диаграмме остатков как функции предсказываемых значений. В данном примере величины остатков не превышают 25 по абсолютной величине, как показано на рис. 6. Насколько велики остатки, если ошибки удовлетворяют нормальному распределению? Ответ на этот вопрос можно получить с помощью диаграммы плотности вероятностей остатков. Упражнение 6. Создания диаграммы плотности вероятностей нормального распределения остатков. 1. Вернитесь к рабочему листу Множественная регрессия. 2. Выберите команду меню StatPlus-Single Variable Charts-Normai P-plots. 3. В диалоговом окне Create Normal Probability Plot щелкните на кнопке Data Values. Затем в диалоговом окне Input Options выберите переключатель Use Range References и укажите диапазон ячеек С29:С109. Щелкните на кнопке ОК. 4. Щелкните на кнопке Output, затем в диалоговом окне Output Options выберите переключатель As a New Chart Sheet и укажите имя нового листа Диаграмма_норм_ распр_остатков . Щелкните на кнопке ОК. 5. Щелкните на кнопке ОК. В результате получаем. Рис. 7. Диаграмма вероятностей нормального распределения остатков Как видите, точки диаграммы располагаются практически на одной линии без экстремальных значений (в верхнем правом и нижнем левом углах диаграммы). Таким образом, предположение о нормальном распределении подтверждается.
Заключительные замечания Какие основные выводы можно сделать об итоговых оценках по исчислению по окончании первого курса после выполнения анализа регрессии, анализа остатков и создания диаграмм? Как видите, значение =0,37 и подогнанное значение = 0,320 , поэтому регрессия только на треть объясняет изменчивость итоговых оценок после первого курса. Этот вывод может разочаровать, так как в анализе учитывалось несколько параметров на основе прежних оценок, наличия базовых знаний об исчислении и т.п. Дело в том, что только оценка по алгебре и наличие курса исчисления в средней школе имеют статистическую значимость. Эти заключения остаются в силе, хотя предположение о том, что дисперсия является постоянной, несколько проблематично. Сохраните и закройте файл З повагою ІЦ "KURSOVIKS"! |