Методические рекомендации к лабораторной работе на тему Линейная регрессия с двумя переменными
« Назад Линейная регрессия с двумя переменными Пример 1. Имеем данные по 16 штатам США о заболеваемости в зависимости от средней годовой температуры (по Форенгейту) (см. рис. 1) Рис. 1. Заболеваемости в зависимости от средней годовой температуры (по Форенгейту). Требуется:
Анализ регрессии и построение линии регрессии (линии прогноза) Вычисление параметров регрессии.
Создание таблицы с параметрами регрессии
Рис. 2. Диалоговое окно Регрессия. Получаем результат в виде четырех таблиц и двух диаграмм (см. рис.3). Рис. 3. Результат выполнения команды Регрессия. Для дальнейшего анализа нам нужно заполнить следующую табличку: Таблица 1 Коэффициенты регрессии b и a, стандартное отклонение коэффициента b, значение t- статистики находим из таблицы (см. рис.4). Рис. 4. Таблица 3 Результат выполнения команды Регрессии. Занесем эти значения в Таблицу 1 Коэффициент детерминации, стандартную ошибку оценки и значение числа переменных n находим из таблицы 1 Регресионная статистика. Занесем эти значения в Таблицу 1 Выборочное среднее Xсредн определяется с помощью функции СРЗНАЧ(): где указаны адреса ячеек столбца переменных X на листе initial_data. Значение t*-критическое находится по таблице t-распределения для 95% доверительного интервала при n-2=16-2=14 свободы:t*-критическое=2.180. После занесения этих данных в Таблицу 1 окончательно получаем (см. рис. 5). Таблица 1 Рис. 5. Основные параметры регрессии. Проверка того, является ли связь между Y’ и X реальной или случайной. По данным Таблицы 1 запишем уравнение регрессии (линия прогнозирования) Задача проверки того, является ли взаимосвязь (1) чистой случайностью или отражает реальную связь между X и У. Эта задача называется задачей проверки гипотез. Нулевая гипотеза утверждает, что между X и У никакой взаимосвязи нет и что выявленная нами взаимосвязь в данных — не что иное, как продукт случайного сочетания определенных пар значений X и У. Единственный вариант, когда в рамках линейной модели Y не зависит от X имеет место лишь тогда, когда . В этом случае можно также сказать что X и У независимы друг от друга. Альтернативная (исследовательская) гипотеза утверждает, что между X и У действительно существует взаимосвязь, которая не является случайностью. Это возможно тогда, когда , т.е. в линейной модели для У сохраняется составляющая, зависящая от X. Математическая запись этих гипотез имеет следующий вид. Правило проверки гипотез. Если то нулевая гипотеза отвергается и принимается альтернативная гипотеза . В нашем случае t= 6.76 и t*=2.18, следовательно, нулевая гипотеза отвергается. Принимается альтернативная гипотеза: с вероятностью 95% можно утверждать, что между Y и X существует реальная взаимосвязь (). Замечание. Можно сформулировать другие (эквивалентные) правила проверки гипотез. Правило 2. Если в таблице 2(дисперсионный анализ) число Значимость F меньше 0.05, тонулевая гипотезаотвергаетсяи принимается альтернативная гипотеза. Правило 3. Если в таблице 3 число P –значение, соответствующее сдвигу,меньше 0.05, тонулевая гипотезаотвергаетсяи принимается альтернативная гипотеза. Построение линии регрессии и доверительных интервалов Построение точечной диаграммы и линии регрессии
Окончательно получаем. Рис. 6. Линия регрессии.
Построение доверительных интервалов для линии регрессии 1. На листе initial_data введем заглавия новых пяти столбцов и для удобства перекопируем Таблицу 1 как значения (см. рис.7 ) Рис. 7. Подготовка исходной таблицы для расчета доверительных интервалов. 2. В ячейку D1 вносим формулу. 3. В ячейку E1 вносим формулу стандартного (среднего) значения Y при заданном значении Xo. 4. В ячейку F1 вносим (т.е. вычисляем корень квадратный из ячейки E1). 5. В ячейку G1 вносим нижнюю границу доверительного интервала 6. В ячейку H1 вносим верхнюю границу доверительного интервала 7. Выделяем ячейки D1-H1 и протягиваем до конца таблицы. Результат представлен на рисунке. Таблица данных для построения доверительных интервалов. Нанесем доверительные интервалы на исходную диаграмму (см. рис. 8); 1) График Температура_ Интервал_нижний 2) График Температура_ Интервал_верхний Рис. 8. Линия регрессии и 95% доверительный интервал для прогнозных значений. Вывод: С вероятностью 95% можно утверждать, что прогнозируемые значения заболеваемости будут лежать в построенном интервале. Проверка модели регрессии При анализе регрессии для заданного набора данных применимы следующие допущения:
Эти допущения следует использовать всегда при подгонке прямой линии к данным. При этом не следует забывать: статистическая значимость регрессии не является доказательством того, что эти допущения не нарушаются. Для проверки справедливости этих допущений нужно выполнить ряд диагностических тестов.
Проверка допущения о линейности Достаточно взглянуть на Диаграмму на рис 6, чтобы убедиться, что все точки примерно соответствуют линии регрессии.
Проверка соответствия остатков нормальному распределению Чтобы убедиться в том, что остатки удовлетворяют нормальному распределению, используем модуль StatPlus. 1. Вернитесь к рабочему листу Параметры_регрессии. 2. Выберите команду меню StatPlus-Single Variable Charts-Normal P-plots. 3. В диалоговом окне Create Normal Probability Plot щелкните на кнопке Data Values. 4. В диалоговом окне Input Options выберите переключатель Use Range References и укажите диапазон ячеек С25:С40 в столбце Остатки таблицы Вывод остатка. Установите флажок Range includes a row of column labels и щелкните на кнопке ОК. 5. В окне Choose output type берите Static. 6. Щелкните на кнопке Output, затем в диалоговом окне Output Options выберите переключатель As a New Chart Sheet и укажите имя нового листа График норм, распределения. Щелкните на кнопке ОК. 7. Щелкните на кнопке ОК. Рис. 9. Диаграмма вероятностей нормального распределения остатков Как видно из диаграммы рис. 9 остатки имеют приближенно нормальное распределение.
Проверка постоянства дисперсии Диаграмма Температура_График_Остатков уже имеется на листе Параметры_регрессии. Для лучшей обозримости переместим этот файл на отдельный лист.
Результат выглядит следующим образом. Рис. 10. Диаграмма остатков как функция температуры. Как видно из рис. 10 Дисперсия остатков различна и лишь приближенно можно считать, поверка модели по этому критерию успешна. З повагою ІЦ "KURSOVIKS"! |