Роздрукувати сторінку
Главная \ Методичні вказівки \ Методичні вказівки \ 1773 Методические рекомендации к лабораторной работе на тему Линейная регрессия с двумя переменными

Методические рекомендации к лабораторной работе на тему Линейная регрессия с двумя переменными

« Назад

Линейная регрессия с двумя переменными 

Пример 1. Имеем данные по 16 штатам США о заболеваемости в зависимости от средней годовой температуры (по Форенгейту) (см. рис. 1)

Рис. 1. Заболеваемости в зависимости от средней годовой температуры (по Форенгейту). 

Требуется:

  • Провести анализ регрессии и построить линию регрессии (линию прогноза).

  • Построить доверительные интервалы прогноза для среднего значения Y.

  • Провести проверку модели регрессии.

     

 Анализ регрессии и построение линии регрессии (линии прогноза) 

Вычисление параметров регрессии. 

  1. В Excel выбираем Сервис_Надстройки

  2. Установить флажок Пакет Анализа. 

Создание таблицы с параметрами регрессии 

  1. Выбираем рабочий листinitial_data файлаseminar_2.xls.

  2. Сервис-Анализ Данных.

  3. В диалоглвом окне выбираем Регрессия.

  4. В поле Входной интервал Y вводим диапазон ячеек C2:C17.

  5. В поле Входной интервал X вводим диапазон ячеек B2:B17.

  6. Поскольку первые ячейки содержат текстовые подписи установите флажок Метки.

  7. Выберите переключатель Новый рабочий лист и введите строку Параметры_регрессии.

  8. В разделе Остатки установите флажки всех четырех параметров (см рис. 2).

  9. ОК. 

Рис. 2. Диалоговое окно Регрессия. 

Получаем результат в виде четырех таблиц и двух диаграмм (см. рис.3).

Рис. 3. Результат выполнения команды Регрессия. 

Для дальнейшего анализа нам нужно заполнить следующую табличку: 

Таблица 1 

Коэффициенты регрессии b и a, стандартное отклонение коэффициента b, значение

t- статистики находим из таблицы  (см. рис.4).

Рис. 4. Таблица 3 Результат выполнения команды Регрессии.

Занесем эти значения в Таблицу 1

Коэффициент детерминации, стандартную ошибку оценки и значение числа переменных n находим из таблицы 1 Регресионная статистика. 

Занесем эти значения в Таблицу 1 

Выборочное среднее Xсредн определяется с помощью функции СРЗНАЧ():

где указаны адреса ячеек столбца переменных X на листе initial_data.

Значение t*-критическое находится по таблице t-распределения для 95% доверительного интервала при n-2=16-2=14 свободы:t*-критическое=2.180.

После занесения этих данных в Таблицу 1 окончательно получаем (см. рис. 5).

Таблица 1 

Рис. 5. Основные параметры регрессии. 

Проверка того, является ли связь между Y’ и X реальной или случайной. 

По данным Таблицы 1 запишем уравнение регрессии (линия прогнозирования)

Задача проверки того, является ли взаимосвязь (1) чистой случайностью или отражает реальную связь между X и У. Эта задача называется задачей проверки гипотез.

Нулевая гипотеза  утверждает, что между X и У никакой взаимосвязи нет и что выявленная нами взаимосвязь в данных — не что иное, как продукт случайного сочетания определенных пар значений X и У. Единственный вариант, когда в рамках линейной модели  Y не зависит от X имеет место лишь тогда, когда . В этом случае можно также сказать что X и У независимы  друг от друга.

Альтернативная (исследовательская) гипотеза  утверждает, что между X и У действительно существует взаимосвязь, которая не является случайностью. Это возможно тогда, когда , т.е. в линейной модели для У сохраняется составляющая, зависящая от X. Математическая запись этих гипотез имеет следующий вид.

Правило проверки гипотез. Если  то нулевая гипотеза отвергается и принимается альтернативная гипотеза .

В нашем случае t= 6.76 и  t*=2.18, следовательно, нулевая гипотеза отвергается. Принимается альтернативная гипотеза: с вероятностью 95% можно утверждать, что между Y  и X существует реальная взаимосвязь ().

Замечание. Можно сформулировать другие (эквивалентные) правила проверки гипотез.

Правило 2. Если в таблице 2(дисперсионный анализ) число Значимость F меньше 0.05, тонулевая гипотезаотвергаетсяи принимается альтернативная гипотеза.

Правило 3. Если в таблице 3 число P –значение, соответствующее сдвигу,меньше 0.05, тонулевая гипотезаотвергаетсяи принимается альтернативная гипотеза.

Построение линии регрессии и доверительных интервалов 

Построение точечной диаграммы и линии регрессии 

  1. Перейдем на листinitial_data.

  2. Вставка-Диаграмма

  3. В появившемся окне выберите Точечная и нажмите кнопку Готово.

  1. Кликните правой мышкой по полю диаграммы и в  выпавшем меню выберите Исходные данные

  1. В появившемся окне выберите опцию столбцах. Нажмите Ряд.

  1. В окне Ряд нажмите Добавить и заполните окно, как показано на рисунке. После чего нажмите ОК.

  1. Появится диаграмма.
  1. Уберите справа окно Легенда. Курсор на легенду. Правая мышка-Очистить.

  2. Поставьте курсор на надписи оси X и нажмите правую мышку. Формат оси-Шкала-Минимальное значение 30.

  3. Точно также выставьте на оси Y минимальное значение 40.

  4. В результате получаем

  1. Ставим мышку на одну из точек диаграммы. Нажимаем правую мышку. В выпавшем окне выбираем Добавить линию тренда.
  1. В выпавшем окне выбираем Линейная, а затем нажимаем кнопку Параметры.
  1. В окне Параметры выбираем две последние опции. ОК.

Окончательно получаем.

Рис. 6. Линия регрессии.

 

Построение доверительных интервалов для линии регрессии 

1. На листе initial_data введем заглавия новых пяти столбцов и для удобства перекопируем Таблицу 1 как значения (см. рис.7 )

Рис. 7. Подготовка исходной таблицы для расчета доверительных интервалов.

2. В ячейку D1 вносим формулу. 

3.  В ячейку E1 вносим формулу стандартного (среднего) значения Y при заданном значении Xo.

4. В ячейку F1 вносим  (т.е. вычисляем корень квадратный из ячейки E1).

5. В ячейку  G1 вносим нижнюю границу доверительного интервала

6. В ячейку H1  вносим верхнюю границу доверительного интервала

7. Выделяем ячейки D1-H1 и протягиваем до конца таблицы. 

Результат представлен на рисунке. 

Таблица данных для построения доверительных интервалов.

Нанесем доверительные интервалы на исходную диаграмму (см. рис. 8);

1) График Температура_ Интервал_нижний

2) График Температура_ Интервал_верхний

Рис. 8.  Линия регрессии и 95% доверительный интервал для прогнозных значений. 

Вывод: С вероятностью 95% можно утверждать, что прогнозируемые значения заболеваемости будут лежать в построенном интервале.

Проверка модели регрессии 

При анализе регрессии для заданного набора данных применимы следующие допущения: 

  • справедлива линейная модель;

  • ошибка  имеет нормальное распределение со средним 0;

  • ошибка имеет постоянную дисперсию;

  • ошибки не зависят друг от друга.   

Эти допущения следует использовать всегда при подгонке прямой линии к данным. 

При этом не следует забывать: статистическая значимость регрессии не является доказательством того, что эти допущения не нарушаются. Для проверки справедливости этих допущений нужно выполнить ряд диагностических тестов.

 

Проверка допущения о линейности 

Достаточно взглянуть на Диаграмму на рис 6, чтобы убедиться, что все точки примерно соответствуют линии регрессии.

 

Проверка соответствия остатков нормальному распределению 

Чтобы убедиться в том, что остатки удовлетворяют нормальному распределению, используем модуль StatPlus.

1. Вернитесь к рабочему листу Параметры_регрессии.

2. Выберите команду меню StatPlus-Single Variable Charts-Normal P-plots.

3. В диалоговом окне Create Normal Probability Plot щелкните на кнопке Data Values.

4. В диалоговом окне Input Options выберите переключатель Use Range References и укажите диапазон ячеек С25:С40 в столбце Остатки таблицы Вывод остатка. Установите флажок Range includes a row of column labels и щелкните на кнопке ОК.

5. В окне Choose output type берите Static.

6. Щелкните на кнопке Output, затем в диалоговом окне Output Options выберите переключатель As a New Chart Sheet и укажите имя нового листа График норм,  распределения. Щелкните на кнопке ОК.

7. Щелкните на кнопке ОК.

Рис. 9.  Диаграмма вероятностей нормального распределения остатков 

Как видно из диаграммы рис. 9 остатки имеют приближенно нормальное распределение.

 

Проверка постоянства дисперсии 

Диаграмма Температура_График_Остатков уже имеется на листе Параметры_регрессии.

Для лучшей обозримости переместим этот файл на отдельный лист.

  1. Поместите курсор на диаграмме Температура_График_Остатков

  2. Нажмите праву мышку ив выпавшем окне выберите Размещение 

  1. В окне наберите Отдельном и название листа Остатки_температура. ОК.

Результат выглядит следующим образом.

Рис. 10.  Диаграмма остатков как функция температуры. 

Как видно из рис. 10 Дисперсия остатков различна и лишь приближенно можно считать, поверка модели по этому критерию успешна.

З повагою ІЦ "KURSOVIKS"!