Контрольна робота на тему Статистична обробка результатів вимірювань програмного забезпечення
« НазадКонтрольна роботана тему Статистична обробка результатів вимірювань програмного забезпеченняМета роботи: Навчитися будувати закони розподілів метрик, визначати відхилення від оптимальних значень та їх причини, навчитися будувати залежності між метриками програмного забезпечення. Завдання:
ТЕОРЕТИЧНІ ВІДОМОСТІСтатистичний аналіз, який виконується з метою визначення залежностей між метриками, складається з трьох етапів: первинний статистичний аналіз, кореляційний аналіз та регресійний аналіз Схема побудови залежностей між метриками представлена на рис. 1. Рис. 1 Схема побудови залежностей Первинний статистичний аналіз метрик та експертних оцінокМетою первинного статистичного аналізу являється визначення закону розподілу випадкової величини, точніше визначення відповіді на питання „Чи є даний закон розподілу випадкової величини нормальним?”. На етапі первинного статистичного аналізу відбувається дослідження вхідних статистичних даних. Спочатку аналізуються метрики, отримані в результаті вимірювання набору програм, далі експертні оцінки, що зробили експерти для цього ж набору програм. В ході дослідження спочатку виявляється графічний вигляд (гістограма) закону розподілу. Після побудови гістограми за її виглядом можна відсіяти частину метрик, які мають багатомодальний вигляд, так як статистичний аналіз залежностей побудований на дослідженні унімодальних законів розподілу. Для уточнення законів розподілу визначаються статистичні характеристики, такі як математичне сподівання, середнє квадратичне відхилення, коефіцієнти асиметрії та ексцесу. Наступним етапом є визначення математичного сподівання – ключової величини в аналізі. На основі значень математичного сподівання проводиться видалення аномальних явищ (відхилень), при якому за допомогою квантилів розподілу Стьюдента визначаються „грубі” значення, тобто такі значення, які не потрапляють під заданий закон розподілу, і значно віддалені від математичного сподівання. Після видалення аномальних явищ проводяться обчислення коефіцієнтів асиметрії та ексцесу. Оскільки метою цього етапу є визначення „нормальності” розподілу, то досліджується даний закон розподілу на симетричність. Для цього всі статистичні характеристики обчислюються у зсуненому та в незсуненому виглядах. Зсунені дані являють собою обчислені результати вимірів, незсунені – теоретичні значення, які повинні приймати характеристики при „нормальності” розподілу. Далі проводиться інтервальне оцінювання параметрів. Якщо значення статистичної характеристики не потрапляє в заданий інтервал робиться висновок, що метрика (експертна оцінка) не має нормального розподілу. Для всіх метрик та експертних оцінок, які пройшли попередній етап проводиться порівняння коефіцієнтів асиметрії та ексцесу із заданим теоретично нормальним. Після цього на основі гістограм та висновків аналізу числових характеристик робиться висновок про „нормальність” закону розподілу величини. Кінцевою метою первинного статистичного аналізу є визначення, чи належить побудований закон до нормального. Причиною цього є те, що подальший аналіз базується на перевірці на „нормальність” закону розподілу, тобто кожний з наступних етапів починається цією перевіркою, і в залежності від відповіді застосовуються різні методи обчислень. Кореляційний аналіз пар „метрика – експертна оцінка”На етапі кореляційного аналізу визначається, чи існує залежність між певними метриками та експертними оцінками, чи її немає. Якщо залежність існує, то проводиться первинна обробка даних для визначення довірчої ймовірності та виду залежності. В іншому випадку робиться висновок про відсутність залежності. Цей етап проводиться наступним чином. Спочатку за визначеними раніше законами розподілу всі метрики та експерті оцінки класифікуються на ті, що мають нормальний розподіл, і ті, що його не мають. Для пар „метрика – експертна оцінка”, які мають нормальний закон розподілу, проводиться просте визначення коефіцієнту кореляції та його оцінка. При коефіцієнті кореляції рівному 0, ніякого зв’язку в парі немає. Якщо коефіцієнт кореляції знаходиться між -1 і 1, присутній лінійний регресійний зв’язок. Якщо ж коефіцієнт кореляції рівний 1, то має місце функціональний зв’язок. Далі проводиться визначення значущості коефіцієнта кореляції (висувається гіпотеза, що коефіцієнт кореляції рівний 0), при якому використовується t – тест на основі статистичної характеристики, яка має t – розподіл Стьюдента. Якщо дане значення значущості менше, ніж задане табличне, ця пара відсіюється з подальших досліджень. У випадку значущості проводиться дослідження на довірчі інтервали. При потраплянні коефіцієнту в довірчі інтервали можна зробити висновок про те, що дана метрика і експертна оцінка мають лінійну регресійну залежність. В іншому випадку вони відсіюються. Для пар „метрика – експертна оцінка”, які не мають нормального закон розподілу, проводиться парна рангова кореляція. Суть парної рангової кореляції заключається в порівнянні не самих значень величин, чи їх статистичних характеристик, а рангів, тобто номерів величин (метрик та експертних оцінок) у відповідних матрицях (наборах статистичних даних). Визначається парна рангова кореляція методом обчислення коефіцієнта Спірмена чи Кендала. Якщо значення коефіцієнта виявилось рівним 0, то робиться висновок про відсутність кореляції, і пара „метрика – експертна оцінка” відкидається. Якщо коефіцієнт кореляції приймає значення 1, чому відповідає повне співпадання коефіцієнтів, то робиться висновок про прямо пропорційну залежність (тобто лінійну), якщо -1, то робиться висновок про обернено пропорційну залежність (тобто також лінійну). Якщо ж коефіцієнт кореляції приймає інше значення, то далі його перевіряють на значущість, перевіряючи гіпотезу, що коефіцієнт рівний 0. Отже, результатом даного етапу є відсіювання незалежних між собою пар „метрика – експертна оцінка” та визначення за можливістю виду залежності для інших пар. Регресійний аналіз залежних величинРегресійний аналіз – останній етап в дослідженні на залежність метрик та експертних оцінок. Він проводиться тільки при виконанні умови, що дисперсія залежної змінної (експертної оцінки) повинна залишатися постійною при зміні значення аргументу (метрики), тобто, спочатку визначається дисперсія експертної оцінки для кожного прийнятого значення метрики. Далі проводиться ідентифікація регресії. Вона передбачає як графічну побудову, так і аналітичні дослідження. Графічна побудова розпочинається з визначення кореляційного поля. Якщо кореляційне поле має форму еліпса, робиться висновок про лінійний регресійний зв’язок. Далі проводиться побудова лінійної регресії і її оцінка. Якщо побудовані точки кореляційного поля потрапляють у коло, то робиться висновок про відсутність залежності. Якщо ж кореляційне поле не вписується у коло чи еліпс, а має інший вигляд, то робиться висновок про нелінійну залежність в лінії регресії. Далі будуються і аналізуються найймовірніші наближені лінії регресії. Серед них вибирається найточніша шляхом обчислення відхилення значень залежної змінної. Висновок про найточніше припущення робиться для функції, у якої відхилення найменше. Далі для нелінійної залежності проводиться лінеаризація коефіцієнтів, тобто зведення функції до лінійного вигляду. Завершальним етапом є довірче оцінювання ліній регресій. Довірче оцінювання регресії відбувається в декілька етапів. Першим етапом є визначення коефіцієнту детермінації, який показує ступінь залежності між величинами. Далі проводиться оцінка відхилення окремих значень залежної величини від емпіричної регресії шляхом порівняння практичних та теоретичних значень залежної змінної. Останнім кроком є побудова довірчого інтервалу лінії регресії. Якщо пара „метрика – експертна оцінка” пройшла всі етапи і не була відсіяною, робиться висновок, що експертна оцінка залежить певним чином від значення метрики з силою, що показує коефіцієнт детермінації, а вигляд залежності визначає лінія регресії. МЕТОДИЧНІ ВКАЗІВКИНа основі отриманих раніше значень метрик провести побудову залежностей між прямими та непрямими метриками. Для цього слід використати 3 вищезазначених етапи статистичного аналізу. Побудувати гістограми для 5-и прямих та 5-и непрямих метрик. Для побудови гістограми. Використати мінімум 21 виміряний проект (дані по метриках узяти у колег). Розрахувати математичне сподівання, дисперсію та середнє квадратичне відхилення для кожної метрики. Розрахувати точність. Розрахувати коефіцієнти кореляції та перевірити їх на точність. Побудувати кореляційні поля для 5-и найбільш ймовірних пар (у яких присутня залежність). На основі кореляційних полів побудувати лінію регресії та визначити її функцію. Всі розрахунки проводити у MS Excel або математичних чи статистичних середовищах (Matlab, Statistica,Stat і т.д.). Файл з розрахунками додати до звіту. ВАРІАНТИ ЗАВДАНЬ
Ще 2-і непрямі метрики підібрати самостійно. Вибрати їх таким чином, щоб вони залежали від однієї чи декількох прямих метрик (на основі теоретичних знань). КОНТОЛЬНІ ЗАПИТАННЯ
З повагою ІЦ "KURSOVIKS"! |