Лекція №5-6 - Аналіз даних в Excel, табличний процесор Excel, НУДПСУ
« Назад Лекція №5-6 Аналіз даних в ExcelПлан 1. Табличний процесор Excel Більшість менеджерів, що працюють у невеликих фірмах, не мають адекватних засобів автоматизації своєї роботи. Навіть якщо підприємство має корпоративну систему, то вона призначається як правило для оперативного управління. Тому для менеджерів-аналітиків, яким необхідно шукати оптимальні рішення, дуже актуальним є завдання автоматизації на основі «підручних» програмних засобів. В цій лекції буде показано, як можна розв’язувати задачі аналізу і прогнозу даних у табличному процесорі Excel, що входить у загальнодоступний пакет “Microsoft Office”. Табличний процесор ExcelНа жаль, студенти мають, найчастіше, дуже неясне уявлення про табличний процесор Excel, хоча вивчення цієї програми входить до курсу інформатики економічних спеціальностей. Ми будемо припускати, що студенти вже працювали з цією програмою чи, принаймні, знайомі з нею, тому коротко повторимо основні механізми цієї прогрпми, щоб при необхідності їх можна було вивчити самостійно [1], [2], [3]. Назва табличний процесор означає, що програма Excel призначена для обробки табличних даних. Більшість задач фінансово-економічного аналізу даються саме в табличній формі, тому програма призначена, насамперед, для економістів, менеджерів і адміністраторів. Документ Excel представляється у вигляді книги, що розбита на довільне число робочих аркушів (чи просто аркушів), кількість яких визначається користувачем в залежності від розв'язуваної задачі. Кожен аркуш, розбитий на рядки і стовпці, на перетині яких знаходяться комірки даних. На аркуші можуть знаходитися одна чі кілька електронних таблиць, тобто звичайних таблиць, представлених в електронній формі. Таким чином, на кожному робочому аркуші є двовимірна система координат, що призначена для іменування комірок таблиць. Кожен рядок має адресу, що є числом від 1 до 65536, і аналогічно кожний з 256 стовпців має адресу, якою є латинська літера від A до Z чі сполучення латинських літер від AA до IV. Кожна комірка на аркуші має адресу і вміст. Адреса комірки складається з адреси стовпця і рядка, на перетині яких вона знаходиться, наприклад, А1, С7 і т.д. З кожною коміркою на аркуші неявно пов'язується алгебраїчна змінна, назва якої збігається з адресою комірки, а значення збігається з вмістом комірки. Вмістом комірки може бути будь-який рядок символів, що має довжину до 32768 символів, і який відноситься до одного з наступних типів: - текстова константа; - числова константа; - формула. Текстові константи (текстові рядки) починаються з літери і за замовчуванням вирівнюються в комірці вліво. Числові константи (числа) починаються з цифри і за замовчуванням вирівнюються в комірці вправо. Якщо число в комірці вирівнюється вліво, то, швидше за все, відбулася помилка в числовому форматі. У програмі Excel є 9 числових форматів, включаючи формати дати і часу, які студенти повинні вивчити самостійно [2]. Вся сила Excel полягає в формулах. Без них ця програма дула б просто калькулятором. Формула це правильно побудований алгебраїчний вираз, який починається зі знака рівності і складається з операцій, операндів і дужок. До операцій відносяться додавання, віднімання, множення, ділення і піднесення до степеня. Операндом може бути числова константа, змінна, котра задається адресою комірки, і функція. Знак рівності служить для відмінності формул і текстових констант. Всі арифметичні операції у формулах бінарні, тобто допускають два операнди. Наприклад, в комірці А1 може знаходитися формула =А2+1, у якій А2 є першим операндом (змінна), а константа 1 другим операндом операції додавання (+). Цю формулу можна сприймати як алгебраїчну рівність А1=А2+1. Тому, якщо комірка А2 містить, наприклад, число 5, то відповідно до законів арифметики комірка А1 буде містити число 6. В цьому випадку говорять, що в комірці А1 є посилання на комірку А2 чі, комірка А1 (інформаційно) залежить від А2. У програмі Excel у меню «Сервис» є спеціальна команда «Зависимости», яка дозволяє «побачити» всі комірки, від яких залежить дана комірка ( які впливають на дану комірку). Якщо у формулі є посилання на текстову, а не на числову константу, то у відповідній комірці з’являється повідомлення про помилку. Це найчастіше джерело помилок у формулах. Крім того, в комірці не може знаходитися формула, що посилається на ту ж комірку, в якій вона знаходиться. Це окремий випадок циклічних посилань, що заборонені. З формулами пов'язані два фундаментальних механізми програми Excel: - Автоматичне переобчислення; - Автозаповнення при копіюванні формул. Перший механізм включається, коли змінюється значення в деякій комірці, тоді у всіх залежних комірках (тобто комірках, у яких є посилання на дану комірку) результат автоматично обчислюється заново без будь-якої участі з боку користувача. Цей могутній механізм є основним джерелом економії часу користувача. Другий механізм включається при копіюванні формул. Наприклад, якщо формулу =А2+1 скопіювати з комірки А1 в комірку В1, то в комірці В1 з'явиться формула =В2+1. Загальне правило копіювання говорить: при копіюванні формули всі адреси модифікуються у відповідності до вектора зміщення формули. Іншими словами, якщо формула копіюється зі зміщенням по горизонталі, то будуть відповідним чином змінюватися адреси стовпців, а якщо по вертикалі, то адреси рядків. Цей механізм також дозволяє заощаджувати багато часу, оскільки формули не потрібно модифікувати вручну. Але, проте, іноді не потрібно змінювати формулу. Щоб більш гнучко керувати процесом копіювання вводиться поняття відносної й абсолютної адресації. Усі звичайні адреси у формулах розглядаються як відносні й модифікуються відповідно до загального правила. Якщо перед адресою рядка чи стовпця стоїть знак долара $, то така адреса називається абсолютною і не модифікується при копіюванні. Таким чином, формула =$А$2+1 при копіюванні змінюватися не буде, оскільки адреса $А$2 є абсолютною. Можлива комбінована адресація, коли адреса рядка абсолютна, а адреса стовпця відносна, наприклад =А$2+1 чі навпаки =$А2+1. Такі формули будуть модифікуватися тільки при копіюванні по горизонталі чі, відповідно, тільки при копіюванні по вертикалі. Таким чином, загальне правило копіювання формул говорить: При копіюванні формули усі відносні адреси в цій формулі модифікуються у відповідності до вектора зміщення формули. Користувач повинен вільно володіти формулами і правилом їх копіювання, а також абсолютною і відносною адресацією, оскільки це основні засоби автоматизації обчислень у Excel [1]. Скрізь, де можливо, потрібно використовувати алгебраїчні вирази зі перемінними кількостями, уникаючи константних арифметичних виразів. Константами повинні бути тільки вхідні дані. Тоді при зміні вихідних даних, новий результат виходить автоматично за рахунок механізму переобчислення. Крім того, надалі, ми будемо припускати, що студенти вільно володіють майстром функцій Excel і можуть включити у формулу звернення до будь-якої функції. Помітимо, що аргументом функції часто виступає діапазон комірок, тобто одномірна чі двовимірна область таблиці, а не окрема комірка. Також будемо припускати, що студенти володіють майстром побудови діаграм, оскільки діаграми є основним інструментом візуалізації даних [1], [2], [3]. Робота зі списками і підведення підсумківРобота зі списками є, напевно, основним видом використання програми Excel у більшості компаній. Реєстри продажів, накладні, прайс-листи, відомості нарахування заробітної плати і т.п., усе це приклади списків. Але не всі користувачі знають, що не будь - яка таблиця в Excel є списком і, що для списків існують спеціальні методи їхньої обробки. Тому в цьому розділі коротко торкнемося питань, що стосуються роботи зі списками. Список у Excel це таблиця, що інтерпретується процесором як база даних. Тому списки в Excel також називаються «базами даних». Звичайно, до цієї назви потрібно відноситися з деякою обережністю, оскільки в наступній лекції ми познайомимося зі «справжніми» базами даних, в той же час певна аналогія тут, безумовно, є. Характерною ознакою (реляційної) бази даних є однорідність даних по стовпцях. Тому, щоб таблиця Excel могла розглядатися як список необхідно, насамперед, щоб у кожнім стовпці таблиці дані мали один тип, тобто або всі були текстовими, або всі числовими, або усі датами. Для більшості додатків, де використовуються списки, ця умова виконується. Крім того, щоб табличний процесор інтерпретував таблицю як список є необхідним виконання ряду формальних умов:
Якщо ці умови виконані, то процесор розпізнає список автоматично. Для цього досить ввести вручну заголовки стовпців і поставити курсор на порожній рядок під заголовком чи під останнім рядком даних, якщо вони вже були введені. Якщо Excel розпізнає таблицю як список, то в користувача з'являється можливість використовувати процедури обробки характерні для баз даних, а саме, введення даних у список через спеціальну форму, сортування даних, фільтрація (відбір) даних, групування даних і т.д. Розглянемо ці процедури по порядку. Щоб викликати форму введення даних, введіть заголовки стовпців, виділіть їх жирним шрифтом, щоб вони відрізнялися від даних, поставте курсор у порожній рядок під заголовком одного зі стовпців, а потім виконайте команду «Данные →Форма». Якщо все в порядку, то з'явиться форма введення даних (див. рис. 3), у противному випадку, якщо порушена одна з вищезгаданих умов, Excel повідомить про помилку. Цілком можливо, що після виконання команди «Данные ® Форма» Excel видасть повідомлення типу: «не вдається знайти рядок списку, щоб використовувати дані першого рядка як підписи натисніть кнопку «ОК». У цьому випадку треба просто натиснути кнопку «ОК» і форма з'явиться на екрані. Після цього можна бути впевненим, що ваша таблиця інтерпретується процесором як список, і з нею можна працювати як з базою даних. Звичайно робота з формою не викликає в користувачів труднощів, але тут варто врахувати, що форма може використовуватися не тільки для введення даних, але і для їх редагування і пошуку. Сортування списку звичайно також не викликає труднощів, але тут часто користувачі припускають помилки. По-перше, відмітимо, що можна сортувати список за значенням одного стовпця за допомогою відповідної кнопки на панелі інструментів і за значеннями декількох стовпцях (до трьох) за допомогою команди «Данные ® Сортировка». Перед сортуванням не потрібно виділяти стовпці даних, тому що в противному випадку процесор буде сортувати дані тільки у виділених стовпцях, що фактично призведе до руйнування списку, тому що буде загублений зв'язок між даними, що знаходяться в одному рядку (записи). Треба просто поставити курсор у відповідний стовпець і натиснути кнопку сортування на панелі інструментів. У цьому випадку рядки даних будуть переставлятися повність, і зв'язки між елементами одного рядка будуть збережені. Фільтрація це вибір даних зі списку за заданими критеріями відбору. У відфільтрованому списку можна бачити тільки ті рядки, які задовольняють заданим критеріям. При цьому відповідні номери рядків виділяються синім кольором (ознака фільтрації), а інші рядки залишаються прихованими, але не знищеними. Приховані рядки можуть бути в будь-який момент відновлені. Для простої фільтрації використовується Автофильтр, а для фільтрації за складними критеріями - Расширенный фильтр [1]. Звичайно фільтрація за допомогою автофільтру не викликає у користувачів труднощів, але при цьому використовуються далеко не всі надані можливості. По-перше, за допомогою елемента списку автофільтру «(Первые 10…)» можна вибрати рядки по декількох найбільших чи найменших елементах відповідного числового стовпця (поля). По-друге, за допомогою елемента «(Условие…)» можна викликати вікно користувальницького автофільтру, в якому задається складна логічна умова відбору за відповідним стовпцем, наприклад можна вибрати рядки, відповідні значення в яких знаходяться між двома заданими числовими значеннями. Нарешті, щоб відобразити всі дані, приховані в результаті фільтрації, потрібно виконати команду «Данные ® Фильтр ® Отобразить все». Розширений фільтр дозволяє власне кажучи створювати повноцінні запити (у термінології баз даних) до списку. Наприклад, за допомогою розширеного фільтру можна задати умови відбору по двох і більше стовпцях, які з'єднані логічним сполучником “ИЛИ”, що за допомогою автофільтру зробити не можна. Перша відмінність розширеного фільтру полягає в тому, що тут у явному вигляді потрібно задати диапазон условий. Для цього звичайно перед списком роблять кілька порожніх додаткових рядків і в першому рядку повторюють назви всіх стовпців списку чи частини з них, якщо відбір буде йти не по всіх стовпцях. Краще вказувати тут назви всіх стовпців, тому що зайві стовпці завжди можна залишити порожніми. Потім порядково вводяться критерії відбору, причому умови, що знаходяться в одному рядку з'єднуються сполучником «И», а самі рядки умов з'єднуються сполучником «ИЛИ». Наприклад, у наступній таблиці показані умови відбору за розширеним фільтром. Таблиця 3. Умови відбору за розширеним фільтром
За цим критерієм будуть відбиратися рядки, в яких зазначений товар з артикулом 2001, і обсяг продажів якого перевищує 1000, або рядки, в яких зазначене прізвище менеджера «Иванов». Після заповнення діапазону умов потрібно викликати розширений фільтр за допомогою команди «Данные ® Фильтр ® Расширенный фильтр». У вікні цієї команди уточнюється, де знаходиться список, де знаходиться діапазон умов і чи треба копіювати фільтровані дані в нове місце чи фільтрувати список на місці. Якщо дані треба скопіювати в нове місце, то варто вказати адресу діапазону, куди їх потрібно копіювати. Після виконання цієї команди відбувається фільтрація даних у списку за умовами, зазначеними у розширеному фільтрі. У тестових завданнях до цієї лекції студентам пропонується кілька задач на розширену фільтрацію. Підведення проміжних підсумків і консолідація данихПерейдемо тепер до обчислення підсумків у списках даних. Кожному менеджеру після збору оперативних даних доводиться в тому чи іншому вигляді підводити підсумки. Взагалі кажучи, це операція багатогранна. Іноді треба просто підрахувати суму стовпця, а іноді потрібно побудувати складну зведену таблицю, щоб з'ясувати, хто і скільки заробив. Для більшості користувачів не складає труднощів підрахувати табличну суму по рядку чи стовпцю, оскільки для цього досить натиснути кнопку «S» на панелі інструментів. Але при підведенні проміжних підсумків по групах даних, наприклад, по прізвищах продавців чи сортам товарів, у багатьох виникають труднощі. Тому розглянемо коротко основні способи підведення підсумків. При підведенні проміжних підсумків треба, насамперед, визначити стовпець списку, по якому буде відбуватися групування даних, і стовпець, по якому буде відбуватися підсумовування даних чи інша підсумкова операція, до числа яких відноситься обчислення середнього, мінімум, максимум та ін. Якщо, наприклад, необхідно визначити обсяги продажів кожного продавця, то групування потрібно проводити по прізвищах продавців, а підсумовування по обсягах продажів. Можна в будь-який момент зняти проміжні підсумки зі списку даних, поставивши курсор на одне з проміжних значень і виконати команду «Данные ® Итоги...». Потім у вікні, що відкрилося, потрібно натиснути кнопку «Убрать все». Звичайно, після підведення підсумків по групах даних необхідно побудувати діаграму, щоб порівняти внесок кожної проміжної складової в загальну суму. Для цього треба викликати майстер діаграм і в якості вихідних даних вказати тільки ті комірки, в яких знаходяться проміжні суми, натиснувши попередньо клавішу <Ctrl>. При виборі типу діаграми краще вказати кругову діаграму, що призначена для порівняння частин одного цілого. У контрольних завданнях до цієї лекції студентам пропонується задача на підведення проміжних підсумків і побудову діаграми. Під консолідацією даних звичайно розуміють збір даних з різних місць, з наступним узагальненням і підведенням підсумків. Цю операцію часто доводиться виконувати при проведенні планових і бухгалтерських розрахунків для складання підсумкових відомостей, в яких накопичуються дані по місяцях чи роках, для збору даних з філій і т.ін. В табличному процесорі Excel під консолідацією даних розуміється їх збір з різних діапазонів на робочих аркушах з одночасним застосуванням агрегуючої операції. Перед виконанням консолідації даних потрібно виділити діапазон комірок на підсумковому аркуші, куди будуть записані результуючі дані, і виконати команду «Данные ® Консолидация...». У вікні цієї команди (див. рис. 5) потрібно вказати агрегуючу функцію (сума, середнє, добуток і т.д.) і список діапазонів з вихідними даними. Для вказівки діапазонів у цьому вікні потрібно ввести адресу чергового діапазону в поле «Ссылка» і натиснути кнопку «Добавить» (чи «Удалить», якщо діапазон був зазначений невірно). Після додавання всіх діапазонів потрібно натиснути кнопку «ОК» і процесор обчислить результуючі значення. При вказівці діапазонів тут, як правило, використовуються тривимірні посилання, наприклад, посилання «Лист1!F5» вважається тривимірною, оскільки тут явно зазначений аркуш, на якому знаходиться комірка. Якщо комірки на вихідних аркушах розташовані однаково, то можна використовувати тривимірні діапазони. Наприклад, формула =СУММ (Лист1:Лист3!F5) підсумовує значення на трьох робочих аркушах в комірках F5. Якщо консолідація проводиться по списках даних з однаковими заголовками, розташованими в рядку чи стовпці, то у вікні консолідації варто включити кнопку «подписи верхней строки» чи відповідно «значения левого столбца». Якщо необхідно створити зв'язок результуючих даних з вихідними, то варто включити кнопку «Создавать связи с исходными данными». У цьому випадку результуючі дані будуть змінюватися відразу після зміни вихідних даних. Побудова зведених таблицьЗведені таблиці являють собою найбільш могутній і гнучкий інструмент для підведення підсумків у списках даних. Вони дозволяють не тільки агрегувати дані в списках з різних точок зору (ракурсів), але і фільтрувати їх. Якщо необхідно довідатися не тільки, скільки заробив кожен продавець, але і який товар він продавав і на яку суму, то тут, швидше за все, знадобиться зведена таблиця. Зведена таблиця це узагальнення (агрегація) вихідного списку даних по декільком узагальнюючим параметрам. Таких параметрів може бути багато, але, щоб зберегти видимість результуючої таблиці, звичайно використовують не більше чотирьох параметрів. Оскільки таблиці двовимірні, то значення одного узагальнюючого параметра розташовуються по горизонталі (вісь Х), значення другого по вертикалі (вісь У) і, нарешті, значення третього параметра (вісь Z) роблять зведену таблицю тривимірною. Четвертий підсумковий (агрегуючий) параметр використовується для заповнення зведеної таблиці числовими значеннями. Звичайно, і по горизонталі і по вертикалі можна розташовувати при необхідності кілька параметрів, а параметр Z використовується в основному для фільтрації двовимірних таблиць за значенням цього параметра. Відмітимо відразу, що зведені таблиці надають користувачу можливість фільтрації даних по будь-якій координаті і за значеннями будь-яких параметрів. Наприклад, припустимо, що менеджеру треба довідатися, скільки і яких цукерок було продано за місяць у декількох магазинах. Тоді по горизонталі можна розташувати назви цукерок, по вертикалі - дати продажів і, нарешті, по третій координаті можна розташувати назви магазинів. Як підсумковий параметр тут можна використовувати обсяги продажів у вартісному чи кількісному виразі. У цьому випадку зведена таблиця буде показувати, скільки і коли було продано цукерок певного сорту у всіх магазинах. Якщо таблицю профільтрувати по осі Z, вибравши на ній значення «Центральный», то таблиця покаже, скільки і коли було продано цукерок певного сорту в центральному гастрономі і т.д. Для побудови зведеної таблиці треба поставити курсор в комірку, де буде розташовуватися зведена таблиця, чи на вихідний список даних і виконати команду «Данные ® Сводная таблица…». З'явиться вікно майстра зведених таблиць, що за три кроки будує таблицю.
Після створення зведеної таблиці з'являється панель інструментів «Сводные таблицы», за допомогою якої можна виконати наступні дії:
Задача 1. Використовуючи базу даних про постачаня галантерейних товарів менеджерами фірми Таблиця 1 дати відповіді на наступні питання:
Розв'язок. Побудуємо зведену таблицю по вихідній інформації (таблиця 1) наступної структури: - у зоні стовпців розмістимо показник Продавець; - у зоні стрічок розмістимо показник Продукція; - у зоні сторінок розмістимо показник Постачальник; - в області даних розмістимо показник Обсяг, по якому виконаємо операцію Сума. Відповідь на питання a. можна отримати зі зведеної таблиці (Таблиця 2) на перетині стрічки “Молнії” та стовпця “Іван” на сторінці “Магазин”. Відповідь на питання b. можна отримати з зведеної таблиці (Таблиця 2) в стрічці “Канва” на сторінці “Склад”. Відповідь на питання c. можна отримати з зведеної таблиці (Таблиця 2) на сторінці “все” у стрічці “Наперстки” Відповідь на питання d можна отримати зі зведеної таблиці (Таблиця 3).на сторінці “Склад” на перетині стовпця “Олена” та стрічці “Молнії”. Відповідь на питання e.можна отримати з зведеної таблиці (Таблиця 3) на сторінці “все” у стовпці “Нитки”. З повагою ІЦ "KURSOVIKS"! |