Диаграмма разброса

Построение диаграммы рассеяния в Excel

Диаграмма разброса представляет наблюдаемое явление в пространстве двух измерений. Если одну величину рассматривать как «причину», влияющую на другую величину, то ей будет соответствовать ось Х (горизонтальная ось). Реагирующей на это влияние величине соответствует ось Y (вертикальная ось). Когда четко классифицировать переменные невозможно, распределение производится пользователем.

Построим диаграмму рассеяния для небольшой двумерной совокупности данных:

Предположим, что затраченные усилия каждого менеджера повлияли на результат его работы (так принято считать). Следовательно, число контактов необходимо показать на горизонтальной оси, а продажи (результат затраченных усилий) – на вертикальной.

Для построения диаграммы рассеяния в Excel выделим столбцы «Контакты», «Объем продаж» (включая заголовки). Перейдем на вкладку «Вставка» в группу «Диаграммы». Использование данного инструмента анализа возможно с помощью точечных диаграмм:

По умолчанию программа построила диаграмму разброса такого вида:

Изменим параметры горизонтальной и вертикальной оси, чтобы четыре пары показателей расположились более равномерно в области построения. Щелкнем сначала правой кнопкой мыши по вертикальной оси. Выберем «Формат оси»:

На вкладке «Параметры оси» установим минимальное значение 100 000, а максимальное – 200 000. Показатели объема продаж находятся в этих пределах:

Минимальное значение для горизонтальной оси Х – 100, т.к. ниже этого показателя данных в таблице нет.

Диаграмма разброса приобрела следующий вид:

Какие можно сделать выводы по данной диаграмме рассеяния:

  1. Каждая точка дает представление об объеме продаж и контактах (как об одномерных совокупностях) и о взаимосвязи между этими параметрами.
  2. Количество контактов (горизонтальная ось) распределилось в диапазоне 140-220. Типичное значение равно примерно 170.
  3. Объемы продаж за анализируемый период (вертикальная ось) находятся в диапазоне примерно от 130 000 до 190 000. Типичное значение равняется приблизительно 150 000.
  4. Взаимосвязь между числом контактов и объемом сбыта является положительной, т.к. точки выстроились слева направо снизу вверх. Следовательно, чем больше у менеджера было контактов с клиентами (точки правее), тем больше прибыли организации он дал (точки выше).

ПОСТРОЕНИЕ ГИСТОГРАММЫ В STATISTICA

Научно-образовательный материал

МЕТОДИЧЕСКИЕ РЕКОМЕНДАЦИИ ПО ИСПОЛЬЗОВАНИЮ ПАКЕТОВ ПРИКЛАДНЫХ ПРОГРАММ ПРИ ЭКОНОМЕТРИЧЕСКОМ МОДЕЛИРОВАНИИ

(ЭВ)

Состав научно-образовательного коллектива:

заведующий кафедрой статистики и эконометрики, кандидат экономических наук, доцент Уколова А.В.

Москва 2011 г.

ПОСТРОЕНИЕ ГИСТОГРАММЫ В STATISTICA.. 3

ПОСТРОЕНИЕ ДИАГРАММЫ РАССЕЯНИЯ В EXCEL. 11

ПОСТРОЕНИЕ ДИАГРАММЫ РАССЕЯНИЯ В STATISTICA.. 15

ПАРНЫЙ КОРРЕЛЯЦИОННО-РЕГРЕССИОННЫЙ АНАЛИЗ В EXCEL. 18

ПОСТРОЕНИЕ ПАРНОЙ ЛИНЕЙНОЙ МОДЕЛИ В EXCEL С ИСПОЛЬЗОВАНИЕМ ИНСТРУМЕНТА «РЕГРЕССИЯ». 22

ПОСТРОЕНИЕ ПАРНОЙ ЛИНЕЙНОЙ МОДЕЛИ РЕГРЕССИИ В STATISTICA 25

МОДЕЛИРОВАНИЕ ТЕНДЕНЦИИ РАЗВИТИЯ ВРЕМЕННОГО РЯДА В EXCEL 32

МОДЕЛИРОВАНИЕ ТЕНДЕНЦИИ РАЗВИТИЯ ВРЕМЕННОГО РЯДА В STATISTICA.. 41

ПОСТРОЕНИЕ ДИАГРАММЫ РАССЕЯНИЯ В EXCEL

Для графического представления и изучения связи между двумя экономическими переменными могут применяться диаграммы рассеяния, когда по оси У откладывается значение одной, а по оси Х – другой переменной. Такое графическое представление зависимости называют также полем корреляции.

Условие. Имеются данные по 12 регионам Российской Федерации о валовом региональном продукте (ВРП) и инвестициях в основной капитал в расчете на душу населения, представленные в виде электронной таблицы в MS EXCEL:

Требуется построить диаграмму рассеяния по имеющимся данным.

Методические рекомендации. Построим поле корреляции, используя Мастер диаграмм.Для этогощелкните пиктограмму на панели инструментов – в результате появится окно:

Выберите точечную диаграмму и нажмите кнопку «Далее», на втором шаге, возможно, EXCEL попытается автоматически определить диапазон данных. Прейдите на вкладку «Ряд» – появиться окно:


нажмите кнопку «Добавить»:

Выберите значения х и у. После нажатия «Далее» появиться следующее окно:

На вкладке «Заголовки» подпишите оси, добавьте название диаграммы. На вкладке «Легенда» снимите флажок «Добавить легенду», щелкнув мышкой и нажмите «Готово»:

Вывод: построенный график позволяет предположить, что связь между результативным и факторным признаком является линейной.

ПОСТРОЕНИЕ ДИАГРАММЫ РАССЕЯНИЯ В STATISTICA

Условие. По данным предыдущей задачи требуется построить диаграмму рассеяния в пакете STATISTICA.

Методические указания. Скопируем исходные данные в таблицу данных пакета STATISTICA:

В меню «Графика» выберем пункт «Диаграммы рассеяния»:

В появившемся окне выберем переменные: у – ВРП, х – инвестиции:

На вкладке «Параметры 1» снимем флажок «Отображать стандартный заголовок» и напишем название графика:

После нажатия кнопки «ОК» получим диаграмму рассеяния:

Научно-образовательный материал

МЕТОДИЧЕСКИЕ РЕКОМЕНДАЦИИ ПО ИСПОЛЬЗОВАНИЮ ПАКЕТОВ ПРИКЛАДНЫХ ПРОГРАММ ПРИ ЭКОНОМЕТРИЧЕСКОМ МОДЕЛИРОВАНИИ

(ЭВ)

Состав научно-образовательного коллектива:

заведующий кафедрой статистики и эконометрики, кандидат экономических наук, доцент Уколова А.В.

Москва 2011 г.

ПОСТРОЕНИЕ ГИСТОГРАММЫ В STATISTICA.. 3

ПОСТРОЕНИЕ ДИАГРАММЫ РАССЕЯНИЯ В EXCEL. 11

ПОСТРОЕНИЕ ДИАГРАММЫ РАССЕЯНИЯ В STATISTICA.. 15

ПАРНЫЙ КОРРЕЛЯЦИОННО-РЕГРЕССИОННЫЙ АНАЛИЗ В EXCEL. 18

ПОСТРОЕНИЕ ПАРНОЙ ЛИНЕЙНОЙ МОДЕЛИ В EXCEL С ИСПОЛЬЗОВАНИЕМ ИНСТРУМЕНТА «РЕГРЕССИЯ». 22

ПОСТРОЕНИЕ ПАРНОЙ ЛИНЕЙНОЙ МОДЕЛИ РЕГРЕССИИ В STATISTICA 25

МОДЕЛИРОВАНИЕ ТЕНДЕНЦИИ РАЗВИТИЯ ВРЕМЕННОГО РЯДА В EXCEL 32

МОДЕЛИРОВАНИЕ ТЕНДЕНЦИИ РАЗВИТИЯ ВРЕМЕННОГО РЯДА В STATISTICA.. 41

ПОСТРОЕНИЕ ГИСТОГРАММЫ В STATISTICA

Для получения первого представления о том, как варьирует признак в изучаемой совокупности и каково распределение единиц, используют ряды распределения. Если признак имеет непрерывную вариацию (нет частых повторений одних и тех же значений), то строят интервальные ряды распределения: совокупность сортируется по возрастанию изучаемого признака, затем определяются число групп, границы интервалов, производится подсчет единиц (частот) в каждом интервале. График, построенный по данным интервального ряда распределения, называется диаграммой.

Условие.

Имеются данные о численности работников сельскохозяйственных организаций по одному из регионов РФ, представленные в EXCEL.

Требуется построить и проанализировать гистограмму распределения сельскохозяйственных организаций по этому признаку.

Методические указания. Одним из условий использования многих эконометрических методов является требование нормального распределения признака, поэтому построение гистограммы распределения численности работников представляет для нас интерес.

Откроем пакет STATISTICA:

Скопируем данные из EXCEL:

Чтобы изменить названия переменных, нужно два раза щелкнуть мышкой на названии столбца и в поле «Имя:» указать новое название:

Нажав значок на панели инструментов, отсортируем организации по возрастанию численности работников:

Поскольку построение гистограммы с равными интервалами возможно только в случае плавного изменения признака в ранжированном ряду, оценим наглядно изменение признака, для чего построим огиву (график ранжированного ряда распределения). Выберем в меню «Графика» пункт «Линейные графики»:

Далее выберем переменную, нажав на зеленую стрелку и выбрав из списка «Среднегодовую численность работников»:

После нажатия кнопки «ОК» на вкладке «Выберите переменные для Линейного графика» и «2М Линейные графики (для переменных)» получим график:

Признак меняется плавно, без резких скачков (хотя угол наклона и меняется во второй половине графика, что свидетельствует о больших отличиях между последующим и предыдущим значениями, чем в начале ранжированного ряда), минимальное и максимальное значения не являются экстремально выделяющимися, поэтому построим гистограмму с равными интервалами. В меню «Графика» выберем пункт «2М Гистограммы»:

Затем выберем переменную, определим число интервалов как корень из числа наблюдений: (число интервалов (групп) – целое) и поставим это число в разделе «Интервалы» в пункте «Категории»:

Тип подгонки (вкладка «Дополнительно») оставим по умолчанию «Нормальное» (подгонка под нормальное распределение), предусмотрим вывод статистики Колмогорова-Смирнова для проверки соответствия фактического распределения нормальному:

На вкладке «Параметры 1» снимем флажок «Отображать стандартный заголовок» и напишем свой: «Гистограмма распределения сельскохозяйственных организаций по численности работников».

После нажатия «ОК» получим гистограмму с наложенной кривой нормального распределения. Чтобы уменьшить точность значений по оси Х, вызовем контекстное меню путем нажатия правой клавиши мыши и выберем пункт «Параметры графика»:

Затем выберем из перечня слева «Ось: Значения шкалы» и поменяем формат на числовой, в разделе «Дес. разряды» поставим единицу (для получения лишь одного знака после запятой):

Фактическая значимость статистики Колмогорова-Смирнова меньше 5%, это означает, что с уровнем вероятности суждения 95% гипотеза о нормальном распределении единиц в данной совокупности должна быть отклонена. Это также видно из графика, распределение имеет сильную правостороннюю скошенность. Большая часть совокупности – это малые (до 100 человек) и средние (от 100 до 250) организации, число крупных организаций невелико, численность работников в них значительно варьирует, что и приводит к возникновению «хвоста».

Графики и схемы

Диаграмма разброса

Что такое диаграмма разброса?

Диаграмма разброса — это средство для показа взаимоотношений между двумя переменными (например, скорость и расход бензина, или выработанные часы и выход продукции).

Пример 1

Пример 2

Пример 3

Чем полезна диаграмма разброса?

Эта диаграмма четко показывает, существует ли связь между двумя переменными:

  • Позитивная связь — если Х увеличивается, то Y тоже увеличивается.
  • Негативная связь — если Х увеличивается, то Y уменьшается.
  • Нет связи — одно количество никак не соотносится с другим.

Как построить диаграмму разброса?

  1. Соберите, по крайней мере, 30 наборов парных данных (Х, Y).
  2. Определите наименьшее и наибольшее значения для Х иY. Определите шкалу осе так, чтобы они были примерно равны по длине, но постарайтесь, чтобы у вас было не более десяти интервалов.
  3. Распределите оси так, чтобы движущий фактор (независимая переменная) находился на оси Х, а тот фактор, который находится под его влиянием (зависимая переменная) находился на оси Y. В примере 1, демонстрирующем связь между вдыхаемым дымом и работой легких, «уровень вдыхания дыма» идет по оси Х, а «снижение работы легких» идет по оси Y, так как вдыхание дыма является причиной снижения работы легких.
    В примере 2 токсины в воздухе уменьшаются с увеличением фильтрации воздуха. Фильтрация воздуха вызывает снижение количества токсинов, поэтому она идет по оси Х.
    Пример 3 иллюстрирует то, как размер телевизионной электронной лампы (ось Х) может вызвать изменения в сроки годности телевизионной электронной лампы (ось Y). Диаграмма не показывает никакой связи.
  4. Поместите данные на графике, при этом убедитесь, что на графике имеется информация о заголовке, данных, месте и т.д.
  5. Можно сделать анализ связи данных. Измеритель связи, или коэффициент, называется «r»; «r» может иметь значения от -1.0 до +1.0.

    Чем ближе «r» к +1.0, тем сильнее позитивная связь.

Когда использовать диаграмму разброса?

Диаграмму разброса можно использовать в этапе «Анализ», чтобы провести дальнейшее исследование элементов, выделенных при анализе причины-следствия; например, диаграмма разброса может подтвердить причину, определенную при помощи диаграммы Ишикава «рыбья кость». При построении диаграммы разброса необходимо действовать очень аккуратно, чтобы убедиться, что существует действительная связь.

Версия для печати

Диаграммы рассеивания

На практике в ходе анализа процессов бывает важно изучить зависимость между двумя переменными. Например, необходимо установить, зависит ли разброс размеров детали от изменения числа оборотов шпинделя, связана ли долговечность детали с температурными условиями её эксплуатации и т. п. Для изучения подобных зависимостей используются диаграммы рассеивания.

Диаграмма рассеивания – это графическое представление множества данных, которые отражают связь между двумя факторами.

В общем случае, методика построения диаграмм рассеяния состоит из следующих этапов:

1) сбор исходных данных (х и у);

2) построение диаграммы вида (рис. 8.1). Каждая точка имеет координаты (х, у), где х – фактор, у – показатель качества, а всё поле точек позволяет судить о наличии или отсутствии связи между переменными;

3) Выполнение анализа диаграммы:

— исключение из рассмотрения всех точек, которые далеко отстоят от основной группы (например, точка * (x2, y2) на рис. 8.1);

— поиск причин появления таких точек (ошибки измерения или записи данных, особые причины и др.);

— определение наличия (отсутствия) связи между переменными и её характера.

Рис. 8.1. Пример диаграммы рассеяния

При анализе связи между переменными возможны различные варианты скопления точек (рис. 8.2): а) положительная корреляция; б) отрицательная корреляция; в) корреляции нет.

Рис. 8.2. Варианты скоплений точек на диаграмме рассеяния

Корреляция означает, что между переменными есть линейная зависимость, причём чем уже поле рассеяния точек, тем больше корреляция. В этом случае, управляя одним фактором, можно влиять на другой. Вместе с тем, следует принимать во внимание наличие ряда ограничений, связанных с корреляционным анализом данных:

— применение возможно в случае наличия достаточного количества случаев для изучения (от 25 до 100 пар наблюдений);

— второе ограничение вытекает из гипотезы корреляционного анализа, в которую заложена линейная зависимость переменных. Во многих случаях, когда достоверно известно, что зависимость существует, корреляционный анализ может не дать результатов ввиду того, что зависимость не линейна (рис. 8.3);

Рис. 8.3. Коэффициенты корреляции для различных форм рассеяния точек

— сам по себе факт корреляционной зависимости не даёт основания утверждать, какая из переменных предшествует или является причиной изменений, или что переменные вообще причинно связаны между собой, например ввиду действия третьего фактора. Например, в одном исследовании была установлена корреляция между индексом потребительских цен и числом пожаров. Если бы это было так, то при снижении индекса наблюдалось бы и уменьшение числа случайных возгораний. Поэтому если между двумя переменными наблюдается корреляционная зависимость, не подкреплённая причинно-следственной связью, то в этом случае можно говорить о ложной корреляции.

Гистограммы

Гистограммы используют, чтобы судить о том, является ли процесс стабильным, настроенным, появляется ли брак.

Это один из самых эффективных инструментов для управления ходом технологического процесса или операции.

Гистограмма – это столбчатая диаграмма, показывающая число точек, попадающих в заданные интервалы. Число точек в интервале называют частотой.

Если процесс стабилен, его гистограмма имеет форму колоколообразной кривой. При этом, если весь диапазон гистограммы
разделить на 6 равных отрезков (по три с каждой стороны от центра), то данные распределятся так, как показано на рис. 8.4.

Рис. 8.4. Пример гистограммы стабильного процесса

Построение гистограммы включает ряд основных этапов.

1) Составляется таблица исходных данных.

2) Вычисляется выборочный размах

R = – .

3) Определяется ширина интервалов гистограммы. Приблизительная ширина интервала определяется по формуле:

,

где п – количество данных (т. е. объём выборки, умноженный на число выборок).

4) Подсчитывается число попавших в каждый интервал значений (частоты).

5) Строится гистограмма, на которой откладываются среднее арифметическое и границы допуска.

6) Производится анализ гистограммы (определение закона рассеяния данных и сравнение положения гистограммы с границами допуска).

Различают несколько типичных форм гистограмм, в частности (рис. 8.5):

а) гистограмма с двусторонней симметрией (нормальное распределение). Гистограмма с таким распределением встречается чаще всего. Она указывает на стабильность процесса;

б) гистограмма с ненормально высоким краем. Такая гистограмма отражает случаи, когда была допущена ошибка при измерениях, когда наблюдались отклонения от нормы в ходе процесса и т. д.;

в) гистограмма, вытянутая вправо (влево). Такую форму с плавно вытянутым основанием гистограмма принимает в случае, когда невозможно получить значения меньше (больше) определённого – например, для диаметра отверстий, процента содержания примесей в металле.

Рис. 8.5. Типичные формы гистограмм

Таким образом, форма гистограммы позволяет получить информацию о законе распределения размеров и о наличии или отсутствии отклонений в ходе процесса.

Дальнейший анализ процесса с помощью гистограмм может выполняться сравнением гистограмм с границами допуска. Если нанести на гистограмму линии границ допуска, то можно увидеть, как гистограмма располагается внутри границ, имеется ли брак, есть ли запас по точности и др.

Если гистограмма удовлетворяет допуску, то возможны следующие случаи (рис. 8.6):

а) центр гистограммы совпадает с серединой поля допуска. Поле рассеяния небольшое. В этом случае достаточно поддерживать текущее состояние;

б) допуск выдерживается, но нет никакого запаса. Следует уменьшить разброс значений, иначе возможно появление брака.

Если гистограмма не удовлетворяет допуску, ситуации могут быть следующими:

в) разброс размеров небольшой, но центр рассеяния смещён в сторону. Появляется брак. Необходимо сместить центр рассеяния к середине поля допуска;

г) центр рассеяния совпадает с серединой поля допуска, но разброс слишком велик. Появляется брак. Необходимо уменьшить разброс размеров;

д) комбинация вариантов в) и г). То есть необходимо одновременно сместить центр рассеяния к середине поля допуска и при этом уменьшить разброс размеров.

Оставьте комментарий