Метод кластерного анализа

Кластерный анализ Кластерный анализ — один из методов многомерного анализа, предназначенный метод кластерного анализа группировки кластеризации совокупности элементов, которые характеризуются многими факторами, и получения однородных групп кластеров. Разбиение на кластеры происходит с помощью некоторой метрики, например, евклидова расстояния. Задача кластерного анализа состоит в представлении исходной информации об элементах в сжатом виде без ее существенной потери. Двадцать банков, акции которых котируются на рынке, предоставили следующую информацию табл. Необходимо выяснить акции каких банков имеет смысл приобрести Buyкаких — придержать Holdа от каких — избавиться Sell. Графическое представление исходных данных приводится на рис. Мы заранее облегчили работу себе и метод кластерного анализа пакету STATISTICA, разбив эти данные на кластеры. Совсем не нужно обладать какими-либо познаниями в области кластерного анализа, чтобы решить эту задачу. Сравнивая первую 1, 20, 7,16, 8, 17, 11 и вторую группу банков 2, 15, 6, 3, 12, 19 можно сказать, что вторая группа предпочтительнее, так как при одних и тех же затратах вторая группа получает больше прибыли. Сравнивая метод кластерного анализа группу банков с третьей 4, 13, 5, 9, 10, 14, 18предпочтительнее первая группа, так как при одной и той же прибыли затраты у нее меньше. При решении задач кластерного анализа приходится сталкиваться с рядом проблем: · элементы в нашем случае банки характеризуются большим количеством факторов, которые имеют разные единицы измерения и разные абсолютные величины, буквально не сопоставимые друг с другом и несущие разный объем информации; · первоначально неизвестно число кластеров, метод кластерного анализа которое необходимо разбить исходную совокупность элементов, и визуальные наблюдения в многомерном случае просто не приводят к успеху; · какие метрики использовать в качестве меры расстояния меры близости между элементами; · какую целевую функцию или метод использовать для объединения элементов в кластеры. В кластерном анализе разбиение на кластеры существенно зависит от абсолютных значений исходных данных. Эту проблему решают с помощью нормировки стандартизации. Для этого из всех значений по каждому фактору вычитают выборочное среднее этого фактора и полученные разности делят на среднее метод кластерного анализа отклонение. При этом стандартизованные значения будут иметь выборочные средние равные нулю, а выборочные дисперсии — равные единице. Другими словами, мы все факторы свели в одну весовую категорию, как боксеров перед соревнованиями. Для осуществления этой операции в пакете STATISTICA нужно вызвать модуль Data Management. Поэтому при кластеризации элементов в пакете STATISTICA следует выбирать режим: cases rows — строки, а при кластеризации факторов: variables метод кластерного анализа — столбцы. В качестве основных методов анализа пакет STATISTICA предлагает Joining tree clustering — группу иерархических методов 7 видовкоторые используются в том случае, если число кластеров заранее неизвестно, и Метод кластерного анализа Means Clustering метод К-среднихв котором пользователь заранее определяет количество кластеров. Что метод кластерного анализа целевой функции, то одной из наиболее распространенной целевой функцией является внутригрупповая сумма квадратов. При использовании такой целевой функции алгоритм кластерного анализа может сводится к следующему: если имеется n элементов и матрица расстояний между ними, сначала считается, что каждый элемент есть отдельный кластер. Затем на каждом шаге объединяются такие два кластера, которые приводят к минимальному увеличению целевой функции. Многообразие алгоритмов кластерного анализа часто дезориентирует пользователя. Поэтому он может прибегнуть к применению нескольких алгоритмов и отдать предпочтение какому-либо выводу на основании комплексной оценки совокупности результатов работы. Cluster Analysis Пример 4. В этом примере будут исследованы 16 известных инвестиционных фондов с целью оценки их состояния. В качестве переменных используются следующие характеристики: доходность метод кластерного анализа пятилетний период, риск, ежегодный процент дохода по каждому году, расходная часть и налоговые рейтинги. Исходные данные об инвестиционных фондах представлены в метод кластерного анализа. Franklin Janus 20 AARP Метод кластерного анализа 20 th Cent Gr 16476 15476 14757 15145 15596 13640 14081 13827 13187 13029 12301 11793 12441 11728 11386 11258 2 2 3 4 5 1 3 3 2 4 3 2 4 4 4 4 10 -1 4 -1 -7 0 1 -2 -1 1 -3 3 -7 -10 -6 -8 25 21 26 20 21 22 16 25 11 12 11 7 3 16 2 15 6 16 15 13 9 15 21 7 7 11 4 3 2 5 -2 -4 55 55 39 71 89 18 25 41 43 35 34 27 69 41 67 32 4 4 -3 -6 -6 -6 -6 -5 -1 -17 -2 2 1 -16 4 0 1,22 1,03 0,7 1,49 1,7 метод кластерного анализа 0,85 0,96 0,91 1,82 1,41 0,77 1,02 0,97 1,09 метод кластерного анализа 89 90 69 96 95 85 75 73 85 92 80 90 95 68 86 метод кластерного анализа Buy Buy Buy Hold Hold Buy Buy Buy Sell Hold Sell Sell Sell Sell Sell Sell · Запустить пакет STATISTICA. · Появится диалоговое окно Statistica Module Switcher рис. Если кто-то работал до Вас с этим пакетом, появятся исходные данные предыдущей работы. В любом случае закройте все окна и начните работу сначала. Появится электронная таблица Data: new. · Введите исходные данные для переменных в столбцы VAR1 и VAR9 в следующем виде придeтся добавить 6 Cases рис. Получим стандартизованные значения исходных данных рис. Определим все переменные, метод и меру расстояния. Анализ этих кластеров какие элементы инвестиционные фонды отнести к перспективным, какие — к бесперспективным требует специальных знаний в этой области. Можно руководствоваться следующими правилами: в первом кластере правом видно, что расходы были разумными: при низких доходах в 1990 году в следующие годы состояние фондов этого кластера метод кластерного анализа улучшалось. При невысоком рейтинге риска налоговые сборы были также достаточно низкими, акции этих фондов целесообразно покупать; во втором кластере среднем имелись наибольшие расходы, хотя за пятилетний период доходы были высокими. Оценка риска и налоговые сборы оказались максимальными среди всех кластеров, значит акции этих фондов следует придержать; о третьем кластере можно сказать, что он занимает второе место по расходам относительно доходов за пятилетний период. Оценка риска самая метод кластерного анализа, однако налоговые сборы значительно ниже, чем у первого кластера, поэтому акции этих фондов целесообразно продать. Исходные данные для заданий приводятся в табл. Провести классификацию стран по соответствующим показателям согласно выбранных вариантов. Номер варианта Переменные Метод кластерного анализа варианта Переменные Номер варианта Переменные 1 X 1 ,X2 ,X4 ,X5 6 Метод кластерного анализа 1 ,X2 ,X6 метод кластерного анализа 11 X 2 ,X3 ,X10 ,X11 2 X 1 ,X2 ,X6 метод кластерного анализа 7 X 1 ,X2 ,X4 ,X7 12 X 2,X 3 ,X4 ,X10 3 X 1 ,X2 ,X8 ,X9 8 X 2 ,X3 ,X4 ,X5 13 X 2 ,X3 метод кластерного анализа ,X11 4 X 1 ,X2 ,X10 ,X11 9 X 2 ,X3 ,X6 ,X7 14 X 2 ,X3 ,X6 ,X8 5 X 1 ,X2 ,X3 ,X8 10 X 2 ,X3 ,X8 ,X9 15 X 1 ,X3 ,X5 ,X9 Т а б л и ц а 4. Смертность населения указана только по причине болезней органов кровообращения.


СТОЛ ЗАКАЗОВ: