Кластерный анализ - это статистический метод, используемый для определения того, как различные единицы - например, люди, группы или общества - могут быть сгруппированы вместе из-за общих для них характеристик. Также известный как кластеризация, это исследовательский инструмент анализа данных, целью которого является сортировка различных объектов в группы таким образом, чтобы, когда они принадлежат к той же группе, они имеют максимальную степень ассоциации, и когда они не принадлежат к той же группе, их степень ассоциации минимален. В отличие от некоторых других статистические методыструктуры, которые обнаружены с помощью кластерного анализа, не нуждаются ни в объяснении, ни в интерпретации - он обнаруживает структуру в данных без объяснения причин их существования
Что такое кластеризация?
Кластеризация существует практически во всех аспектах нашей повседневной жизни. Взять, к примеру, товары в продуктовом магазине. Различные типы предметов всегда отображаются в одном и том же или близлежащих местах - мясо, овощи, газированные напитки, хлопья, бумажные изделия и т. Д. Исследователи часто хотят сделать то же самое с данными и группировать объекты или предметы в кластеры, которые имеют смысл.
Чтобы взять пример из социальных наук, скажем, мы смотрим на страны и хотим сгруппировать их в кластеры на основе таких характеристик, как разделение труда, военные, технологии или образованное население. Мы обнаружили бы, что Великобритания, Япония, Франция, Германия и Соединенные Штаты имеют сходные характеристики и будут объединены в группы. Уганда, Никарагуа и Пакистан также будут сгруппированы в другой кластер, потому что они имеют другой набор характеристик, включая низкий уровень благосостояния, более простое разделение труда, относительно нестабильные и недемократические политические институты и низкий уровень технологического развития. развитие.
Кластерный анализ обычно используется на исследовательской фазе исследования, когда у исследователя нет предвзятые гипотезы. Обычно это не единственный используемый статистический метод, а скорее делается на ранних стадиях проекта, чтобы помочь в проведении остальной части анализа. По этой причине тестирование значимости обычно не является ни уместным, ни уместным.
Существует несколько различных типов кластерного анализа. Двумя наиболее часто используемыми являются кластеризация K-средних и иерархическая кластеризация.
K-означает кластеризацию
Кластеризация K-средних обрабатывает наблюдения в данных как объекты, имеющие местоположения и расстояния друг от друга (обратите внимание, что расстояния, используемые в кластеризации, часто не представляют пространственные расстояния). Он разбивает объекты на K взаимоисключающих кластеров так, чтобы объекты в каждом кластере были как как можно ближе друг к другу и в то же время как можно дальше от объектов в других кластерах. Каждый кластер затем характеризуется средняя или центральная точка.
Иерархическая кластеризация
Иерархическая кластеризация - это способ исследовать группировки данных одновременно на разных масштабах и расстояниях. Это достигается путем создания дерева кластеров с различными уровнями. В отличие от кластеризации K-средних дерево не является единым набором кластеров. Скорее, дерево представляет собой многоуровневую иерархию, в которой кластеры на одном уровне объединяются в кластеры на следующем более высоком уровне. Используемый алгоритм начинается с каждого случая или переменной в отдельном кластере, а затем объединяет кластеры, пока не останется только один. Это позволяет исследователю решить, какой уровень кластеризации наиболее подходит для его исследования.
Выполнение кластерного анализа
Наиболее программы для статистики может выполнить кластерный анализ. В SPSS выберите анализировать из меню, затем Сортировать по и кластерный анализ. В САС проц кластер Функция может быть использована.
Обновлено Ники Лиза Коул, доктор философии