Очистка данных для анализа данных в социологии

Очистка данных является важной частью анализа данных, особенно когда вы собираете свои собственные количественные данные. После того, как вы собрали данные, вы должны ввести их в компьютерную программу, такую как SAS, SPSS или Excel. Во время этого процесса, будь то ручная работа или компьютерный сканер, будут ошибки. Независимо от того, насколько тщательно данные были введены, ошибки неизбежны. Это может означать неправильное кодирование, неправильное чтение записанных кодов, неправильное распознавание почерневших меток, пропущенных данных и т. Очистка данных - это процесс обнаружения и исправления этих ошибок кодирования.

Существует два типа очистки данных, которые необходимо выполнить для наборов данных. Возможна очистка кода и непредвиденная очистка. Оба имеют решающее значение для процесса анализа данных, потому что если их игнорировать, вы почти всегда будете вводить в заблуждение результаты исследований.

Возможна очистка кода

Любая данная переменная будет иметь определенный набор вариантов ответов и кодов, соответствующих каждому варианту ответа. Например, переменная

instagram viewer

Пол будет иметь три варианта ответа и коды для каждого: 1 для мужчины, 2 для женщины и 0 для отсутствия ответа. Если у вас есть респондент, закодированный как 6 для этой переменной, ясно, что была допущена ошибка, поскольку это не является возможным кодом ответа. Очистка возможных кодов - это процесс проверки того, что в файле данных отображаются только коды, назначенные вариантам ответов для каждого вопроса (возможные коды).

Некоторые компьютерные программы и статистические программные пакеты, доступные для ввода данных, проверяют эти типы ошибок при вводе данных. Здесь пользователь определяет возможные коды для каждого вопроса перед вводом данных. Затем, если вводится число за пределами предварительно определенных возможностей, появляется сообщение об ошибке. Например, если пользователь попытался ввести 6 для пола, компьютер может подать звуковой сигнал и отказаться от кода. Другие компьютерные программы предназначены для проверки незаконных кодов в готовых файлах данных. То есть, если они не были проверены во время процесса ввода данных, как только что описано, существуют способы проверить файлы на наличие ошибок кодирования после завершения ввода данных.

Если вы не используете компьютерную программу, которая проверяет ошибки кодирования во время процесса ввода данных, Вы можете найти некоторые ошибки, просто изучив распределение ответов на каждый элемент данных. устанавливать. Например, вы можете сгенерировать таблицу частот для переменной Пол и здесь вы увидите номер 6, который был введен неправильно. Затем вы можете найти эту запись в файле данных и исправить ее.

Очистка от непредвиденных обстоятельств

Второй тип данные Очистка называется очисткой на случай непредвиденных обстоятельств и является немного более сложной, чем очистка с использованием кода. Логическая структура данных может накладывать определенные ограничения на ответы определенных респондентов или на определенные переменные. Очистка от непредвиденных обстоятельств - это процесс проверки того, что такие данные действительно есть только в тех случаях, в которых должны быть данные по определенной переменной. Например, допустим, у вас есть вопросник, в котором вы спрашиваете респондентов, сколько раз они были беременны. Все респонденты должны иметь закодированный ответ в данных. Самцов, однако, следует либо оставить пустыми, либо иметь специальный код для ответа. Если какие-либо мужчины в данных закодированы как имеющие 3 беременности, например, вы знаете, что есть ошибка, и ее необходимо исправить.

_Ссылки

_{Бабби, Э. (2001). Практика социальных исследований: 9-е издание. Белмонт, Калифорния: Уодсворт Томсон.}