Вторичный анализ данных - это анализ данных, которые были собраны кем-то другим. Ниже мы рассмотрим определение вторичных данных, то, как они могут использоваться исследователями, а также плюсы и минусы этого типа исследований.
Ключевые выводы: анализ вторичных данных
- Первичные данные относятся к данным, которые сами исследователи собрали, а вторичные данные относятся к данным, которые были собраны кем-то другим.
- Вторичные данные доступны из различных источников, таких как правительства и исследовательские институты.
- Хотя использование вторичных данных может быть более экономичным, существующие наборы данных могут не отвечать на все вопросы исследователя.
Сравнение первичных и вторичных данных
В социологических исследованиях термины первичные данные и вторичные данные являются общепринятыми. Первичные данные собираются исследователем или группой исследователей для конкретной цели или рассматриваемого анализа. Здесь исследовательская группа задумывает и разрабатывает исследовательский проект, решает
техника отбора пробсобирает данные, предназначенные для решения конкретных вопросов, и проводит собственный анализ собранных ими данных. В этом случае люди, вовлеченные в анализ данных, знакомы с дизайном исследования и процессом сбора данных.Анализ вторичных данныхс другой стороны, это использование данных, которые был собран кем-то еще для какой-то другой цели. В этом случае исследователь ставит вопросы, которые решаются путем анализа набора данных, которые они не участвовали в сборе. Данные не были собраны, чтобы ответить на конкретные исследовательские вопросы исследователя, а были собраны для другой цели. Это означает, что один и тот же набор данных может фактически быть первичным набором данных для одного исследователя и вторичным набором данных для другого.
Использование вторичных данных
Есть несколько важных вещей, которые необходимо сделать перед использованием вторичных данных в анализе. Поскольку исследователь не собирал данные, для них важно ознакомиться с набором данных: как собирались данные, каковы категории ответов для каждого вопрос, нужно ли применять весовые коэффициенты во время анализа, нужно ли учитывать кластеры или стратификацию, кем была популяция исследования, и Больше.
Большое количество вторичных ресурсов данных и наборов данных доступны для социологических исследованиймногие из которых общедоступны и легко доступны. Перепись Соединенных Штатов, Общий социальный опроси Исследование американского сообщества Вот некоторые из наиболее часто используемых вторичных наборов данных.
Преимущества вторичного анализа данных
Самым большим преимуществом использования вторичных данных является то, что они могут быть более экономичными. Кто-то уже собрал данные, поэтому исследователю не нужно тратить деньги, время, энергию и ресурсы на этот этап исследований. Иногда вторичный набор данных должен быть приобретен, но стоимость почти всегда ниже, чем стоимость сбора аналогичного набор данных с нуля, который обычно влечет за собой заработную плату, поездки и транспорт, офисные помещения, оборудование и другие накладные расходы расходы. Кроме того, поскольку данные уже собраны и, как правило, очищаются и хранятся в электронном формате, исследователь может проводить большую часть своего времени. анализ данных вместо того, чтобы получать данные для анализа.
Вторым важным преимуществом использования вторичных данных является широта доступных данных. Федеральное правительство проводит многочисленные исследования в крупном национальном масштабе, которые отдельным исследователям будет трудно собирать. Многие из этих наборов данных также продольныйЭто означает, что одни и те же данные были получены от одной и той же популяции за несколько разных периодов времени. Это позволяет исследователям смотреть на тенденции и изменения явлений во времени.
Третье важное преимущество использования вторичных данных состоит в том, что процесс сбора данных часто поддерживает уровень экспертизы и профессионализма, которые могут отсутствовать у отдельных исследователей или небольших исследовательских проектов. Например, сбор данных для многих федеральных наборов данных часто выполняется сотрудниками, которые специализируются в определенных задачах и имеют многолетний опыт работы в этой конкретной области и с этим конкретным обследованием. Многие более мелкие исследовательские проекты не имеют такого уровня знаний, так как много данных собирается студентами, работающими неполный рабочий день.
Недостатки вторичного анализа данных
Основным недостатком использования вторичных данных является то, что они могут не отвечать на конкретные исследовательские вопросы исследователя или содержать конкретную информацию, которую исследователь хотел бы иметь. Он также, возможно, не был собран в географическом регионе или в течение желаемых лет, или с определенной группой населения, которую исследователь заинтересован в изучении. Например, исследователь, который заинтересован в изучении подростков, может обнаружить, что вторичный набор данных включает только молодых людей.
Кроме того, поскольку исследователь не собирал данные, он не может контролировать, что содержится в наборе данных. Часто это может ограничить анализ или изменить первоначальные вопросы, на которые исследователь пытался ответить. Например, исследователь, который изучает счастье и оптимизм, может обнаружить, что вторичный набор данных включает только один из этих переменные, но не оба.
Связанная проблема заключается в том, что переменные могли быть определяется или классифицируется по-разному чем исследователь выбрал бы. Например, возраст может быть собран в категориях, а не в виде непрерывной переменной, или раса может быть определена как «белая» и «другая» вместо того, чтобы содержать категории для каждой основной расы.
Другим существенным недостатком использования вторичных данных является то, что исследователь не знает точно, как был выполнен процесс сбора данных или насколько хорошо он был выполнен. Исследователь обычно не осведомлен о том, насколько серьезно на данные влияют такие проблемы, как низкий уровень ответов или неправильное понимание респондентом конкретных вопросов опроса. Иногда эта информация легко доступна, как в случае со многими федеральными наборами данных. Однако многие другие вторичные наборы данных не сопровождаются этим типом информации, и аналитик должен научиться читать между строк, чтобы раскрыть любые потенциальные ограничения данных.