Валидность в психологии: Валидность — Психологос — Богема бильярдный центр в Барнауле

Содержание

Валидация в психологии — определение термина, уровни валидности

Валидация это способ принимать свои чувства или чувства окружающих. Валидация – не значит согласие или одобрение. Валидация – это признание и принятие мыслей, эмоций, чувств и поступков как понятных. Марша Лайнехан описывает 6 уровней валидации.

1 уровень: Быть в настоящем. Есть столько способов находиться «здесь и сейчас»: держать вашего близкого человека за руку, когда он проходит через болезненную медицинскую процедуру, слушать вашего ребенка со всем вашим вниманием и не отвлекаясь ни на что, когда он рассказывает он своем первом дне в школе, приехать домой к подруге в полночь, когда она плачет из-за того, что ее друг солгал о ней кому-то.

Быть в настоящем значит давать все свое внимание человеку, которого вы слушаете.

2 уровень: Стремиться точно понять и сформулировать происходящее. На этом уровне вы пробуете обобщенно назвать чувства, которые испытывает ваш собеседник или вы.

Важно постараться избежать критикующих интонаций и показать, что ваша настоящая цель – правильно понять опыт другого человека. Иногда этот тип валидации помогает разобраться в своих мыслях и отделить эмоции от суждений. «По сути, я чувствую себя разозленным и мне больно» — пример валидации своих собственных чувств. «Похоже, что ты разочарован в себе из-за того, что не перезвонил ему» — пример аккуратной рефлексии в ответ на чей-то рассказ.

3 уровень: Чтение мыслей! Это умение строить предположения о чувствах и мыслях других людей. У всех людей разный уровень способности различать свои чувства. Иногда не получается понять, что именно человек чувствует, потому что в детстве ему не разрешали испытывать те эмоции, которые у него возникали или же его воспитали с чувством страха перед своими эмоциями.

Люди могут скрывать свои чувства, потому что они запомнили, что окружающие негативно реагируют на такие проявления. Это подавление чувств может привести к тому, что даже сам человек не будет понимать, что именно он чувствует, что в свою очередь плохо влияет на способность управлять своими эмоциями.

Помните, что вы можете ошибочно распознать переживания своего собеседника, умение принимать поправки к вашим репликам – часть навыка валидации.

4 уровень: Понимание поведения человека в контексте его личной истории и физического состояния. Ваш опыт и биология вашего тела влияют на ваши эмоциональные реакции. Если ваш лучшая подруга была покусана собакой пару месяцев назад, она маловероятно получит удовольствие, играя с вашей немецкой овчаркой. Валидация на этом уровне будет звучать так: «Учитывая то, что случилось с тобой недавно, я полностью понимаю, что тебе не хочется находится рядом с моей собакой.»

Самовалидация – понимание ваших собственных реакций в контексте вашего прошлого опыта.

5 уровень: Признание эмоций нормальными в данной ситуации и слова о том, что такие чувства испытал бы и другой человек, попади он в такую ситуацию. «Конечно ты нервничаешь. Первое публичное выступление страшно для любого человека, это нормально.

6 уровень: Полная искренность. На этом уровне вы проявляете понимание к собеседнику на очень глубоком уровне, например, если у вас был похожий опыт. Чувство общности переживаний приносит большое облегчение в сложных ситуациях. Нередко такой опыт возникает в результате встречи терапевтической группы (групповая терапия).

Переведено с английского, с сокращениями, специально для ЦИРПП, источник:

https://www.psychologytoday.com/blog/pieces-mind/201204/understanding-validation-way-communicate-acceptance

Валидность психологических тестов. Виды валидности.

К основным психометрическим характеристикам тестов относятся, в первую очередь, валидность и надежность.

Валидность – это свойство теста измерять именно то, для чего он предназначен.

Например, мы можем определить что «знание математики» соответствует высоким баллам, полученным по математическим тестам. Но если все задания состоят из простых арифметических задач, то тест будет определять, насколько человек быстро считает. Таким образом, важно понимание того насколько рабочее определение измеряемой величины соответствует концептуальному определению. Достичь абсолютной валидности нельзя. Можно лишь пытаться максимально улучшить валидность в каждом конкретном случае, исходя из критериев, значимых для этого случая.

Существуют разные типы и виды валидности:

Практическая валидность характеризует тест не столько со стороны его психологического содержания, сколько с точки зрения его ценности в отношении достижения определенной практической цели (прогнозирования, диагностики). Выделяют подтипы практической валидности: прогностическая и совпадающая. Тест с высокой прогностической валидностью позволяет сделать прогноз, насколько успешно испытуемый будет выполнять определенную деятельность впоследствии. Тест с высокой совпадающей валидностью позволяет ответить на вопрос: «Какова вероятность того, что индивид Х обладает свойством У в настоящий момент времени?»

Валидность по объему отражает степень, в какой объем теста выборочно репрезентирует тот класс ситуаций или учебного материала, относительно которого должны быть сделаны выводы и показывает, в каком объеме, в какой мере знание чего-либо отражено в методике.

Оценочная валидность выражает степень корреляции (соответствия) между показателями, полученными испытуемыми по данному методу, и оценками измерительного свойства со стороны экспертов. Например, при валидизации (проверке теста на валидность) тестов оценки знаний школьников в качестве экспертов обычно выступают учителя. Внешняя валидность означает, что впечатление, которое создается при знакомстве с сугубо внешней стороной тестирования, соответствует заявленному содержанию метода. Это наименее важный аспект валидности, так как требует дополнительной проверки валидности другими методами. В некоторых случаях исследователи специально ухудшают внешнюю валидность, например, для измерения социально нежелательных характеристик (таких как расизм). Внутренняя валидность – это необходимое условие возможности интерпретации результатов теста, она спрашивает: «Не изменились ли условия эксперимента в данном случае?» Факторы ухудшающие внутреннюю валидность: 1. История: некое событие произошло между первым и вторым измерением в дополнение к экспериментальным переменным.

2. Развитие: процесс внутри испытуемых, как функция от времени (не специфический к частным событиям), например, взросление, усиление чувства голода, усталость и т.д. 3. Тестирование: эффект первого тестирования влияет на баллы второго. 4. Инструменты: изменение в наблюдателях или способах получения баллов могут влиять на наблюдаемые величины. 5. Статистическая регрессия: в случае, если работа идет с группами, отобранными на основе экстремальных значений балов.6. Выбор: смещение, возникающее в результате дифференцированного выбора респондентов в пары для сравнения.7. Выбывание: дифференциальная потеря респондентов из сравниваемых групп.Валидность генерализации (репрезентативность), задает вопрос о том, на кого мы можем распространить результаты эксперимента. Факторы ухудшающие репрезентативную валидность: 1. Реагирующий или взаимодействующий эффект тестирования: значения первого теста могут возрасти.2. Эффект взаимодействия смещения выбора и экспериментальных переменных.

3. Эффект экспериментальной подготовки, который будет препятствовать распространению результата на людей, которые тестируются в не-экспериментальном окружении.4. Эффект многократной обработки, когда эффект предыдущих тестов не стирается. Валидность критерия состоит из двух частей:Совместная валидность: «Есть ли какая-либо связь между мерой и другими проявлениями свойства, которого этот тест должен измерить?».Предиктивная валидность: «Предсказывает ли тест уровень развития данной конкретной способности?»

Относительная валидность: важно знать насколько результаты данного теста соответствуют результатам аналогичных тестов, которые измеряют то же или близкое свойство.

Дискриминантная валидность: важно показать, что мера не измерят то, что не предполагалось измерять, то есть дискриминантна. Например, можно говорить о дискриминантной валидности, если есть низкая корреляция между результатами теста на скорость чтения и теста на определяющие факторы мотивации, так как способность к чтению не имеет отношения к мотивации.

Источники плохой валидности:1. Плохая надежность теста2. Ответы на вопросы = психологическая ориентация или предубеждения против данного ответа:

2.1. Уступчивость: тенденция соглашаться, то есть говорить «Да». Следует составлять вопросы.2.2.Социальная желательность: тенденция показывать себя в лучшем свете. Следует составлять тесты, где социальная желательность не очень заметна.2.3. Ухудшение: намеренно говорить «Нет», если это принесет какую-нибудь «награду» (например, внимание, компенсацию, социальную помощь и т.д.).3. Смещение:1.1 Культурное смещение: имеет ли данное свойство одинаковое значение в разных культурах? Как различные вопросы интерпретируются людьми разных культур? Содержание теста (внешняя валидность) может быть разной для людей разных культур.1.2 Смещение по половому признаку также может быть возможным.1.3 Тестовое смещение:1.3.1 Смещение в измерениях возникает, если тест делает систематическую ошибку в измерении данного свойства.

Например, считается, что многие тесты IQ хороши для основной средней массы населения, но не для представителей национальных меньшинств, ведущих отличный образ жизни. Если тест проводится методом интервью, то возникает смещение в направлении хорошо выглядящих экзаменуемых.1.3.2Смещение в предпосылках возникает, когда тест делает систематическую ошибку в предсказании некоторого значения или критерия. Также тест может быть хорош только для некоторых групп людей. Например, тест, составленный мужчинами, может не очень хорошо оценивать значение данной характеристики у женщин.

Внимание!

Если вам нужна помощь в написании работы, то рекомендуем обратиться к профессионалам. Более 70 000 авторов готовы помочь вам прямо сейчас. Бесплатные корректировки и доработки. Узнайте стоимость своей работы.

Поможем написать любую работу на аналогичную тему

Получить выполненную работу или консультацию специалиста по вашему учебному проекту

Узнать стоимость

Валидность это в психологии, виды валидности, понятие

Валидность – это один из базовых критериев в психодиагностике тестов, методик, определяющий их качество, близкое к понятию достоверности. Применяется, когда нужно узнать насколько хорошо методика измеряет именно то, на что она ориентирована, соответственно то, насколько лучше отображается исследуемое качество, тем большая валидность данной методики.

Вопрос о валидности возникает сперва в процессе разработки материала, потом после применения теста или методики, если необходимо узнать, соответствует ли степень выраженности определяемой характеристики личности и методом измерения этого свойства.

Понятие валидности выражается корреляцией результатов, которые получились в результате применения теста или методики с другими характеристиками, которые также исследуются, и ее можно также аргументировать комплексно, с помощью разных приемов и критериев. Используются разные виды валидности: концептуальная, конструктивная, критериальная, содержательная валидности, со свойственными методами установления их степени достоверности. Иногда критерий достоверности является обязательным требованием к проверке психодиагностических методов, если они вызывают сомнения.

Чтобы психологическое исследование имело реальную ценность, оно должно быть не только валидным, а еще и надежным одновременно. Надежность позволяет экспериментатору быть уверенным в том, что исследуемое значение очень близко к истинному показателю. А валидный критерий важен тем, что он указывает, что изучается именно то, что экспериментатор предполагает. Важно обратить внимание на тот факт, что данный критерий может предположить надежность, но надежность предположить валидность не может. Надежные значения могут быть не валидными, но валидные обязаны быть надежными, в этом вся суть успешного исследования, тестирования.

Валидность это в психологии

В психологии понятие валидности обозначает уверенность экспериментатора в том, что он измерял именно то, что хотел с помощью определенной методики, показывает меру соответствия результатов и самой методики относительно поставленных задач. Валидное измерение – это то значение, которое измеряет именно то, для чего было создано. Например, методика, направлена на определение темперамента, должна измерять именно темперамент, а не нечто другое.

Валидность в экспериментальной психологии очень важный аспект, является важным показателем, который обеспечивает достоверность результатов, и с ним иногда больше всего возникает проблем. Совершенный эксперимент должен обладать безупречной валидностью, то есть он должен демонстрировать, что экспериментальный эффект вызван модификациями независимой переменной и полностью соответствовать действительности. Полученные результаты без ограничений можно обобщать. Если речь идет о степени данного критерия, то предполагается, что результаты будут соответствовать поставленным задачам.

Проверка на валидность осуществляется тремя способами.

Оценивание содержательной валидности, проводится, чтобы узнать уровень соответствия использованной методики и реальной действительности, в которой выражается исследуемое свойство в методике. Существует здесь также такой компонент, как очевидная, еще ее называют лицевая валидность, она характеризует степень соответствия теста к ожиданиям оцениваемых. В большинстве методик считается очень важным, чтобы участник оценки видел очевидную связь содержания процедуры оценки и действительности того объекта оценки.

Оценивание конструктной валидности исполняется для получения степени обоснованности, что тест реально вычисляет те конструкты, которые заданные и научно обоснованные.

В конструктной валидности имеются два направления. Первый называется конвергентной валидизацией, с его помощью проверяется ожидаемая связь результатов методики с характеристиками из других методик, которые измеряют исходные свойства. Если для измерения какой-то характеристики необходимо несколько методик, то рациональным решением было бы проведение экспериментов минимум двух методик, чтобы при сопоставлении результатов обнаружив высокую положительную корреляцию, можно было утверждать о валидном критерии.

Конвергентная валидизация определяет вероятность вариации оценки теста с ожиданиями. Второй подход, называется дискриминантная валидизация, в ней заключается, что методика не должна измерять никаких характеристик, с которой теоретически не должно быть корреляции.

Проверка на валидность, также бывает критериальной, она, руководствуясь статистическими методами, определяет степень соответствия результатов к заранее определенным внешним критериям. Такими критериями могут быть: непосредственные меры, независимые от результатов методики или значение социально-организационных значимых показателей деятельности. В критериальной валидности также выделяют прогностическую, она применяется при потребности прогнозирования поведения. И если получается, что этот прогноз осуществляется со временем, значит методика прогностически валидна.

Валидность теста это

Тест – это стандартизованное задание в результате применения, которого получаются данные о психофизиологическом состоянии человека и его личностные свойства, его знания, способности и навыки.

Валидность и надежность тестов – это два показателя, которые определяют их качество.

Валидность теста определяет степень соответствия исследуемого качества, характеристики, психологического свойства к тесту, с помощью которого они определяются.

Валидность теста является показателем его эффективности и применяемости к измерению необходимой характеристики. Самые качественные тесты имеют 80% валидности. При валидизации следует учитывать, что от контингента испытуемых и их характеристик, будет зависеть качество результатов. Получается, что один тест может быть как высоко достоверным, так и совсем невалидным.

Существует несколько подходов к определению валидности теста.

При измерении сложного психологического явления, которое имеет иерархическую структуру и его невозможно исследовать, применяя всего один тест, применяют конструктивную валидность. Она определяет точность исследования сложных, структурированных психологических явлений, качеств личности, измеряемых с помощью тестирования.

Валидность за критерием – это такой критерий теста, за которым определяется исследуемое психологическое явление в настоящий момент и прогнозирование особенностей этого явления в будущем. Для этого результаты, полученные при тестировании соотносятся со степенью развития измеряемого качества на практике, оценка специфических способностей в определенной деятельности. Если валидность теста имеет значение минимум 0,2 то применение такого теста является оправданным.

Содержательная валидность – это критерий теста, который применяется для определения соответствия области его измеряемых психологических конструктов, демонстрирует все полноту множества измеряемых показателей.

Прогностическая валидность – критерий, за которым можно предсказать характер развития исследуемого качества в будущем. Такой критерий качества теста очень ценный, если смотреть с практической стороны, но могут быть сложности, поскольку исключается неравномерность развития данного качества в разных людей.

Надежность теста – это критерий теста, который измеряет уровень стабильности результатов, полученных после тестирования, при повторном исследовании. Определяется путем вторичного тестирования спустя определенное количество времени и расчета корреляционного коэффициента результатов, полученных после первого и после второго тестирования. Также важно, учитывать особенности самой процедуры проведения тестов и социально-психологической структуры выборки. Один и тот же тест может иметь разную надежность, зависимо от пола, возраста, социального статуса исследуемых. Поэтому надежность может иногда иметь неточности, ошибки, которые истекают из самого процесса исследования, поэтому ищутся пути, как уменьшить влияние определенных факторов на тестирование. Можно утверждать о надежности теста, если она составляет значение 0,8-0,9.

Валидность и надежность тестов очень важны, потому что определяют тест, как измерительный инструмент. Когда надежность и валидность неизвестны, тест считается неприменяемым для применения.

В измерении надежности и валидность имеет место также этический контекст. Это особенно важно, когда результаты тестирования имеют значимость в использовании их для принятия жизненно важных решений людей. Одних людей принимают на работу, других отсеивают, одни студенты проходят в учебные заведения, а другие должны еще доучиться сначала, кому-то определяется психиатрический диагноз и лечение, а кто-то здоров – это все говорит о том, что подобные решения принимаются на основании изучения оценки поведения или специальных способностей. Например, человек ищущий работу, должен пройти тестирование, и его оценки есть решающими показателями при приеме на работу, узнает, что тест был не в меру валидным и надежным, он очень разочаруется.

Валидность методики это

Валидность методики определяет соответствие того, что изучается данной методикой, тому для изучения чего именно она предназначена.

Например, если психологическая методика, которая основана на осведомленном самоотчете, назначена для исследования некого качества личности, такого качества, которое не может быть верно, оцененным самим человеком, то такая методика не будет валидной.

В большинстве случаев ответы, которые дает испытуемый на вопросы о наличии или отсутствии развитости в нем этого качества, может выражать то, как сам испытуемый воспринимает себя, или каким бы ему хотелось быть в глазах других людей.

Валидность также является основным требованием к психологической методике изучения психологических конструктов. Существует масса разных видов данного критерия, и нет пока единственного мнения о том, как правильно назвать эти виды и неизвестно каким именно видам методика обязана соответствовать. Если же методика оказывается невалидной внешне или внутренне, не рекомендуется ее использовать. Существуют два подхода к валидизации методики.

Теоретический подход выявляется в том, чтобы показать насколько действительно методика измеряет именно то качество, которое, как придумал исследователь, и обязана измерять. Это доказывается через составление с родственными показателями и теми, где связей не могло бы быть. Поэтому для подтверждения теоретического валидного критерия нужно определить степень связей с родственной методикой, имеется в виду конвергентный критерий и отсутствие такой связи с методиками, которые имеют иную теоретическую базу (дискриминантная валидность).

Оценивание валидности методики может быть количественной или качественной. За прагматическим подходом оценивается эффективность и практическая значимость методики, и для ее проведения используется независимый критерий извне, как показатель встречаемости данного качества в повседневной жизни. Таким критерием, например, может быть успеваемость (для методик на достижения, тестов на интеллект), субъективные оценки (для личностных методик), специфические способности, рисование, моделирование (для методик специальных особенностей).

Для доказательства валидности внешних критериев, выделяется четыре типа: критерии исполнения – это критерии такие, как количество выполненных заданий, время, потраченное на обучение; субъективные критерии получают вместе с опросниками, интервью или анкетами; физиологические – частота пульса, давление, физические симптомы; критерии случайности – используются, когда к цели имеет касательство или влияние определенного случая или обстоятельств.

При выборе методики исследования имеет теоретическое и практическое значение определение охвата изучаемых характеристик, как важной составляющей валидности. Информация, которая содержится в названии методики практически всегда не является достаточной для суждения об области ее применения. Это просто имя методики, но под ним всегда кроется еще много чего. Хорошим примером будет методика корректурной пробы. Здесь в сферу изучаемых свойств включаются концентрация внимания, устойчивость и психомоторная скорость процессов. Такая методика дает оценку выраженности этих качеств в личности, хорошо соотноситься со значениями, полученными из других методов и обладает хорошей валидностью. Вместе с тем полученные в результате проведения корректурной пробы значения подвержены большему влиянию других факторов, относительно которых методика будет неспецифичной. Если применить корректурную пробу, чтобы измерить их, то валидность будет невысокая. Выходит,что определяя область применения методики, валидный критерий отображает уровень обоснованности результатов исследования. При небольшом количестве сопровождающих факторов, которые имеют влияние на результаты, достоверность оценок, полученных в методике будет выше. Еще достоверность результатов определяется с помощью набора измеряемых свойств, их важностью при осуществлении диагностики сложной деятельности, существенностью отображения в материале методики предмета измерения. Например, для удовлетворения требований достоверности и надежности, методика, назначенная на профотбор, должна иметь анализ большого круга различных показателей, которые наиболее важные при достижении успеха в профессии.

Виды валидности

Валидный критерий бывает нескольких видов, в зависимости на что именно он направлен.

Внутренняя валидность определяет насколько определенное экспериментально воздействие стало причиной изменений в данном эксперименте.

Внутренняя валидность определяется отношениями между независимыми и зависимыми переменными, и проходит через особенные процедуры, в результате которых определяется достоверность выводов в данном исследовании. О внутреннем критерии говорится, когда достоверно известно о зависимости причинно-следственного типа между независимыми и зависимыми переменными.

Валидность исследования определяется влиянием неконтролируемых ситуативных факторов на изучаемое явление, если оно высокое, то данный критерий будет низким. Высокая внутренняя валидность исследования является признаком качественного исследования.

Внешняя валидность обобщает вывод популяции, ситуации и других независимых переменных. От того, насколько высокая и хорошая внешняя валидность зависит возможность переноса результатов, полученных в исследовании на реальную жизнь.

Очень часто внешняя и внутренняя валидизации противоречат друг другу, потому что если увеличивается одна валидность, то это значение может повлиять на показатели другой. Самым лучшим вариантом считается выбор экспериментальных планов, которые обеспечивали бы два вида данного критерия. Особенно это важно в случае исследований, в которых важным есть распространение результатов в определенных практических ситуациях.

Содержательная валидность применима к тем тестам, в которых полностью моделируется определенная деятельность, в первую очередь, аспекте связанным с предметом. Выходит, что в самом содержании методики отражаются основные стороны психологического конструкта. Если эта характеристика имеет сложную структуру, то в самой методике должны присутствовать все входящие в него элементы. Определяется такой валидный критерий с помощью систематического контроля за содержанием, должен показывать полноту охвата всей выборки за измеряемыми параметрами. Исходя из этого должна быть проведена эмпирическая проверка методики в соответствии с ее гипотезами. Каждое задание или вопрос в назначенной области, должен иметь равные шансы на включение его к заданиям теста.

Эмпирическая валидность определяется через статистическую корреляцию, то есть считается корреляция баллов по тесту и показателей внешнего параметра, избранного как критерий валидности.

Конструктная валидность относится к теоретическому конструкту, как отдельному и включается к поиску факторов, которые объясняют поведение человека при выполнении теста или методики.

Прогностический тип валидности определяется за счет наличия очень надежного внешнего критерия, хотя информация о нем собирается через определенное время после окончания испытания. Таким внешним критерием может быть способность личности к определенному виду деятельности, для которой он был отобран за результатами психодиагностических измерений. Точность прогнозирования в этом валидном критерии находится в противоположной зависимости от времени, которое давалось для прогнозирования. И чем больше времени проходит после исследования, тем еще больше факторов будут учитываться для оценивания прогностической значимости теста. Хотя учесть абсолютно все имеющиеся факторы практически невозможно.

Ретроспективная валидность определяется за критерием, который отражает события или сстояние свойства в прошлом времени. Она может использоваться для получений знаний о предсказательных аспектах методики. Очень часто в таких тестах сопоставляют оценки развития способности в их прошлом значении и на данный момент, вычесляется насколько эффективнее стали результаты.

Экологическая валидность показывает, что некий организм в силу наследственных, генетически обусловленных или приобретенных особенностей является подготовленным к демонстрированию разнообразных форм поведения во всевозможных контекстах или в разных средах обитания. Действия организма могут быть успешными в одном времени и месте, но не настолько успешными или совсем не иметь успеха в другое время, и другом месте.

Экологическая валидность подтверждается, если результаты исследования имеют место подтверждения или должного применения их в полевых исследованиях. Проблемой лабораторных исследований есть адекватная переносимость полученных результатов на условия реальной жизни, на повседневную деятельность индивида, которая длится естественным путем. Но это тоже не является конечным подтверждением результатов, как экологически валидных, потому что предполагает генерализацию также на другие условия и обстоятельства. Часто исследования обвиняются в невысоком, экологическом валидном критерии, но вся причина бывает заключается в невозможности повторить исследование в реальной жизни.

Автор: Практический психолог Ведмеш Н.А.
Спикер Медико-психологического центра «ПсихоМед»

Мы в телеграм! Подписывайтесь и узнавайте о новых публикациях первыми!
Валидность. Психология развития [Методы исследования]
Валидность
При оценке валидности теста ставится следующий вопрос: измеряет ли тест то, что, как предполагается, он должен измерять? Если это, к примеру, IQ-тест, действительно он измеряет различия в уровне интеллекта или различия показателей испытуемых обусловлены чем-то другим? Очевидно, что недостаточно назвать тест тестом интеллекта, нужны другие критерии. В целом, существует три типа критериев валидности.
Первый — тест должен отвечать требованиям содержательной валидности. Термин содержательная валидность означает адекватность, с которой задания теста характеризуют изучаемое понятие. Включает ли тест все важнейшие аспекты объекта, которые мы хотим измерить, и правильно ли оценивается значение каждого из них? Предположим, наш тест должен оценивать знания арифметики на уровне 4-го класса. Тест, содержащий примеры только на сложение, будет обладать недостаточной содержательной валидностью. Значительно лучшей содержательной валидностью будет обладать тест, включающий репрезентативную подборку задач на сложение, вычитание, умножение и деление.

Добиться содержательной валидности желательно, но это не всегда легко. Даже в отношении такого строго структурированного предмета, как элементарная арифметика, могут возникнуть расхождения, касающиеся адекватности подобранных заданий. К примеру, сколько должно быть примеров с двузначными, а сколько — с трехзначными числами; в какой контекст или в какие контексты должны быть помещены эти примеры? Когда объектом является нечто более сложное, чем элементарная арифметика, добиться содержательной валидности бывает практически невозможно. Как бы ни был широк диапазон подобранных вопросов теста, сомнительно, чтобы с помощью одного контент-анализа можно было бы продемонстрировать полноту и репрезентативность подбора вопросов для оценки любого из возможных аспектов «интеллекта». В таких случаях необходимы другие индексы валидности.
Вторая форма валидности — критериальная валидность. Здесь вопрос состоит в том, связаны ли результаты выполнения теста испытуемым с определенным внешним критерием характеристики, оцениваемой этим тестом. В случае теста на знание арифметики разумным критерием были бы отметки по арифметике за учебный год. Тест, значительно коррелирующий с этими отметками, обладал бы необходимой критериальной валидностью. В случае с интеллектом характерным критерием является возможность с помощью IQ-тестов спрогнозировать уровень школьной успеваемости или успешность выполнения стандартизированных тестов достижения; в действительности, исторически именно потребность в инструментах прогноза школьной успеваемости заставила приступить к разработке первого IQ -теста (тест Симона—Бине, 1905 год). Чаще всего критериальная валидность — это главная форма валидности тестов, основная функция которых состоит
в получении прогностической прагматической оценки. Поэтому именно критериальная валидность лежит в основе использования тестов академических способностей (Scholastic Aptitude Test — SAT) или письменных экзаменов для выпускников (Graduate Record Examinations — GRE) с целью прогноза успеваемости в колледже; использования результатов забега на 40 ярдов с целью прогноза успехов профессиональных футболистов и т. д.
Выделяют две формы критериальной валидности. Тест, коррелирующий с неким наличествующим в данный момент внешним критерием, считается обладающим текущей валидностью. Доказав, к примеру, что IQ, измеряемый во втором классе, коррелирует со школьной успеваемостью во втором классе, мы продемонстрировали бы текущую валидность нашей методики оценки IQ. О тесте, коррелирующем с неким внешним критерием в будущем, говорят, что он обладает прогностической валидностью. Доказав, что IQ, измеренный во втором классе, связан с успеваемостью в старших классах, мы продемонстрировали бы прогностическую валидность.
Последняя форма валидности, которую мы рассмотрим, называется конструкт-ной валидностью. Среди психометристов конструктная валидность считается наиболее важной формой валидности теста. К сожалению, из всех видов валидности исследователю ее труднее всего добиться, а автору учебника — труднее всего разъяснить. Я ограничусь лишь краткими предварительными замечаниями об этом сложном понятии. Более подробное изложение данной темы можно найти во многих источниках, включая работы Кронбах (Croiibach, 1990), Керлингер (Kerlinger, 1986) и Наннэлли (Nunnally, 1978).
Характерной особенностью конструктной валидности является ее теоретическая направленность. Как замечает Керлингер (Kerlinger, 1986), «это не просто вопрос валидизации теста. Необходимо попытаться валидизировать теорию, стоящую за тестом» (р. 420). Исходным пунктом поэтому становится некая концепция конструкта (интеллекта, креативности, Я-концепции, тревожности и т. д.), который мы хотим измерить. На основе этой концепции можно выдвинуть ряд гипотез. Это могут быть гипотезы об эффекте определенного рода экспериментальных манипуляций. Предположим, что мы пытаемся валидизировать некую методику измерения тревожности. Можно выдвинуть гипотезу о том, что повышение напряженности тестовой ситуации приведет к повышению показателя, полученного при помощи данной методики, и наоборот, снижение напряженности приведет к снижению этого показателя. Подобные результаты явились бы свидетельством наличия конструктной валидности.
Для установления конструктной валидности, помимо экспериментальных тестов, имеют значение и корреляционные данные. Прогнозируемые корреляции бывают двух видов. Одни гипотезы касаются вопроса о том, какие параметры конструкта положительно коррелируют с некими другими параметрами.
Рис, 4.1. Пример матрицы «свойствах методы. Буквами обозначены свойства или конструкты, а числами — методы исследования
Разрабатывая, к примеру, тест тревожности, мы могли бы предположить, что самоотчеты о переживании чувства тревоги коррелируют с физиологическими изменениями, которые рассматриваются как индикаторы тревоги (например, повышение частоты сердечных сокращений). Наличие прогнозировавшейся корреляции между показателями, имеющими общую теоретическую основу, называется конвергентной валидностью. Другие гипотезы касаются вопроса о том, какие показатели не должны коррелировать друг с другом. Например, при валидизации теста тревожности необходимо доказать, что некоторые физиологические изменения не связаны с самоотчетами о переживании чувства тревоги, таким образом, исключая общее возбуждение как объяснение полученных результатов. Дифференциация показателей, имеющих разную теоретическую основу, называется дивергентной (или дискрими-нантной) валидностью.
Весьма оригинальное решение вопроса конструктной валидности предложили Кемпбелл и Фиске (Campbell & Fiske, 1959), разработавшие матрицу «свойства X методы» (СМ). Использование матрицы СМ подразумевает анализ корреляций между предполагаемыми свойствами или конструктами, каждый из которых измеряется при помощи разных методов. В примере, проиллюстрированном на рис. 4.1, исследуется три свойства, каждое из которых оценивается при помощи трех методов, результатом чего является 9 показателей (А1,А2 и т. д.), составляющих массив таблицы. Конвергентную валидность демонстрировали бы достаточно высокие коэффициенты корреляции между показателями каждого столбца, то есть показателями, которые, как предполагается, характеризуют один и тот же конструкт и отличаются только методами, посредством которых они были получены. Дивергентную валидность демонстрировали бы низкие коэффициенты корреляции между любыми показателями, не попадающими в один столбец. Особенно интересны в этом отношении корреляции между показателями каждой строки — то есть, показателями, полученными при использовании одного и того же метода оценки. Иногда положительные корреляции между результатами обусловлены только методическим сходством заданий, а не характером измеряемых параметров. К примеру, в ряде тестов требуется быстрая реакция в условиях ограничения времени; тогда, что бы ни измеряли тесты, испытуемые, чувствующие себя в такой обстановке более уверенно, справятся с заданиями лучше. О корреляциях, являющихся результатом частичного совпадения методов, говорят, что они отражают дисперсию общности методов. Матрица СМ позволяет определить вклад дисперсии общности методов во все полученные корреляционные связи.

Как следует из вышесказанного, конструктная, как и критериальная валидность в большинстве случаев оценивается через проверку ожидаемых корреляций между результатами измерений. Однако между этими двумя видами валидности имеются существенные различия. Критериальная валидность обычно оценивается по какому-то одному внешнему показателю, например школьной успеваемости, в отношении которого мы хотим сделать прогноз; конструктная же валидность оценивается по целой системе предполагаемых взаимосвязей. Цель определения критериальной валидности, как правило, — в прагматическом прогнозе; цель определения конструктной валидности — валидизация лежащей в основе теста теории. Поэтому то, что последняя из рассмотренных форм валидности носит то же название, что и одна из форм валидности эксперимента, о которой рассказывалось в главе 2, не случайно (хотя и может смутить читателя). В обоих случаях сутью вопроса является теоретическая обоснованность: в одном — в отношении измерения, в другом — в отношении исследования в целом.

Что такое валидность исследования и зачем это нужно?
Содержание статьи
Валидность исследования – это соответствие экспериментальной базы, выбранной автором работы, общепринятым стандартам, позволяющим добиться безупречного результата в поиске решения поставленной проблемы. Соответствие результатов экспериментов поставленной цели исследования определяется степенью валидности.
Что характеризует валидность показателя в исследовании
При проведении исследований важно добиться результата, максимально соответствующего безупречному эксперименту. Если полученный итог практической работы вплотную приближен к соответствию с установленными научными стандартами, он имеет высокие показатели валидности.
Существует две категории валидности – это внутренняя и внешняя.
Внутренняя валидность является показателем, отражающим достоверность выводов, полученных после проведения ряда реальных экспериментальных исследований в сравнении с результатами «идеальных» экспериментов, применимых для той же научной отрасли. Является основным требованием, выдвигаемым к результатам экспериментов.
Внешняя валидность – это достоверность полученных результатов исследования по сравнению с итогами экспериментов, направленных на полное соответствие «безупречному» результату. Увеличить внешнюю валидность поможет введение дополнительных переменных с достижением экспериментального уровня, соответствующего реальному уровню аналогичных переменных в изучаемой научной отрасли.
Эксперимент, не обладающий характеристиками внешней валидности, является неверным, но в некоторых ситуациях может использоваться для проверки иных гипотез для научных отраслей, смежных с исследуемой областью знаний.
Угрозы для внутренней, внешней валидности
Основные факторы, влияющие на показатели внутренней валидности:
фоновые события, препятствующие проведению экспериментов;
естественные временные изменения, присущие объекту/предмету исследования;
неправильно подобранная методология исследования;
нестабильные результаты из-за высокого уровня погрешности выбранного инструментария;
взаимодействие нескольких факторов, непосредственно влияющих на внутреннюю валидность;
субъективные предубеждения экспериментатора (нежелание принимать во внимание детали, неправильный учет полученных результатов, неточность/невнимательность и т.д.).
Какие угрозы снижают уровень внешней валидности?
Взаимодействие некачественного отбора материалов исследования и подбора методологической базы к ним.
Реактивный эффект, как изменение восприимчивости предмета исследования после проведения предварительного тестирования.
Взаимная интерференция, возникающая после одновременного воздействия несколькими методами исследования на один объект.
Валидность и надежность экспериментальных методов
Надежность экспериментальных методов, проведенных автором, подтверждает истинность полученных результатов. Валидность отображает степень соответствия итогов исследования к изучаемому явлению выбранной научной отрасли.
Любое валидное исследование по умолчанию является надежным, но надежное исследование не всегда является валидным.
Надежность, как устойчивая составляющая достоверного эксперимента
Надежность (воспроизводимость, устойчивость результатов эксперимента) – это возможность воспроизведения полученных результатов исследования в аналогичных реальных условиях при корреляции начальных/конечных измерений.
От чего зависит надежность проводимых экспериментов?
Минимальная погрешность подобранного инструментария.
Отсутствие неконтролируемой вариативности выбранной методологии исследования.
Объективность исследователя.
Основная характеристика надежности – это получение одинаковых результатов при многократном проведении аналогичных экспериментов. Если все условия соблюдены правильно, методология исследования вызывает доверие.
Принципы взаимодействия валидности и надежности при выборе методов исследования
Принципы взаимодействия надежности с валидностью основываются на трех основных методах установки надежности выбранной методологической базы.
Метод повторяющегося эксперимента. Суть метода – это неоднократное проведение тех же самых экспериментов одинаковыми приборами и сопоставление итоговых результатов исследования в отношении рассматриваемого объекта/явления/события.
Метод альтернативной формы. Может выполняться в двух интерпретациях: один эксперимент применяется к нескольким группам объектов, комбинация экспериментов применяется к одному явлению.
Метод подвыборки. Для проведения комплексного исследования, один или несколько объектов группируются в отдельные выборки с аналогичными свойствами, характеристиками.
Валидность в психологических исследованиях
Причинно-следственная связь, предшествующая эффекту от эксперимента по времени, позволяет объективно обобщить полученные выводы и принудить экспериментатора на дополнительную проработку методологической базы.
Если у экспериментатора нет альтернативных объяснений появления определенных результатов исследования, это свидетельствует о внутренней валидности проведенного эксперимента. В ряде случаев, это утверждение применимо к выявлению внешней или конструктивной валидности.
Статистическая связанность причинно-следственной связи с полученным эффектом от тестирования испытуемых, проявляющаяся при многократном повторе выбранной методологии исследования, говорит о корректности используемых методов и подтверждает наличие валидности статистического вывода.
Валидность в психологических исследованиях повышается тремя основными способами:
предварительное планирование методологической базы;
выбор схемы дальнейшей работы над отсортированными объектами по категориям;
проведение экспериментов над контрольной группой испытуемых.
Надежность и валидность тестов
Для начала определим круг разработанности данной проблемы и кратко перечислим ученых.
Ученые, которые занимались проблемой надежности и валидности методик в психодиагностике: А. Анастази и др.
Далее рассмотрим понятие надежности и валидности методик, а также их сущность и процесс.
Надежность теста
Рассмотрим несколько видов надежности психодиагностических тестов.
Надежность по внутренней согласованности. Измененная часть теста измеряет такую переменную, которую не измеряют неизмененные части теста.
Ретестовая надежность. Повторное тестирование испытуемых с последующей корреляцией результатов начального и окончательного обследования.
Надежность параллельны форм теста. Создание эквивалента опросника и его предъявлений тем же испытуемым для последующей корреляции результатов.
Надежность частей теста можно определить, разделив опросник на части; затем провести корреляцию полученных результатов.
Рисунок 1. «Показатели надежности теста»
При выявлении надежности теста следует проводить методику через значительные временные интервалы. Также рекомендуется проводить тест на выборки не менее 200 испытуемых.
Валидность теста
Рассмотрим некоторые виды валидности тестов в психодиагностике.
Очевидная валидность. Представления испытуемого о тесте.
Конкурентная валидность. Корреляция с подобными тестами.
Прогностическая валидность. Корреляция начальных и более поздних результатов теста.
Инкрементная валидность.
Дифференциальная валидность.
Содержательная валидность. Отражение заданий тестов аспектов определенной изучаемой области.
Эмпирическая валидность. Корреляция результатов данной методики с результатами подобных методик у одних и тех же испытуемых.
Критериальная валидность. Связь полученных результатов и внешних критериев.
Конструктная валидность.
Одним из важных отличий психометрических тестов является то, что они стандартизированы, а это позволяет сравнить показатели, полученные одним испытуемым, с таковыми в генеральной совокупности или соответствующих группах. Стандартизация теста наиболее важна в тех случаях, когда осуществляется сравнение показателей обследуемых.
При этом вводится понятие нормы, или нормативных показателей. Для получения стандартных норм нужно тщательно отобрать большее количество испытуемых в соответствии с ясно обозначенным критерием. При формировании выборки стандартизации следует учитывать ее объём и репрезентативность.
В некоторых случаях приходится формировать несколько групп стандартизации или стратифицировать группу стандартизации относительно таких параметров, как возраст, пол, социальный статус. Устанавливать нормы не всегда обязательно. При использовании психологических тестов в научном исследовании нормы не столь важны и достаточно сырых показателей теста. Нормы для каждой группы должны быть представлены в средних величинах и показателе стандартного отклонения.
Рисунок 2. «Структура валидности»
Понятие «валидность тестов»
Краткая характеристика валидности тестов
Валидность результата теста является соответствием измеряемому признаку.
Валидность теста не применяется в статистических процедурах. Их (процедуры) можно использовать для доказательства, что разрабатываемая процедура психологических измерений имеет достаточную валидность. Они оценивают эмпирическую валидность.
Взаимосвязь между эмпирической и содержательной валидностью схожа с взаимосвязью статистической и экспериментальной гипотезами. Так как первые описывают причинно-следственные связи между фактом и явлением в эксперименте, а вторые – вероятную оценку результата, которая является базой для решения реальности. То содержательная валидность устанавливает связь между результатом теста и реальностью, а статистическая – содержит оценку валидизации эксперимента, которая считается инструментом для принятия решения.
Отсюда следует, что содержательная сторона валидизации отличается от понятия надежность, а эмпирическая сторона совпадает. Но сама по себе валидизация тестирования предполагает надежность психодиагностических методов. Высокая степень надежности не гарантия такой же валидизации. Но при этом снижение надежности тестирование ведет к снижению валидизации.
Характерные особенности эмпирической валидности
Она устанавливается внешним критерием, определяющий предметную область. Например, интеллектуальная шкала Д. Векслера WAIS, или тест Векслера включает в себя шесть заданий на вербальный интеллект, 5 – на невербальный, сенсомоторный интеллект. Задания называются субтестами, на базе результатов которых анализируют показатели интеллекта. Для оценивания шкалы вербального интеллекта используют уровень академической успеваемости, для невербальной – успешность канцелярской работы. Валидизация оценивается, с точки зрения соотношения между результатами тестирования и успеха в определенных видах деятельности. Такая валидность называется прагматической.
Определение прагматической валидизации
Считает, что валидность теста дает прогноз:
личностных свойств человека;
влияния на поведение индивида.
Она может не предполагать организацию соотношения. Оценивание валидизации тестирования основывается на:
принципах квазиэксперимент;
выделение контрастных групп.
Нужна помощь преподавателя?
Опиши задание — и наши эксперты тебе помогут!
Описать задание Замечание 1
Разработка теста по оцениванию мотивации достижения школьников. Для этого есть все необходимые документы по успеваемости учеников. Класс делят на две группы:
с низким уровнем успеваемости;
с высоким уровнем успеваемости.
Самый грубый метод разделения – деление по медиане, надежный – исследования каждого ребенка и правильное соотнесение в ту или иную группу.
Например, для валидизации теста применяют только результаты успеваемости учеников, входящие в первый и четвертый квартили. В конечном итоге появляется квазиэкспериментальный план. Тогда значениями ковариаты будут результаты теста.
Данный ход в вылидной прагматике определяют ретроспективным.
Понятие проспективной, конструктивной и истинной валидности теста
Первый метод используют, когда только предполагается получить критерий валидности. Здесь испытуемые выбираются по принципу вероятностного прогноза проявления измеряемого признака в популяции. Это дает больше возможности оценить причинно-следственные связи между измеряемыми свойствами и формами поведения человека.
Замечание 2
Конструктивная валидность используется, когда нет сомнений в валидизации тестирования.
Один из способов получения валидности является применение экспертных оценок. Их получает во время наблюдения за тестированием. Полученные результаты вносятся в таблицу, где в столбцах указывают оценки экспертов (k ), а в строках – оценки испытуемых (п). Главный фактор – согласованность полученных оценок, которую определяют при помощи критерия Кронбаха (α) или формулы Спирменаа-Брауна.
Истинная валидность тестирования определяется формулой:
где r_yy – соотношение с «истинным критерием», r_хх – эмпирическое соотношение с критерием, α_с – надежность критерия, найденная по формуле Кронбаха.
Автор: Анна Коврова
Преподаватель факультета психологии кафедры общей психологии. Кандидат психологических наук
Что такое валидность в психологии
Методы исследования
Валидность
Что такое валидность?
Д-р Саул МакЛеод, опубликовано в 2013 г.
Что означает валидность в исследованиях?
Концепция достоверности была сформулирована Келли (1927, стр. 14), который заявил, что тест действителен, если он измеряет то, что, по его утверждению, измеряется.
Например, тест на интеллект должен измерять интеллект, а не что-то еще (например, память).
Различают внутреннюю и внешнюю действительность. Эти типы валидности имеют отношение к оценке валидности исследовательского исследования / процедуры.
Что такое внутренняя и внешняя валидность в исследовании?
Внутренняя валидность относится к тому, вызваны ли эффекты, наблюдаемые в исследовании, манипулированием независимой переменной, а не каким-либо другим фактором.
Другими словами, существует причинно-следственная связь между независимой и зависимой переменной.
Внутренняя достоверность может быть улучшена за счет контроля посторонних переменных, использования стандартизированных инструкций, противовеса и исключения характеристик спроса и эффектов исследователя.
Внешняя валидность — это степень, в которой результаты исследования могут быть обобщены для других условий (экологическая валидность), других людей (популяционная валидность) и с течением времени (историческая валидность).
Внешнюю валидность можно улучшить, установив эксперименты в более естественных условиях и используя случайную выборку для отбора участников.
Оценка валидности теста
Оценка валидности теста
Существуют две основные категории валидности, используемые для оценки валидности теста (например, анкета, интервью, тест IQ и т. Д.): Содержание и критерий.
Что такое фактическая валидность в исследованиях?
Признание достоверности — это просто то, появляется ли тест (по номинальной стоимости) для измерения того, на что он претендует. Это наименее изощренная мера достоверности.
Тесты, цель которых ясна даже для наивных респондентов, считаются высоко валидными.Соответственно, тесты, цель которых неясна, имеют низкую валидность (Nevo, 1985).
Прямое измерение валидности лица получается, когда людей просят оценить валидность теста, как им кажется. Этот оценщик может использовать шкалу Лайкерта для оценки достоверности лица. Например:
тест очень подходит для данной цели
тест очень подходит для этой цели;
тест соответствует требованиям
тест не соответствует требованиям
тест не имеет отношения к делу и, следовательно, не подходит
Важно выбрать подходящих людей для оценки теста (например.г. анкета, интервью, IQ тест и т. д.). Например, люди, которые действительно проходят тест, будут иметь все возможности для оценки его достоверности.
Также люди, которые работают с тестом, могут высказать свое мнение (например, работодатели, администраторы университетов, работодатели). Наконец, исследователь может использовать представителей широкой общественности, интересующихся тестом (например, родителей испытуемых, политиков, учителей и т. Д.).
Фактическая валидность теста может считаться надежной конструкцией только в том случае, если между оценщиками существует разумный уровень согласия.
Следует отметить, что следует избегать использования термина «фактическая достоверность», когда оценка проводится «экспертом», поскольку достоверность содержимого является более подходящей.
Наличие фактической валидности не означает, что тест действительно измеряет то, что исследователь намеревается измерить, а только по мнению рейтеров, которые, по-видимому, делают это. Следовательно, это грубая и основная мера достоверности.
Элемент теста, такой как « Я недавно подумал о самоубийстве », имеет очевидную валидность по внешнему виду как элемент, измеряющий суицидальные мысли, и может быть полезен при измерении симптомов депрессии.
Однако результаты тестов с явной валидностью заключаются в том, что они более уязвимы для предвзятости социальной желательности. Люди могут манипулировать своей реакцией, чтобы отрицать или скрывать проблемы, или преувеличивать свое поведение, чтобы представить себя в позитивном свете.
Элемент тестирования может не иметь достоверности лица, но все же иметь общую достоверность и измерять то, что, по его утверждению, измеряется. Это хорошо, потому что снижает характеристики спроса и затрудняет манипулирование респондентами своими ответами.
Например, элемент теста « Я верю во Второе пришествие Христа » будет недействителен как мера депрессии (поскольку его цель неясна).
Этот элемент появился в первой версии Миннесотского многофазного опросника личности (MMPI) и загружен в шкалу депрессии.
Поскольку большинство первоначальной нормативной выборки MMPI были хорошими христианами, только христианин в депрессии мог подумать, что Христос не вернется. Таким образом, для данного конкретного религиозного образца пункт имеет общую действительность, но не является действительным.
Что такое конструктная валидность в исследованиях?
Конструктивная валидность была изобретена Корнболлом и Милом (1955). Этот тип валидности относится к степени, в которой тест захватывает конкретную теоретическую конструкцию или признак, и перекрывается с некоторыми другими аспектами валидности
Конструктивная валидность не касается простого фактического вопроса о том, измеряет ли тест атрибут .
Вместо этого речь идет о сложном вопросе о том, согласуются ли интерпретации результатов тестов с номологической сетью, включающей теоретические и наблюдательные термины (Cronbach & Meehl, 1955).
Для проверки достоверности конструкции необходимо продемонстрировать, что измеряемое явление действительно существует. Так, например, конструктивная валидность теста на интеллект зависит от модели или теории интеллекта.
Конструктивная валидность влечет за собой демонстрацию силы такой конструкции для объяснения сети результатов исследований и прогнозирования дальнейших взаимоотношений.
Чем больше доказательств валидности тестовой конструкции сможет продемонстрировать исследователь, тем лучше.Однако не существует единого метода определения валидности конструкции теста.
Вместо этого различные методы и подходы объединяются, чтобы представить общую конструктивную валидность теста. Например, можно использовать факторный анализ и корреляционные методы.
Что такое одновременная валидность в исследованиях?
Это степень, в которой тест соответствует внешнему критерию, который известен одновременно (т. Е. Происходит одновременно).
Если новый тест подтвержден сравнением с существующим в настоящее время критерием, у нас есть одновременная валидность.
Очень часто новый IQ или личностный тест можно сравнить с более старым, но похожим тестом, который, как известно, уже имеет хорошую валидность.
Что такое прогностическая достоверность в исследованиях?
Это степень, в которой тест точно предсказывает критерий, который будет применяться в будущем.
Например, на основе нового теста интеллекта можно сделать прогноз, что люди с высокими показателями в возрасте 12 лет с большей вероятностью получат университетскую степень через несколько лет.Если предсказание оправдывается, значит, тест имеет прогностическую достоверность.
Ссылки на стиль APA
Кронбах, Л. Дж., И Мил, П. Э. (1955) Конструируйте валидность в психологических тестах. Психологический бюллетень , 52, 281-302.
Hathaway, S. R., & McKinley, J. C. (1943). Руководство по многофазной инвентаризации личности в Миннесоте . Нью-Йорк: Психологическая корпорация.
Келли Т. Л. (1927). Интерпретация образовательных измерений.Нью-Йорк : Макмиллан.
Нево, Б. (1985). Повторная проверка достоверности лица. Журнал образовательных измерений , 22 (4), 287-293.
Как ссылаться на эту статью:
Как ссылаться на эту статью:
McLeod, S. A. (2013). Что такое срок действия? . Просто психология. https://www.simplypsychology.org/validity.html
сообщить об этом объявлении
4 типа достоверности
В количественном исследовании вы должны учитывать надежность и достоверность ваших методов и измерений.
Validity показывает, насколько точно метод что-то измеряет. Если метод измеряет то, что, по его утверждению, измеряется, и результаты близко соответствуют реальным значениям, то его можно считать действительным. Выделяют четыре основных типа срока действия:
Обратите внимание, что в этой статье рассматриваются типы проверки достоверности, которые определяют точность фактических компонентов меры. Если вы проводите экспериментальное исследование, вам также необходимо учитывать внутреннюю и внешнюю валидность, которая связана с планом эксперимента и обобщаемостью результатов.
Срок действия конструкции
Construct validity оценивает, действительно ли инструмент измерения представляет то, что мы хотим измерить. Это важно для определения общей валидности метода.
Что такое конструкция?
Конструкт относится к понятию или характеристике, которую нельзя непосредственно наблюдать, но можно измерить, наблюдая за другими связанными с ней индикаторами.
Конструкции могут быть характеристиками людей, такими как интеллект, ожирение, удовлетворенность работой или депрессия; они также могут быть более широкими концепциями, применяемыми к организациям или социальным группам, например гендерное равенство, корпоративная социальная ответственность или свобода слова.
Пример
Не существует объективной, наблюдаемой сущности, называемой «депрессией», которую мы могли бы измерить напрямую. Но, основываясь на существующих психологических исследованиях и теории, мы можем измерить депрессию на основе набора симптомов и показателей, таких как низкая уверенность в себе и низкий уровень энергии.
Что такое конструктивная валидность?
Достоверность конструкции — это гарантия того, что метод измерения соответствует конструкции, которую вы хотите измерить. Если вы разрабатываете анкету для диагностики депрессии, вам необходимо знать: действительно ли анкета измеряет конструкт депрессии? Или это на самом деле измерение настроения, самооценки респондента или какой-то другой конструкт?
Для достижения достоверности построения вы должны убедиться, что ваши индикаторы и измерения тщательно разработаны на основе соответствующих существующих знаний.Анкета должна включать только релевантные вопросы, которые измеряют известные индикаторы депрессии.
Остальные типы валидности, описанные ниже, могут рассматриваться как формы свидетельства конструктивной валидности.
Срок действия
Достоверность содержимого определяет, является ли тест репрезентативным для всех аспектов конструкции.
Для получения достоверных результатов содержание теста, опроса или метода измерения должно охватывать все относящиеся к делу части предмета, который он нацелен на измерение.Если некоторые аспекты отсутствуют в измерении (или если включены нерелевантные аспекты), достоверность оказывается под угрозой.
Пример
Учитель математики разрабатывает в конце семестра тест по алгебре для своего класса. Тест должен охватывать все формы алгебры, изучаемые в классе. Если исключить некоторые виды алгебры, то результаты могут не быть точным показателем понимания учащимися предмета. Точно так же, если она включает вопросы, не связанные с алгеброй, результаты больше не являются действительной мерой знаний алгебры.
Какая у вас оценка за плагиат?
Сравните свою статью с более чем 60 миллиардами веб-страниц и 30 миллионами публикаций.
Лучшая программа для проверки плагиата 2020 года
Отчет о плагиате и процентное соотношение
Самая большая база данных о плагиате
Scribbr Проверка на плагиат
Срок действия
Face validity учитывает, насколько подходящим содержание теста кажется на первый взгляд.Это похоже на валидность контента, но фактическая валидность — это более неформальная и субъективная оценка.
Пример
Вы создаете опрос, чтобы измерить регулярность пищевых привычек людей. Вы просматриваете элементы опроса, в которых задаются вопросы о каждом приеме пищи в течение дня и перекусах, которые вы съели в перерывах на каждый день недели. На первый взгляд, опрос кажется хорошим представлением того, что вы хотите протестировать, поэтому вы считаете, что он имеет высокую достоверность.
Поскольку фактическая достоверность является субъективной мерой, ее часто считают самой слабой формой достоверности.Однако это может быть полезно на начальных этапах разработки метода.
Критерий действия
Criterion validity оценивает, насколько близко результаты вашего теста соответствуют результатам другого теста.
Что такое критерий?
Критерий — это внешнее измерение того же самого. Обычно это установленный или широко используемый тест, который уже считается действительным.
Что такое критерий действительности?
Чтобы оценить достоверность критерия, вы вычисляете корреляцию между результатами вашего измерения и результатами измерения критерия.Если существует высокая корреляция, это свидетельствует о том, что ваш тест измеряет то, что он намеревается измерять.
Пример
Профессор университета создает новый тест для измерения уровня владения английским языком абитуриентов. Чтобы оценить, насколько хорошо тест действительно измеряет письменные способности учащихся, она находит существующий тест, который считается действительным измерением письменных навыков на английском языке, и сравнивает результаты, когда одна и та же группа учащихся сдает оба теста. Если результаты очень похожи, новый тест имеет высокий критерий достоверности.
Надежность и достоверность измерения — Методы исследования в психологии — 2-е канадское издание
Определите надежность, включая различные типы и способы их оценки.
Определите срок действия, включая различные типы и способы их оценки.
Опишите виды доказательств, которые могут иметь отношение к оценке надежности и действительности той или иной меры.
Опять же, измерение включает в себя присвоение баллов отдельным лицам, чтобы они отражали некоторые характеристики людей.Но как исследователи узнают, что оценки на самом деле представляют характеристику, особенно если это такие конструкты, как интеллект, самооценка, депрессия или объем рабочей памяти? Ответ заключается в том, что они проводят исследование, используя эту меру, чтобы подтвердить, что оценки имеют смысл, исходя из их понимания измеряемой конструкции. Это очень важный момент. Психологи не просто предполагают, что работают. Вместо этого они собирают данные, чтобы продемонстрировать , что они работают.Если их исследование не демонстрирует, что мера работает, они прекращают ее использовать.
В качестве неформального примера представьте, что вы сидите на диете в течение месяца. Ваша одежда кажется более свободной, и несколько друзей спросили, похудели ли вы. Если в этот момент ваши весы для ванной показывают, что вы потеряли 10 фунтов, это имело бы смысл, и вы продолжили бы пользоваться весами. Но если бы это указывало на то, что вы набрали 10 фунтов, вы бы справедливо пришли к выводу, что он сломан, и либо почините его, либо избавьтесь от него.Оценивая метод измерения, психологи принимают во внимание два основных аспекта: надежность и валидность.
Надежность — это постоянство меры. Психологи рассматривают три типа согласованности: во времени (надежность повторного тестирования), между элементами (внутренняя согласованность) и между разными исследователями (надежность между экспертами).
Тестирование-повторное тестирование
Когда исследователи измеряют конструкт, который, по их мнению, является непротиворечивым во времени, полученные ими оценки также должны быть согласованными во времени.Надежность повторного тестирования — это степень, в которой это действительно так. Например, обычно считается, что интеллект постоянен во времени. Человек, который сегодня очень умный, на следующей неделе станет очень умным. Это означает, что любой хороший показатель интеллекта должен дать этому человеку примерно такие же баллы на следующей неделе, что и сегодня. Ясно, что мера, которая дает очень непоследовательные оценки с течением времени, не может быть очень хорошей мерой конструкции, которая должна быть согласованной.
Оценка надежности повторного тестирования требует одновременного использования этого показателя на группе людей, его повторного использования на той же группе людей в более позднее время, а затем изучения корреляции между тестами и повторными тестами между двумя наборами оценок. Обычно это делается путем построения графика данных в виде диаграммы рассеяния и вычисления r Пирсона. На рис. 5.2 показана корреляция между двумя наборами оценок нескольких студентов университетов по шкале самооценки Розенберга, введенной два раза с интервалом в неделю.Коэффициент Пирсона для этих данных равен +,95. Как правило, корреляция между тестами и повторными тестами, равная +80 или выше, считается показателем хорошей надежности.
Рис. 5.2 Корреляция между тестами и повторными тестами между двумя наборами оценок нескольких студентов колледжа по шкале самооценки Розенберга, полученная два раза в неделю с разницей
. время, которое относится к интеллекту, самооценке и измерениям личности Большой пятерки.Но другие конструкции не считаются стабильными с течением времени. Например, сама природа настроения такова, что оно меняется. Таким образом, показатель настроения, который дает низкую корреляцию между тестами и ретестами в течение месяца, не будет поводом для беспокойства.
Внутренняя согласованность
Второй вид надежности — это внутренняя согласованность, то есть согласованность ответов людей по всем пунктам при измерении нескольких пунктов. В целом предполагается, что все элементы таких показателей отражают одну и ту же основную конструкцию, поэтому оценки людей по этим вопросам должны коррелировать друг с другом.По шкале самооценки Розенберга люди, которые согласны с тем, что они достойные люди, должны соглашаться с тем, что у них есть ряд хороших качеств. Если ответы людей на разные вопросы не коррелируют друг с другом, то больше не имеет смысла утверждать, что все они измеряют одну и ту же основную конструкцию. Это верно как для поведенческих и физиологических показателей, так и для показателей самооценки. Например, люди могут сделать серию ставок в имитируемой игре в рулетку, чтобы измерить свой уровень стремления к риску.Этот показатель будет внутренне согласованным в той степени, в которой ставки отдельных участников будут стабильно высокими или низкими в ходе испытаний.
Как и надежность повторного тестирования, внутреннюю согласованность можно оценить только путем сбора и анализа данных. Один из подходов — посмотреть на корреляцию разделенных половин. Это включает в себя разделение элементов на два набора, таких как первая и вторая половины элементов или элементы с четным и нечетным номерами. Затем для каждого набора элементов вычисляется оценка и исследуется взаимосвязь между двумя наборами оценок.Например, на рис. 5.3 показана корреляция между двумя частицами между оценками нескольких студентов университетов по четным пунктам и их оценками по нечетным пунктам шкалы самооценки Розенберга. Значение r Пирсона для этих данных составляет +,88. Корреляция разделенных половин, равная +80 или больше, обычно считается хорошей внутренней согласованностью.
Рис. 5.3. Корреляция между разделами и половинками между оценками нескольких студентов колледжей по четным пунктам и их оценками по нечетным пунктам шкалы самооценки Розенберга
. статистика называется α Кронбаха (греческая буква альфа).Концептуально α — это среднее значение всех возможных корреляций разделенных половин для набора элементов. Например, существует 252 способа разделить набор из 10 элементов на два набора по пять. Α Кронбаха будет средним из 252 корреляций разделенных половин. Обратите внимание, что на самом деле α вычисляется не так, но это правильный способ интерпретации значения этой статистики. Опять же, обычно используется значение +80 или больше, чтобы указать на хорошую внутреннюю согласованность.
Надежность Interrater
Многие поведенческие меры требуют значительного суждения со стороны наблюдателя или оценщика.Межэкспертная надежность — это степень, в которой разные наблюдатели едины в своих суждениях. Например, если вы заинтересованы в измерении социальных навыков студентов университета, вы можете сделать видеозаписи их взаимодействия с другим студентом, с которым они встречаются впервые. Затем вы можете попросить двух или более наблюдателей посмотреть видео и оценить уровень социальных навыков каждого учащегося. В той степени, в которой каждый участник действительно обладает определенным уровнем социальных навыков, который может быть обнаружен внимательным наблюдателем, оценки разных наблюдателей должны сильно коррелировать друг с другом.Надежность между экспертами также могла быть измерена в исследовании куклы Бобо Бандуры. В этом случае оценки наблюдателей того, сколько актов агрессии совершил конкретный ребенок во время игры с куклой Бобо, должны были иметь очень положительную корреляцию. Надежность между экспертами часто оценивается с помощью α Кронбаха, когда суждения являются количественными, или аналогичной статистики, называемой κ Коэна (греческая буква каппа), когда они категоричны.
Достоверность — это степень, в которой баллы меры представляют переменную, для которой они предназначены.Но как исследователи делают такое суждение? Мы уже учли один фактор, который они учитывают, — надежность. Если показатель имеет хорошую надежность повторного тестирования и внутреннюю согласованность, исследователи должны быть более уверены в том, что оценки соответствуют тому, что им положено. Однако здесь должно быть что-то еще, потому что мера может быть чрезвычайно надежной, но совершенно бесполезной. В качестве абсурдного примера представьте человека, который считает, что длина указательного пальца человека отражает его самооценку, и поэтому пытается измерить самооценку, поднося линейку к указательным пальцам людей.Хотя этот показатель имел бы чрезвычайно хорошую надежность повторного тестирования, он не имел бы абсолютно никакой ценности. Тот факт, что указательный палец одного человека на сантиметр длиннее, чем у другого, ничего не говорит о том, у кого из них более высокая самооценка.
Обсуждения действительности обычно делят его на несколько различных «типов». Но хороший способ интерпретировать эти типы состоит в том, что они представляют собой другие виды свидетельств, помимо надежности, которые следует принимать во внимание при оценке достоверности меры.Здесь мы рассматриваем три основных типа: валидность лица, валидность содержания и валидность критерия.
Лицевая достоверность
Лицевая достоверность — это степень, в которой метод измерения проявляется «на лице» для измерения интересующей конструкции. Большинство людей ожидают, что в анкету для самооценки будут включены вопросы о том, считают ли они себя достойным человеком и обладают ли они хорошими качествами. Таким образом, анкета, включающая такие вопросы, будет иметь хорошую внешнюю валидность.С другой стороны, метод измерения самооценки на расстоянии пальца, похоже, не имеет ничего общего с самооценкой и, следовательно, имеет низкую достоверность. Хотя фактическая валидность может быть оценена количественно — например, с помощью большой выборки людей, оценивающих меру с точки зрения того, действительно ли она измеряет то, для чего она предназначена, — она обычно оценивается неформально.
Фактическая достоверность — это в лучшем случае очень слабое свидетельство того, что метод измерения измеряет то, что он должен.Одна из причин заключается в том, что это основано на интуиции людей о человеческом поведении, которые часто ошибочны. Также верно и то, что многие общепринятые меры в психологии работают достаточно хорошо, несмотря на недостаточную достоверность. Миннесотский многофазный опросник личности-2 (MMPI-2) измеряет многие личностные характеристики и расстройства, предлагая людям решить, применимо ли к ним каждое из более чем 567 различных утверждений, при этом многие из утверждений не имеют очевидного отношения к конструкции, которую они измеряют. .Например, пункты «Мне нравятся детективы или детективы» и «Вид крови не пугает меня и не вызывает тошноту», оба измеряют подавление агрессии. В данном случае интерес представляют не дословные ответы участников на эти вопросы, а, скорее, то, соответствует ли характер ответов участников на серию вопросов ответам людей, которые склонны подавлять свою агрессию.
Срок действия
Достоверность содержания — это степень, в которой мера «покрывает» интересующий конструкт.Например, если исследователь концептуально определяет тестовую тревогу как связанную как с активацией симпатической нервной системы (ведущей к нервным переживаниям), так и с негативными мыслями, то его мера тестовой тревожности должна включать вопросы как о нервных переживаниях, так и о негативных мыслях. Или подумайте, что отношения обычно определяются как связанные с мыслями, чувствами и действиями по отношению к чему-либо. Согласно этому концептуальному определению, человек положительно относится к упражнениям в той мере, в какой он или она думает о тренировках положительно, чувствует себя хорошо во время тренировок и фактически занимается спортом.Таким образом, чтобы иметь хорошую достоверность содержания, показатель отношения людей к упражнениям должен отражать все три этих аспекта. Как и фактическая достоверность, достоверность содержания обычно не оценивается количественно. Вместо этого он оценивается путем тщательной проверки метода измерения на соответствие концептуальному определению конструкции.
Срок действия критерия
Достоверность критерия — это степень, в которой оценки людей по критерию коррелируют с другими переменными (известными как критерии), с которыми можно было бы ожидать их корреляции.Например, оценки людей по новому критерию тревожности при тестировании должны иметь отрицательную корреляцию с их успеваемостью на важном школьном экзамене. Если бы было обнаружено, что оценки людей на самом деле отрицательно коррелировали с их успеваемостью на экзамене, то это было бы доказательством того, что эти оценки действительно отражают тревогу людей перед тестированием. Но если бы выяснилось, что люди одинаково хорошо сдавали экзамен, независимо от их тестовой тревожности, это поставило бы под сомнение достоверность этой меры.
Критерием может быть любая переменная, которая, как есть основания полагать, должна коррелировать с измеряемым конструктом, и обычно их много. Например, можно было бы ожидать, что результаты теста на тревожность будут отрицательно коррелировать с успеваемостью на экзамене и оценками по курсу и положительно коррелировать с общим беспокойством и с артериальным давлением во время экзамена. Или представьте, что исследователь разрабатывает новую меру принятия физического риска. Баллы людей по этому показателю должны соотноситься с их участием в «экстремальных» видах деятельности, таких как сноуборд и скалолазание, количеством полученных штрафов за превышение скорости и даже количеством переломов костей, которые они получили за эти годы.Когда критерий измеряется одновременно с построением, достоверность критерия упоминается как одновременная достоверность ; однако, когда критерий измеряется в какой-то момент в будущем (после того, как конструкция была измерена), он упоминается как с предсказательной достоверностью (поскольку оценки по этому показателю «предсказали» будущий результат).
Критерии могут также включать другие меры той же конструкции. Например, можно было бы ожидать, что новые меры тестовой тревожности или принятия физического риска будут положительно коррелированы с существующими показателями тех же конструктов.Это известно как конвергентная достоверность .
Оценка конвергентной достоверности требует сбора данных с помощью меры. Исследователи Джон Качиоппо и Ричард Петти сделали это, когда создали свою шкалу самоотчета «Потребность в познании», чтобы измерить, насколько люди ценят и вовлечены в мышление (Cacioppo & Petty, 1982). В серии исследований они показали, что оценки людей положительно коррелировали с их оценками по стандартизированному тесту академических достижений, и что их оценки отрицательно коррелировали с их оценками по показателю догматизма (который представляет собой тенденцию к послушанию).За годы, прошедшие с момента создания, шкала потребности в познании использовалась буквально в сотнях исследований, и было показано, что она коррелирует с широким спектром других переменных, включая эффективность рекламы, интерес к политике и решения присяжных. (Петти, Бриньоль, Лёрш и МакКаслин, 2009 г.).
Дискриминантная валидность
Дискриминантная валидность, с другой стороны, — это степень, в которой оценки по показателю , а не коррелируют с мерами переменных, которые концептуально различны.Например, самооценка — это общее отношение к себе, которое довольно стабильно во времени. Это не то же самое, что настроение, которое бывает хорошим или плохим в данный момент. Таким образом, оценки людей по новому показателю самооценки не должны сильно коррелировать с их настроением. Если бы новый показатель самооценки был сильно коррелирован с показателем настроения, можно было бы утверждать, что новый показатель на самом деле не измеряет самооценку; вместо этого он измеряет настроение.
При создании шкалы потребности в познании Качиоппо и Петти также предоставили доказательства дискриминантной валидности, показав, что оценки людей не коррелировали с некоторыми другими переменными.Например, они обнаружили лишь слабую корреляцию между потребностью людей в познании и мерой их когнитивного стиля — степенью, в которой они склонны мыслить аналитически, разбивая идеи на более мелкие части, или целостным образом в терминах «большой картины». Они также не обнаружили корреляции между потребностью людей в познании и показателями их тестовой тревожности и их склонностью реагировать социально желательными способами. Все эти низкие корреляции свидетельствуют о том, что показатель отражает концептуально отличную конструкцию.
Психологические исследователи не просто предполагают, что их меры работают. Вместо этого они проводят исследования, чтобы показать, что они работают. Если они не могут показать, что работают, они прекращают их использовать.
Есть два различных критерия, по которым исследователи оценивают свои измерения: надежность и валидность. Надежность — это постоянство во времени (надежность повторного тестирования), между элементами (внутренняя согласованность) и между исследователями (надежность между экспертами). Достоверность — это степень, в которой оценки фактически представляют переменную, для которой они предназначены.
Действительность — это решение, основанное на различных типах доказательств. Соответствующее свидетельство включает надежность меры, то, покрывает ли она интересующий конструкт и коррелируют ли полученные оценки с другими переменными, с которыми они, как ожидается, коррелируют, а не коррелируют ли с переменными, которые концептуально различны.
Надежность и валидность меры устанавливаются не одним исследованием, а результатами нескольких исследований.Оценка надежности и достоверности — непрерывный процесс.
Практика: попросите нескольких друзей заполнить шкалу самооценки Розенберга. Затем оцените его внутреннюю согласованность, построив диаграмму рассеяния, чтобы показать корреляцию разделенных половин (элементы с четным и нечетным номерами). Вы также можете вычислить r Пирсона, если знаете как.
Обсуждение. Вспомните последний экзамен в колледже, который вы сдавали, и воспринимайте его как психологическую меру. Как вы думаете, для измерения какой конструкции она предназначалась? Прокомментируйте его лицо и достоверность содержания.Какие данные вы могли бы собрать, чтобы оценить их надежность и валидность критериев?
типов действительности | Psych Yogi
Типы валидности

Есть много типов валидности, и знание этого чрезвычайно полезно для достижения наивысших возможных оценок на экзамене OCR A2 Psychology.
Срок действия
Во-первых, что такое срок действия?
Достоверность означает степень, в которой результаты или выводы исследования фактически измеряют то, что, по их утверждениям, измеряется.
Например: предположим, мы хотим измерить длину таблицы. Итак, достаем рулетку и затем приступаем к измерению высоты ножек стола.
Что не так?
Ну, мы не меряли длину стола. Вместо этого мы измерили высоту стола. Итак, наши измерения длины стола недействительны. Однако, если бы мы намеревались измерить высоту стола, наши измерения были бы действительными, потому что мы измерили высоту стола.
Внутренняя достоверность
Внутренняя достоверность — это мера измерения зависимой переменной экспериментатором.
Например: предположим, что экспериментатор хочет измерить время реакции человека, и для этого он использует человека с секундомером.
Вы видите проблему с этим измерением?
Проблема в том, что человек с секундомером тоже должен реагировать. Таким образом, можно ожидать, что это измерение неверно.
Лучшим способом измерения этой зависимой переменной было бы использование видеокамеры.Таким образом, экспериментатору не нужно полагаться на время реакции другого человека для измерения зависимой переменной. Таким образом, делая его более актуальным.
Внешний срок действия
Внешний срок действия делится на два типа. Экологическая ценность и популяционная ценность.
Внешняя валидность — это степень, в которой результаты исследования могут быть обобщены. Важно иметь высокий уровень внешней валидности, потому что это напрямую влияет на полезность результатов и выводов исследования.
Экологическая валидность
Экологическая валидность означает степень, в которой результаты и выводы могут быть обобщены в реальной жизни.
На экологическую значимость в основном влияет задача, которую должны выполнить участники. Многие говорят, что именно методология, например, лабораторных экспериментов, влияет на экологическую обоснованность, но это не обязательно так. Можно провести лабораторный эксперимент, имеющий высокую экологическую ценность, потому что задача, которую должны выполнить участники, соответствует реальной жизни.
Рассмотрим пример. Представьте, что вы экспериментатор и изучаете психологию покупательского взаимодействия с продавцом.
Вы решили использовать лабораторный эксперимент, потому что он дает вам лучший контроль над посторонними переменными.
Вы открыли фальшивый магазин, точно такой же, как и в реальной жизни. Затем вы просите участников пойти в магазин и купить предметы, которые они обычно покупают. Это, хотя и лабораторный эксперимент, имеет высокую экологическую ценность, потому что задача, которую должны выполнить участники, соответствует реальной жизни.
Популяционная валидность

Популяционная валидность означает степень, в которой выборка может быть обобщена на аналогичные и более широкие группы населения.
Этот тип достоверности важен, потому что без него исследования теряют свою полезность.
Рассмотрим пример.
Предположим, мы изучаем влияние прослушивания Моцарта на IQ (эффект Моцарта).
Итак, мы решили, что будем использовать выборку людей с высоким IQ, и используем случайную выборку.Эта выборка будет иметь высокую популяционную достоверность для людей с высоким IQ, но в основном потому, что мы использовали случайную выборку. Однако эта выборка будет иметь низкую достоверность для всех остальных, потому что выборка чрезвычайно ограничена.
Временная валидность
Временная валидность относится к степени, в которой результаты и выводы исследования действительны, когда мы рассматриваем различия и прогрессии, которые происходят со временем.
Исследования, которые действительны во времени, будут либо недавними исследованиями, либо исследованиями, которые рассматривают то, что не изменилось с момента завершения исследования, например, исследование представлений людей о росте, проведенное 50 лет назад, может иметь высокую временную достоверность, потому что общество не изменил своих взглядов на высоту.Однако исследование телевизионной рекламы в семидесятые и восьмидесятые годы может быть временно недействительным сегодня из-за большого количества доступных в настоящее время телевизионных каналов по сравнению с немногими каналами, которые были доступны тогда. (Взгляните на это исследование в качестве примера, который можно считать низким по временной достоверности: Cowpe 1989)
Личная достоверность
Личная валидность относится к степени, в которой исследование выглядит как для измерения того, что, по его утверждению, измеряется.
Это тип достоверности, на который вы должны ссылаться в наименьшей степени, потому что это не очень хорошая точка оценки, внутренняя валидность была бы лучшим типом валидности для использования.Фактическая валидность может быть вам полезна, потому что вы можете легко использовать ее в качестве точки оценки на экзамене по психологии OCR A2, если вы ничего не понимаете и не можете придумать другую точку оценки.
Исследование с высокой достоверностью может выглядеть так, как будто оно измеряет то, что исследователь намеревается измерить, но это не обязательно означает, что исследование — это исследование , измеряющее то, на что он претендует.
Рассмотрим пример.
Предположим, мы пытаемся измерить влияние просмотра страшного фильма на уровень стресса участников.
Мы показываем участникам страшный фильм и измеряем у них уровень кортизола до и после.
Кортизол вырабатывается в ответ на стресс, означает, что на первый взгляд это исследование выглядит так, как будто оно измеряет влияние страшного фильма на уровень стресса участников. Поэтому он имеет высокую лицевую достоверность.
Однако мы не учитывали влияние того, что участники не ели во время просмотра фильма.
Мы понимаем, что отказ от еды снижает уровень глюкозы в крови наших участников, что также вызывает выработку кортизола.Это означает, что наше исследование, хотя имеет высокую внешнюю достоверность, имеет низкую внутреннюю достоверность.
Срок действия теста
Срок действия теста состоит из нескольких составляющих.
Срок действия теста — это степень, в которой результаты исследования или теста могут иметь значение.
Рассмотрим пример.
Предположим, мы измеряем интеллект людей. Мы могли бы использовать тест на IQ. Мы можем утверждать, что тест IQ имеет высокий уровень достоверности, потому что мы видим, что это хорошо зарекомендовавший себя тест.
Construct Validity
Construct validity относится к степени, в которой исследование или тест измеряет концепцию, на которую оно претендует.
Существует два типа конструктивной достоверности: конвергентная достоверность и дискриминирующая достоверность.
Рассмотрим пример.
Предположим, мы изучаем «Модель веры в здоровье» Беккера (1978)
. Мы обнаруживаем, что есть несколько когнитивных эвристик, которые люди используют, когда они рассматривают возможность принятия поведения, связанного со здоровьем.Все они присутствуют в модели веры в здоровье. Таким образом, мы можем утверждать, что наше исследование имеет высокую конструктивную достоверность.
Конвергентная валидность
Конвергентная валидность относится к степени, в которой тестируемые конструкции связаны друг с другом.
Дискриминационная валидность
Дискриминационная валидность относится к степени, в которой протестированные конструкции, которые не имеют отношения, действительно не имеют взаимосвязи друг с другом.
Валидность контента
Валидность контента прекрасно следует из валидности конструкции, поскольку валидность контента относится к степени, в которой исследование или тест сопоставляются со всеми элементами конструкции.
Например, предположим, что мы смотрим на влияние стресса на производительность труда.
Мы просим наших участников ответить на вопросы анкет о том, насколько, по их мнению, на них влияет стресс на рабочем месте и насколько он влияет на их производительность.
Мы могли бы возразить, что это низкая валидность содержания, потому что на самом деле не проверялось влияние стресса на производительность труда.
Достоверность критерия
Достоверность критерия относится к степени достоверности результатов и выводов по сравнению с другими показателями.
Срок действия критерия делится на два типа достоверности: прогнозируемая достоверность и одновременная достоверность.
Прогностическая достоверность
Прогнозная достоверность означает степень, в которой результаты и выводы могут быть использованы для прогнозирования реальных приложений исследования.
Рассмотрим пример.
Предположим, мы изучаем влияние мысли, что за вами наблюдают, на поведение.
Наше исследование является копией нескольких или других исследований, которые были проведены ранее.
Даем участникам задачу выполнить. Во время выполнения задачи они столкнутся с несколькими признаками, указывающими на то, что они находятся под наблюдением, например, «за вами наблюдают операторы видеонаблюдения».
Это исследование может иметь прогностическую ценность для аналогичных ситуаций.
Обычно достоверность прогнозов подтверждается повторением результатов с течением времени.
Параллельная валидность
Параллельная валидность означает степень, в которой результаты и выводы совпадают с другими исследованиями и доказательствами.
Рассмотрим пример.
Милгрэм (1963) изучал влияние подчинения власти. Результаты Милгрэма совпадают со многими повторениями исследования. Таким образом, исследование Милгрэма имело высокую параллельную силу.
Достоверность статистического заключения
Достоверность статистического вывода относится к степени, в которой мы можем получить статистически значимые результаты, то есть мы можем установить причину и следствие выше случайности.
Обычно в психологических исследованиях вероятность устанавливается на уровне 5% или> 0.05 шанс. Это означает, что если результаты выше 5%, мы примем нашу альтернативную гипотезу и отклоним нашу нулевую гипотезу. Это предполагает наличие причины и следствия между переменными. Если результаты ниже 5%, мы примем нашу нулевую гипотезу. Если результат ниже 5% вероятности, это означает, что мы не можем установить причинно-следственную связь, потому что результаты возникли случайно.
Действительность репрезентации
Действительность репрезентации, которая также известна как трансляционная валидность, относится к степени, в которой изучаемый конструкт или понятие может быть переведено в реальную жизнь.
Диагностическая валидность
Диагностическая валидность не часто используется в спецификации психологии OCR A2. Чаще всего он используется в клинических условиях. Диагностическая достоверность относится к степени точности диагноза, поставленного в отношении состояния.
Инструментальная достоверность
Инструментальная достоверность относится к степени, в которой инструменты, используемые для измерения зависимых переменных, являются правильными для этого измерения.
Например, возвращаясь к нашему исследованию таблицы ранее.Предположим, теперь мы правильно измеряем длину стола, но потом понимаем, что наша рулетка неточная. Таким образом, инструментальная достоверность нашего исследования была низкой.
Дополнительная литература
Десять лучших советов по пересмотру психологии Psych Yogi для A * ученика
Резюме
Название статьи
Типы достоверности
Описание
Типы валидности Существует много типов валидности и знания. чрезвычайно полезен для достижения наивысших возможных оценок в вашем OCR A2
Автор
Psych Yogi
Валидность в психологии: типы и определение — Видео и стенограмма урока
Construct Validity
Вы, вероятно, уже знакомы с определением конструкции.Конструкция — это атрибут, навык или способность, основанные на установленных теориях и существующие в человеческом мозгу. Интеллект, тревога и депрессия — все это примеры конструктов. Достоверность конструкции — это степень, в которой тест измеряет конструкт, который он должен измерять. Другими словами, насколько хорошо BAI измеряет теоретическую концепцию тревоги? Для установления валидности конструкта необходимо изучить многочисленные исследования, в которых используется BAI. Есть два необходимых компонента валидности конструкции: конвергентная и дискриминантная валидность.
Предположим, что при чтении руководства вы обнаружили, что BAI сильно коррелирует с рейтинговой шкалой Гамильтона (HRS) и опросником состояния тревожности (STAI), которые представляют собой два ранее проверенных показателя тревожности. Это устанавливает конвергентной действительности . Конвергентная достоверность — это степень, в которой измерение согласуется с другими измерениями, оценивающими ту же конструкцию.
Вы также обнаружили, что BAI имеет низкую корреляцию с инвентаризацией депрессии Бека, которая предназначена для измерения депрессии.Это устанавливает дискриминантной действительности . Дискриминантная валидность — это степень, в которой измерение , а не коррелирует с другими измерениями, которые оценивают различных концепций , так что оно различает эти две конструкции.
Срок действия содержимого
Вы также читали в руководстве, что элементы BAI были выбраны на основе их сходства с критериями тревожных расстройств, приведенными в «Руководстве по диагностике и статистике психических расстройств» . Кроме того, эти предметы охватывают весь спектр тревожных симптомов, включая симптомы панических и генерализованных тревожных расстройств. Это устанавливает достоверность содержания BAI. Измерение имеет достоверность содержимого , когда его элементы охватывают все аспекты измеряемой конструкции. Другими словами, достоверность контента позволяет нам узнать, адекватно ли элементы BAI охватывают все области, вызывающие беспокойство.
Достоверность, связанная с критерием относится к степени, в которой измерение может точно предсказать конкретные переменные критерия.Параллельная валидность и прогностическая валидность — это два типа валидности, связанной с критериями. Одновременная достоверность включает измерения, которые выполняются в одно и то же время, в то время как прогнозная достоверность включает одно измерение, прогнозирующее будущую эффективность другого.
Скажем, вы обнаружили значительную корреляцию между оценками по BAI и оценками по HRS и STAI. Вы установили параллельную валидность, то есть степень, в которой оценки по измерению соответствуют другим измерениям, которые уже были признаны действительными.
Если баллы BAI значительно коррелируют с людьми, у которых в будущем будет диагностировано тревожное расстройство, BAI имеет прогностическую достоверность. Прогностическая достоверность — это степень, в которой баллы по оцениваемому измерению соответствуют другому критериальному измерению, которое проводится в будущем. В нашем примере диагноз тревожности (измерение критерия) ставится после введения BAI (оцениваемого теста).
Почему важна действительность?
Предположим, что через несколько недель после того, как вы вводили BAI своему клиенту, вы узнали, что BAI не измеряет тревожность, как предполагалось.Что это значит для вашего клиента? Это означает, что интерпретации результатов BAI, которые вы сделали, в зависимости от уровня тревожности вашего клиента, были недействительными. В результате любые выводы, сделанные вами на основе теста, будут неточными. Например, если вы диагностировали у своего клиента тревогу на основе результатов BAI, ваш диагноз был бы неправильным, поскольку тест не измерял тревожность.
Проведенные вами лечебные вмешательства, вероятно, будут неэффективными, поскольку ваш клиент на самом деле не испытывает беспокойства.Если вы решили помочь своему клиенту получить лекарства от тревожности, вы обнаружите, что они не помогают или не ухудшают состояние вашего клиента. Вы можете увидеть здесь, почему в психологии важна обоснованность. Без достоверности результаты вашей оценки совершенно бесполезны, и ваши попытки помочь клиенту, используя информацию из оценки, могут в конечном итоге навредить вашему клиенту.
Итоги урока
Давайте рассмотрим. Действительность относится к степени, в которой тест измеряет то, что он должен измерять.Есть три типа действительности. Действительность конструкции , то есть степень, в которой тест измеряет конструкт, который он должен измерять. Двумя необходимыми компонентами валидности конструкции являются конвергентной и дискриминантной валидности . Достоверность содержимого относится к тому, представляют ли элементы измерения все аспекты измеряемой конструкции.
Достоверность, связанная с критерием относится к степени, в которой измерение может точно предсказать конкретные переменные критерия. Параллельная валидность и предсказуемая валидность — это два типа валидности, связанной с критериями. Чтобы тест был валидным, он должен иметь валидность конструкции, валидность содержания и валидность, связанную с критериями. Итак, в следующий раз, когда кто-нибудь придет к вам в офис для оценки, не забудьте вытащить руководство по тесту и поискать доказательства его валидности.
Результаты обучения
Посмотрев этот урок и расширив свои знания о валидности в психологии, вы впоследствии могли бы перейти к:
Опишите валидность в отношении тестирования и психологии
Контрастная достоверность конструкции и достоверность содержания
Определите, какой критерий достоверности относится к
Понять важность действительности
Срок действия | tutor2u
Действительность относится к тому, действительно ли мера измеряет то, что, по ее утверждению, измеряет .Ниже рассматриваются некоторые ключевые типы действительности.
Лицевая валидность
Лицевая валидность — это мера того, выглядит ли субъективно многообещающим, что инструмент измеряет то, что он должен
, например. Можно заметить, что люди с более высокими баллами на экзаменах получают более высокие баллы по анкете IQ; вы не можете быть уверены, что они напрямую связаны, но на первый взгляд кажется, что результаты экзаменов являются разумным показателем оценки IQ, поэтому ваша мера показывает хорошую достоверность лица.
Внутренняя достоверность
Внутренняя достоверность — это мера того, влияют ли на полученные результаты исключительно изменения в переменной, которой манипулируют (т. Е. Независимой переменной) в причинно-следственной связи. Двумя ключевыми типами внутренней валидности являются:
Конструктивная валидность — спрашивает, успешно ли мера измеряет концепцию , которую она должна (например, измеряет ли опросник IQ, или что-то связанное, но существенно отличающееся?).
Параллельная валидность — спрашивает, согласуется ли мера с ранее существовавшими мерами, которые прошли валидацию для проверки той же [или очень похожей] концепции (измеренной путем сопоставления мер друг с другом).
Внутренняя достоверность может быть оценена на основе того, успешно ли контролируются или устраняются посторонние (т. Е. Нежелательные) переменные, которые также могут повлиять на результаты; Чем больше контроль над такими переменными, тем больше уверенность в том, что можно найти причину и следствие, относящиеся к исследуемой конструкции.
Внешняя достоверность
Внешняя достоверность — это мера того, можно ли обобщить данные на другие ситуации за пределами исследовательской среды, в которой они были изначально собраны.Двумя ключевыми типами внешней достоверности являются:
Временная достоверность — это высокий показатель, когда результаты исследования успешно применяются в течение времени (некоторые переменные в прошлом могут больше не иметь значения сейчас или в будущем).
например Изменения в отношении к гендерным ролям с течением времени могут снизить временную достоверность данных прошлых экспериментов в применении к современным исследованиям.
Экологическая достоверность — можно ли обобщить данные на реальный мир на основе условий, в которых проводится исследование, и задействованных процедур.
например Лабораторные исследования могут в высокой степени контролировать посторонние переменные, которые в противном случае изменялись бы в естественной среде, поэтому результаты могут считаться слишком «искусственными» и, следовательно, иметь низкую экологическую ценность.
Однако мыши, например, могут вести себя одинаково в лаборатории и в дикой природе, поэтому лабораторные эксперименты, вероятно, все еще могут поддерживать здесь высокую экологическую значимость.
Внешнюю валидность эксперимента можно оценить и улучшить, повторив исследование в разное время и в разных местах и получив аналогичные результаты.Например, уверенность в обобщаемости [и, в свою очередь, во внешней достоверности] результатов повышается, когда исследования успешно тиражируются в разных культурах.
4.2 Надежность и достоверность измерения — методы исследования в психологии
Цели обучения
Определите надежность, включая различные типы и способы их оценки.
Определите срок действия, включая различные типы и способы их оценки.
Опишите виды доказательств, которые могут иметь отношение к оценке надежности и действительности той или иной меры.
Опять же, измерение включает в себя присвоение баллов отдельным лицам, чтобы они отражали некоторые характеристики людей. Но как исследователи узнают, что оценки на самом деле представляют характеристику, особенно если это такие конструкты, как интеллект, самооценка, депрессия или объем рабочей памяти? Ответ заключается в том, что они проводят исследование, используя эту меру, чтобы подтвердить, что оценки имеют смысл, исходя из их понимания измеряемой конструкции. Это очень важный момент.Психологи не просто предполагают, что работают. Вместо этого они собирают данные, чтобы продемонстрировать , что они работают. Если их исследование не демонстрирует, что мера работает, они прекращают ее использовать.
В качестве неформального примера представьте, что вы сидите на диете в течение месяца. Ваша одежда кажется более свободной, и несколько друзей спросили, похудели ли вы. Если в этот момент ваши весы для ванной показывают, что вы потеряли 10 фунтов, это имело бы смысл, и вы продолжили бы пользоваться весами.Но если бы это указывало на то, что вы набрали 10 фунтов, вы бы справедливо пришли к выводу, что он сломан, и либо почините его, либо избавьтесь от него. Оценивая метод измерения, психологи принимают во внимание два основных аспекта: надежность и валидность.
Надежность
Надежность относится к последовательности меры. Психологи рассматривают три типа согласованности: во времени (надежность повторного тестирования), между элементами (внутренняя согласованность) и между разными исследователями (надежность между экспертами).
Тестирование-повторное тестирование
Когда исследователи измеряют конструкт, который, по их мнению, является непротиворечивым во времени, полученные ими оценки также должны быть согласованными во времени. Надежность повторного тестирования — это степень, в которой это действительно так. Например, обычно считается, что интеллект постоянен во времени. Человек, который сегодня очень умный, на следующей неделе станет очень умным. Это означает, что любой хороший показатель интеллекта должен дать этому человеку примерно такие же баллы на следующей неделе, что и сегодня.Ясно, что мера, которая дает очень непоследовательные оценки с течением времени, не может быть очень хорошей мерой конструкции, которая должна быть согласованной.
Для оценки надежности повторного тестирования необходимо использовать этот показатель для группы людей за один раз, использовать его снова на той же группе людей в более позднее время, а затем посмотреть на корреляцию повторного тестирования между двумя наборами критериев. оценки. Обычно это делается путем построения графика данных в виде диаграммы рассеяния и вычисления коэффициента корреляции.На рис. 4.2 показана корреляция между двумя наборами оценок нескольких студентов университетов по шкале самооценки Розенберга, введенной два раза с интервалом в неделю. Коэффициент корреляции для этих данных составляет +,95. Как правило, корреляция между тестами и повторными тестами, равная +80 или выше, считается показателем хорошей надежности.
Рис. 4.2 Корреляция между тестами и повторными тестами между двумя наборами оценок нескольких студентов колледжа по шкале самооценки Розенберга, полученных два раза в неделю с интервалом
Опять же, высокая корреляция между тестами и ретестами имеет смысл, когда предполагается, что измеряемый конструкт остается неизменным во времени, что имеет место в случае интеллекта, самооценки и параметров личности Большой пятерки.Но другие конструкции не считаются стабильными с течением времени. Например, сама природа настроения такова, что оно меняется. Таким образом, показатель настроения, который дает низкую корреляцию между тестами и ретестами в течение месяца, не будет поводом для беспокойства.
Внутренняя согласованность
Другой вид надежности — это внутренняя согласованность , которая представляет собой согласованность ответов людей по всем пунктам при измерении нескольких пунктов. В целом предполагается, что все элементы таких показателей отражают одну и ту же основную конструкцию, поэтому оценки людей по этим вопросам должны коррелировать друг с другом.По шкале самооценки Розенберга люди, которые согласны с тем, что они достойные люди, должны соглашаться с тем, что у них есть ряд хороших качеств. Если ответы людей на разные вопросы не коррелируют друг с другом, то больше не имеет смысла утверждать, что все они измеряют одну и ту же основную конструкцию. Это верно как для поведенческих и физиологических показателей, так и для показателей самооценки. Например, люди могут сделать серию ставок в имитируемой игре в рулетку, чтобы измерить свой уровень стремления к риску.Этот показатель будет внутренне согласованным в той степени, в которой ставки отдельных участников будут стабильно высокими или низкими в ходе испытаний.
Как и надежность повторного тестирования, внутреннюю согласованность можно оценить только путем сбора и анализа данных. Один из подходов — посмотреть на корреляцию и половину . Это включает в себя разделение элементов на два набора, таких как первая и вторая половины элементов или элементы с четным и нечетным номерами. Затем для каждого набора элементов вычисляется оценка и исследуется взаимосвязь между двумя наборами оценок.Например, на рис. 4.3 показана корреляция между двумя частицами между оценками нескольких студентов университетов по четным пунктам и их оценками по нечетным пунктам шкалы самооценки Розенберга. Коэффициент корреляции для этих данных равен +,88. Корреляция разделенных половин, равная +80 или больше, обычно считается хорошей внутренней согласованностью.
Рисунок 4.3 Распределенная корреляция между результатами нескольких студентов колледжа по четным пунктам и их оценками по нечетным пунктам шкалы самооценки Розенберга
Пожалуй, наиболее распространенной мерой внутренней согласованности, используемой исследователями в области психологии, является статистика, называемая α Кронбаха (греческая буква альфа).Концептуально α — это среднее значение всех возможных корреляций разделенных половин для набора элементов. Например, существует 252 способа разделить набор из 10 элементов на два набора по пять. Α Кронбаха будет средним из 252 корреляций разделенных половин. Обратите внимание, что на самом деле α вычисляется не так, но это правильный способ интерпретации значения этой статистики. Опять же, обычно используется значение +80 или больше, чтобы указать на хорошую внутреннюю согласованность.
Надежность Interrater
Многие поведенческие меры требуют значительного суждения со стороны наблюдателя или оценщика. Надежность между экспертами — это степень, в которой разные наблюдатели едины в своих суждениях. Например, если вы заинтересованы в измерении социальных навыков студентов университета, вы можете сделать видеозаписи их взаимодействия с другим студентом, с которым они встречаются впервые. Затем вы можете попросить двух или более наблюдателей посмотреть видео и оценить уровень социальных навыков каждого учащегося. В той степени, в которой каждый участник действительно обладает определенным уровнем социальных навыков, который может быть обнаружен внимательным наблюдателем, оценки разных наблюдателей должны сильно коррелировать друг с другом.Надежность между экспертами также могла быть измерена в исследовании куклы Бобо Бандуры. В этом случае оценки наблюдателей того, сколько актов агрессии совершил конкретный ребенок во время игры с куклой Бобо, должны были иметь очень положительную корреляцию. Надежность между экспертами часто оценивается с помощью α Кронбаха, когда суждения являются количественными, или аналогичной статистики, называемой κ Коэна (греческая буква каппа), когда они категоричны.
Срок действия
Действительность — это степень, в которой баллы из меры представляют переменную, для которой они предназначены.Но как исследователи делают такое суждение? Мы уже учли один фактор, который они учитывают, — надежность. Если показатель имеет хорошую надежность повторного тестирования и внутреннюю согласованность, исследователи должны быть более уверены в том, что оценки соответствуют тому, что им положено. Однако здесь должно быть что-то еще, потому что мера может быть чрезвычайно надежной, но совершенно бесполезной. В качестве абсурдного примера представьте человека, который считает, что длина указательного пальца человека отражает его самооценку, и поэтому пытается измерить самооценку, поднося линейку к указательным пальцам людей.Хотя этот показатель имел бы чрезвычайно хорошую надежность повторного тестирования, он не имел бы абсолютно никакой ценности. Тот факт, что указательный палец одного человека на сантиметр длиннее, чем у другого, ничего не говорит о том, у кого из них выше самооценка.
Обсуждения действительности обычно делят его на несколько различных «типов». Но хороший способ интерпретировать эти типы состоит в том, что они представляют собой другие виды свидетельств, помимо надежности, которые следует принимать во внимание при оценке достоверности меры.Здесь мы рассматриваем три основных типа: валидность лица, валидность содержания и валидность критерия.
Лицевая достоверность
Лицевая достоверность — это степень, в которой метод измерения проявляется «на поверхности» для измерения интересующей конструкции. Большинство людей ожидают, что в анкету для самооценки будут включены вопросы о том, считают ли они себя достойным человеком и обладают ли они хорошими качествами. Таким образом, анкета, включающая такие вопросы, будет иметь хорошую внешнюю валидность.С другой стороны, метод измерения самооценки на расстоянии пальца, похоже, не имеет ничего общего с самооценкой и, следовательно, имеет низкую достоверность. Хотя фактическая валидность может быть оценена количественно — например, с помощью большой выборки людей, оценивающих меру с точки зрения того, действительно ли она измеряет то, для чего она предназначена, — она обычно оценивается неформально.
Фактическая достоверность — это в лучшем случае очень слабое свидетельство того, что метод измерения измеряет то, что он должен.Одна из причин заключается в том, что это основано на интуиции людей о человеческом поведении, которые часто ошибочны. Также верно и то, что многие общепринятые меры в психологии работают достаточно хорошо, несмотря на недостаточную достоверность. Миннесотский многофазный опросник личности-2 (MMPI-2) измеряет многие личностные характеристики и расстройства, предлагая людям решить, применимо ли к ним каждое из более чем 567 различных утверждений, при этом многие из утверждений не имеют очевидного отношения к конструкции, которую они измеряют. .Например, пункты «Мне нравятся детективы или детективы» и «Вид крови не пугает меня и не вызывает тошноту», оба измеряют подавление агрессии. В данном случае интерес представляют не дословные ответы участников на эти вопросы, а, скорее, то, соответствует ли характер ответов участников на серию вопросов ответам людей, которые склонны подавлять свою агрессию.
Срок действия содержимого
Достоверность содержимого — это степень, в которой мера «покрывает» интересующий конструкт.Например, если исследователь концептуально определяет тестовую тревогу как связанную как с активацией симпатической нервной системы (ведущей к нервным переживаниям), так и с негативными мыслями, то его мера тестовой тревожности должна включать вопросы как о нервных переживаниях, так и о негативных мыслях. Или подумайте, что отношения обычно определяются как связанные с мыслями, чувствами и действиями по отношению к чему-либо. Согласно этому концептуальному определению, человек положительно относится к упражнениям в той мере, в какой он или она думает о тренировках положительно, чувствует себя хорошо во время тренировок и фактически занимается спортом.Таким образом, чтобы иметь хорошую достоверность содержания, показатель отношения людей к упражнениям должен отражать все три этих аспекта. Как и фактическая достоверность, достоверность содержания обычно не оценивается количественно. Вместо этого он оценивается путем тщательной проверки метода измерения на соответствие концептуальному определению конструкции.
Срок действия критерия
Достоверность критерия — это степень, в которой оценки людей по показателю коррелируют с другими переменными (известными как критерии ), с которыми можно было бы ожидать их корреляции.Например, оценки людей по новому критерию тревожности при тестировании должны иметь отрицательную корреляцию с их успеваемостью на важном школьном экзамене. Если бы было обнаружено, что оценки людей на самом деле отрицательно коррелировали с их успеваемостью на экзамене, то это было бы доказательством того, что эти оценки действительно отражают тревогу людей перед тестированием. Но если бы выяснилось, что люди одинаково хорошо сдавали экзамен, независимо от их тестовой тревожности, это поставило бы под сомнение достоверность этой меры.
Критерием может быть любая переменная, которая, как есть основания полагать, должна коррелировать с измеряемым конструктом, и обычно их много. Например, можно было бы ожидать, что результаты теста на тревожность будут отрицательно коррелировать с успеваемостью на экзамене и оценками по курсу и положительно коррелировать с общим беспокойством и с артериальным давлением во время экзамена. Или представьте, что исследователь разрабатывает новую меру принятия физического риска. Баллы людей по этому показателю должны соотноситься с их участием в «экстремальных» видах деятельности, таких как сноуборд и скалолазание, количеством полученных штрафов за превышение скорости и даже количеством переломов костей, которые они получили за эти годы.Когда критерий измеряется одновременно с построением, достоверность критерия упоминается как одновременная достоверность ; однако, когда критерий измеряется в какой-то момент в будущем (после того, как конструкция была измерена), он упоминается как с предсказательной достоверностью (поскольку оценки по этому показателю «предсказали» будущий результат).
Критерии могут также включать другие меры той же конструкции. Например, можно было бы ожидать, что новые меры тестовой тревожности или принятия физического риска будут положительно коррелированы с существующими установленными показателями тех же конструктов.Это известно как конвергентная достоверность .
Оценка конвергентной достоверности требует сбора данных с помощью меры. Исследователи Джон Качиоппо и Ричард Петти сделали это, когда создали свою шкалу самоотчета «Потребность в познании», чтобы измерить, насколько люди ценят и вовлечены в мышление (Cacioppo & Petty, 1982). В серии исследований они показали, что оценки людей положительно коррелировали с их оценками по стандартизированному тесту академических достижений, и что их оценки отрицательно коррелировали с их оценками по показателю догматизма (который представляет собой тенденцию к послушанию).За годы, прошедшие с момента создания, шкала потребности в познании использовалась буквально в сотнях исследований, и было показано, что она коррелирует с широким спектром других переменных, включая эффективность рекламы, интерес к политике и решения присяжных. (Петти, Бриньоль, Лёрш и МакКаслин, 2009 г.).
Дискриминантная валидность
Дискриминантная валидность , с другой стороны, — это степень, в которой оценки по показателю , а не коррелируют с мерами переменных, которые концептуально различны.Например, самооценка — это общее отношение к себе, которое довольно стабильно во времени. Это не то же самое, что настроение, которое бывает хорошим или плохим в данный момент. Таким образом, оценки людей по новому показателю самооценки не должны сильно коррелировать с их настроением. Если бы новый показатель самооценки был сильно коррелирован с показателем настроения, можно было бы утверждать, что новый показатель на самом деле не измеряет самооценку; вместо этого он измеряет настроение.
При создании шкалы потребности в познании Качиоппо и Петти также предоставили доказательства дискриминантной валидности, показав, что оценки людей не коррелировали с некоторыми другими переменными.Например, они обнаружили лишь слабую корреляцию между потребностью людей в познании и мерой их когнитивного стиля — степенью, в которой они склонны мыслить аналитически, разбивая идеи на более мелкие части, или целостным образом в терминах «большой картины». Они также не обнаружили корреляции между потребностью людей в познании и показателями их тестовой тревожности и их склонностью реагировать социально желательными способами. Все эти низкие корреляции свидетельствуют о том, что показатель отражает концептуально отличную конструкцию.
Основные выводы
Психологические исследователи не просто предполагают, что их меры работают. Вместо этого они проводят исследования, чтобы показать, что они работают. Если они не могут показать, что работают, они прекращают их использовать.
Есть два различных критерия, по которым исследователи оценивают свои измерения: надежность и валидность. Надежность — это постоянство во времени (надежность повторного тестирования), между элементами (внутренняя согласованность) и между исследователями (надежность между экспертами).Достоверность — это степень, в которой оценки фактически представляют переменную, для которой они предназначены.
Действительность — это решение, основанное на различных типах доказательств. Соответствующее свидетельство включает надежность меры, то, покрывает ли она интересующий конструкт и коррелируют ли полученные оценки с другими переменными, с которыми они, как ожидается, коррелируют, а не коррелируют ли с переменными, которые концептуально различны.
No related posts.