Мы видели, что теория надежности может доказать, измеряет или нет набор тестовых заданий некоторую скрытую черту. Однако она не в состоянии пролить какой-либо свет на сущность черты. То обстоятельство, что исследователь думает, будто набор заданий должен измерять определенную черту, не дает гарантии того, что измеряется действительно эта черта. В начале 1960-х гг. много публикаций было посвящено шкале репрессии—сенситизации (R—S). Эта шкала была предназначена измерять степень, с которой индивидуумы использовали «перцептивную защиту», другими словами, оценивать склонность к менее осознанному восприятию эмоционально угрожающих фраз по сравнению с нейтральными фразами при предъявлении и тех и других на очень короткое время. Задания образовывали вполне надежную шкалу, поэтому все просто признавали, что эта шкала измеряла то, что она должна была измерить. На ее основе было проведено очень большое количество исследований. Затем Джой (Joy, 1963; цит. no: Kline, 1981) установил, что оценки, полученные по этому тесту, обнаруживали корреляцию —0,91 с хорошо обоснованным тестом социальной желательности. Максимальная корреляция между двумя тестами ограничена величиной их надежности, поэтому корреляция —0,91 в действительности подразумевает, что вся вариативность шкалы репрессии—сензитизации могла объясняться социальной желательностью. Она не измеряла ничего нового вообще.

В этой истории содержится важное положение. Даже если набор заданий, по-видимому, образует целостную шкалу, невозможно сказать, что именно она измеряет, просто просмотрев задания. Необходимо эмпирически определить, что именно измеряет шкала, с помощью процедуры, известной как валидизация теста.

Говорят, что тест валиден, если он измеряет то, что он должен измерить либо в теоретических понятиях, либо в практическом приложении. Например, тест, который предлагается использовать как средство измерения тревожности в общей популяции Великобритании, должен измерять тревожность, а не социальную желательность, навыки чтения, социабельность или какую-либо другую не связанную с ней черту. Тест, использующийся для профотбора соискателей, которые будут с наибольшей вероятностью успешны в определенной деятельности, должен быть способен выявить индивидуума (индивидуумов), который будет работать лучше других. Однако, если надежность теста может быть выражена определенным числом (для конкретной выборки испытуемых), валидность теста также зависит и от целей тестирования. Например, тест, валидный для отбора компьютерных программистов из выборки студентов Великобритании, может оказаться бесполезным для отбора администраторов в сфере торговли. Тест, валидный для измерения депрессии при использовании его медицинскими работниками, скорее всего не будет валиден при общем обследовании нанимающихся на работу соискателей, поскольку большинство из них будут понимать цель теста и искажать свои ответы.

Из этого следет, что надежность является необходимым условием валидности теста, поскольку низкая надежность подразумевает, что тест не измеряет одну конкретную черту. Однако высокая надежность сама по себе не гарантирует валидность теста, поскольку, как показано выше, это зависит полностью от того, как, почему и на ком используется тест.

Существует четыре главных способа установления валидности теста.

Очевидная валидность

Очевидная валидность просто оценивает, насколько тест внешне соответствует тому, для чего он предназначался. Описанное выше ниспровержение шкалы R—S показывает, что даже внимательное изучение содержания заданий не дает гарантий того, что тест будет измерять именно предполагавшуюся черту. Несмотря на это, некоторые широко распространенные тесты (особенно в социальной психологии) конструируются путем формулирования нескольких заданий, обеспечения достаточной величины коэффициента альфа (что обычно не создает проблем, потому что задания перефразируют одно другое), а также наивного полагания, что шкала измеряет то понятие, для оценки которого она предназначалась. Принципиально важно до использования теста обеспечить ему лучшие, чем эти, основания.

Содержательная валидность

Иногда можно сконструировать тест, который должен быть валиден, по определению. Например, представьте себе, что кто-то захотел сконструировать тест на правописание. Поскольку, по определению, словарь содержит полный набор заданий, любая процедура, обеспечивающая репрезентативную выборку слов из словаря, должна быть валидным тестом способности к правописанию. Именно это и означает валидность по содержанию. Приведем другой пример: психологи, специализирующиеся на отборе кадров, в некоторых случаях используют особые подходы, условно обозначаемые как «рабочая корзина», когда соискателям предлагают выполнить ряд работ, которые относятся к сфере профессиональной деятельности, а затем тем или иным способом оценивается их успешность по этим заданиям. Эти эксперименты не являются психологическими тестами в прямом смысле слова, но можно согласиться с тем, что эта процедура имеет содержательную валидность. Проблема заключается в том, что редко удается достаточно точно определить полный набор потенциальных заданий теста. Например, каким образом следовало бы определить задания, которые нужно включить в тест способности к вычислениям? В результате этого данная методика используется не слишком часто.

Страницы: 1 2 3

Смотрите также

Межличностная коммуникация
Межличностная коммуникация — это неформальное взаимодействие, которое происходит один на один или в малых группах. Беседуем ли мы с соседями по студенческому общежитию, болтаем ли по телефону с то ...

Разработка исследований на основе теорий
В главе 1 были кратко описаны цели науки психологии и в качестве одной из таких целей было названо объяснение поведения. По сути, процесс объяснения представляет собой процесс построения и проверк ...

Способы познания
Давайте задумаемся над чем-нибудь, что мы считаем безусловно верным. Это может быть нечто совсем простое, вроде мысли о том, что сад лучше поливать утром, а не вечером, или нечто сложное, как, нап ...