Закончив набросок теста, необходимо обеспечить, чтобы все задания измеряли один и тот же конструкт, прежде чем проводить проверку надежности и валидности теста. Чтобы сделать это, тест следует предъявить большой выборке людей (п > 200), сходных по своим характеристикам с индивидуумами, которые будут в конечном счете тестироваться при помощи этого теста. Например, если тест будет использоваться для отбора окончивших обучение соискателей в определенную организацию, было бы целесообразно испытать этот тест на студентах, а не на 16-летних школьниках общеобразовательной школы (из-за разной академической подготовки) или пенсионерах (из-за различия в возрасте). Ответы затем обрабатываются, и для каждого индивидуума вычисляется общий балл.

Следующая стадия заключается в том, чтобы проанализировать средние показатели и стандартные отклонения по каждому из заданий. В тесте способностей (где правильный ответ вознаграждается одним баллом, а за неправильный не дают ничего) средняя оценка указывает на степень трудности каждого задания. Средний показатель 0,95 будет означать, что 95% выборки дали правильные ответы на задания. В случае личностных тестов средняя оценка показывает степень, с которой индивидуумы склонны соглашаться или не соглашаться с утверждениями. В соответствии с общим эмпирическим правилом было бы нежелательно иметь слишком много очень легких или очень трудных заданий в тесте. Таким образом, если более чем 10% заданий имеют средние показатели выше 0,8 или ниже 0,2, будет резонным обдумать возможность удаления некоторых заданий.

Задание для самопроверки 18.1

Почему нецелесообразно иметь слишком много очень легких или очень трудных заданий в тесте?

Величина стандартного отклонения по каждому заданию показывает размах индивидуальных различий, обнаруженных среди ответов испытуемых на это задание. Например, если задание имеет стандартное отклонение, равное 0, значит, все ответили одним и тем же образом и, следовательно, оно явно не фиксирует индивидуальные различия любого рода и должно быть удалено из шкалы. (Когда задания обрабатываются при помощи дихотомической шкалы, такой, как «правильно/неправильно», стандартное отклонение прямо связано со средним значением, что читатели, изучавшие биномиальную теорему, могли бы подтвердить самостоятельно. Этот этап вычисления должен быть в таких случаях пропущен.)

Хотя проверка средних и стандартных отклонений оценок — необходимый первый шаг, она не может обнаружить, какие вопросы в тесте имеют плохое содержание. Например, представим себе, что одно задание в личностном тесте использовало язык, который оказался слишком трудным для понимания испытуемыми, побуждая всех их просто угадывать ответ. На другое задание могла отрицательно влиять «социальная желательность». Мы приведем четыре метода анализа задания для выявления тех из них, которые по той или иной причине просто не измеряют то же самое, что измеряют другие задания теста.

При использовании любого из описанных ниже четырех методов элиминации заданий из теста важно стараться обеспечить, чтобы тест сохранял приблизительно равное число заданий по каждому из его аспектов (как описано выше). Предположим, например, что учитель начал с подготовки пяти заданий по каждому из семи видов математических действий: письменному делению в столбик, письменному умножению в столбик, геометрии/тригонометрии, решению систем уравнений, нахождению корней квадратных из уравнений, дифференцированию и интегрированию. После этого анализ заданий позволит исключить из 35 заданий слишком легкие, слишком трудные или задания, которые просто не работают, но было бы явной неудачей, если бы анализ привел к исключению всех заданий на письменное деление в столбик и всех заданий на умножение в столбик, поскольку учитель считает, что это два важных компонента математических достижений учащихся. Анализ заданий — это искусство в такой же степени, как и наука, и при удалении заданий важно гарантировать, что по каждому из аспектов останется приблизительно равное их число.

Смотрите также

Этические принципы исследований с участием людей
В 1960-х гг. один из принципов первого кодекса был переработан в отдельный кодекс этики исследований с участием людей. Комитет РА, созданный по образцу комитета Хоббса и возглавляемый его бывшим у ...

Проблема контроля за эффектом последовательности
Обычно эффект последовательности контролируется с помощью создания нескольких последовательностей — такой подход известен как позиционное уравнивание. Как вы узнаете далее, данная процедура лучше ...

Результаты: основной эффект и взаимодействие
Факторные исследования дают два вида результатов: основной эффект и взаимодействие. Основной эффект показывает общее влияние независимых переменных, а взаимодействие отражает совместное действие п ...