| |
определению того, какие выводы по тестовым показателям яв-ся обоснованными
(Cronbach et al., 1972). Надежность касается выводов о согласованности
измерения. Согласованность определяется по-разному: как временная устойчивость,
как сходство между предположительно эквивалентными тестами, как однородность в
рамках одного теста или как сравнимость оценок, выносимых экспертами. При
использовании метода «тест—ретест» надежность теста устанавливается путем
повторного его проведения с той же группой спустя определенный промежуток
времени. Затем два полученных набора показателей сравниваются с целью
определения степени сходства между ними. При использовании метода
взаимозаменяемых форм на выборке обследуемых проводятся два параллельных
измерения. Привлечение экспертов («оценщиков») к оценке качества параллельных
форм теста дает меру надежности, наз. надежностью оценщиков. Этот метод часто
применяют, когда есть необходимость в экспертной оценке.
Оценка валидности
Валидность характеризует качество выводов, получаемых на основе рез-тов
проведения измерительной процедуры. Прогностическая валидность оценивает
способность измерительных инструментов давать заключения о будущей успешности,
напр., в работе или в обучении. Как правило, в этом случае рассчитывается
корреляция между прогнозирующим параметром и некой количественной оценкой
эффективности в работе или в обучении, наз. критерием. Напр., тестовые
показатели кандидатов при поступлении в колледж или профессиональную школу
часто сопоставляют с их оценками в период последующего обучения. Получаемый в
рез-те коэффициент корреляции наз. коэффициентом валидности. Эти коэффициенты
могут корректироваться, напр., когда критериальные оценки характеризуются узким
размахом или когда оказывается ненадежным сам критерий. Когда данные по
прогнозирующему параметру собираются практически одновременно с измерениями
критерия, это наз. исслед. текущей валидности. Поскольку один-единственный
инструмент не всегда оказывается способен прогнозировать критерий в той степени,
в какой это необходимо, привлекаются множественные предикторы, часто с
использованием статистической процедуры множественной регрессии, позволяющей
достичь максимального прогноза критерия путем взвешивания вкладов различных
тестов.
Содержательная валидность оценивает, насколько полно содержание теста
охватывает тестируемую область, и особенно полезна для тестов достижений в
обучении. Такие оценки, как правило, выносятся экспертами в тестируемой области.
В последнее время стало принято считать, что конструктная валидность яв-ся
родовым понятием по отношению к прогностической и содержательной валидности.
Критическим вопросом, задаваемым в отношении конструктной валидности, яв-ся
вопрос о том, насколько хорошо данный тест измеряет свойство(а), к-рое(ые) он
предположительно должен измерять.
Анализ заданий
Большинство процедур анализа заданий предполагают: а) регистрацию числа
испытуемых, давших правильный или неправильный ответ на определенное задание;
б) корреляцию отдельных заданий с др. переменными; в) проверку заданий на
систематическую ошибку (или «необъективность»). Долю испытуемых, справившихся с
заданием теста, наз., возможно не вполне точно, трудностью задания. Способ
улучшить задания — подсчитать процент выбора каждого варианта ответа на задание
с множественным выбором; полезно тж вычислить средний тестовый показатель
испытуемых, выбравших каждый вариант. Эти процедуры позволяют контролировать,
чтобы варианты ответов выглядели правдоподобными для неподготовленных
испытуемых, но не казались правильными наиболее знающим. Отбор заданий, к-рые
сильно коррелируют с показателем полного теста, максимизирует надежность как
внутреннюю согласованность теста, тогда как отбор заданий, к-рые сильно
коррелируют с внешним критерием, максимизирует его прогностическую валидность.
Описательная аналоговая модель этих корреляций наз. характеристической кривой
задания; в типичных случаях — это график зависимости доли испытуемых, правильно
отвечающих на вопрос, от их суммарного тестового показателя (или к.-н. др.
оценки их уровня способности). Для эффективных заданий эти графики представляют
собой положительные восходящие кривые, не снижающиеся по мере прироста
способности. Процедуры проверки заданий на систематическую ошибку связаны с
выявлением тех из них, к-рые неодинаково трудны для различных групп. Др.
словами, эти процедуры связаны с установлением общих различий в тестируемой
способности и последующим поиском заданий, к-рые имеют отличающиеся
коэффициенты трудности для групп меньшинств. Последующее удаление этих заданий
из теста приводит к тому, что такой тест будет считаться справедливым. В
настоящее время еще только приступили к изучению этих процедур и их реальная
ценность пока не определена.
См. также Кластерный анализ, Систематическая ошибка тестов, обусловленная
культурными факторами, Анализ заданий, Тесты для отбора кандидатов, Статистика
в психологии
К. Ф. Гейзингер
Психоневрология (psychoneurology)
«Моральные и деятельные принципы разума сильно извращены или испорчены,
власть над собой утрачена или ограничена и индивидуум неспособен говорить или
рассуждать о к.-л. предложенном ему предмете, а тж вести себя с приличием и
пристойностью в жизненных делах». Так английский психиатр Дж. Причард определил
новое понятие «морального помешательства» в своем «Трактате» (Treatise),
|
|