Особенности определения валидности педагогического теста. Особенности определения валидности педагогического теста Вопросы и задания

К числу основных критериев оценки психодиагностических методик относится надёжность и валидность. Большой вклад в разработку этих понятии внесли зарубежные психологи (А. Анастази, Е. Гизелли, Дж. Гилфорд, Л. Кронбах, Р. Торндайк и Е. Хаген и др.). Ими были разработаны как формально-логический, так и математико-статистический аппарат (прежде всего корреляционный метод и фактический анализ) обоснования степени соответствия методик отмеченным критериям. В психодиагностике проблемы надёжности и валидности методик тесно взаимосвязаны, тем не менее, существует традиция раздельного изложения этих важнейших характеристик. Следуя ей, начнём с рассмотрения надёжности методик.

НАДЁЖНОСТЬ

В традиционной тестологии термин "надёжность " означает относительное постоянство, устойчивость, согласованность результатов теста при первичном и повторном его применении на одних и тех же испытуемых. надёжность методики - это такой критерий, который говорит о точности психологических измерений, т.е. позволяет судить о том, насколько внушают доверие полученные результаты.

Важной проблемой практической диагностики является выяснение негативных факторов, влияющих на точность измерений:

1. нестабильность диагностируемого свойства;

2. несовершенство диагностических методик

3. меняющаяся ситуация обследования

4. различия в манере поведения экспериментатора

5. колебания в функциональном состоянии испытуемого

6. элементы субъективности в способах оценки и интерпретации результатов

Разновидностей надёжности методик так же много, как и условий, влияющих на результаты диагностических испытаний.

Так как все виды надёжности отражают степень согласованности двух независимо полученных рядов показателей, то математико-статистический приём, с помощью которого устанавливается надёжность методики, - это корреляции (по Пирсону или Спирмену, см гл. XIV). Надёжность тем выше, чем больше полученный коэффициент корреляции приближается к единице, и наоборот.

основной упор делается на работы К.М. Гуревича (1969, 1975, 1977, 1979), который, проведя тщательный анализ зарубежной литературы по этой проблеме, предложил толковать надёжность как:

1. надёжность самого измерительного инструмента,

2. стабильность изучаемого признака;

3. константность, т.е. относительную независимость результатов от личности экспериментатора.

Показатель, характеризующий измерительный инструмент, предлагается называть коэффициентом надёжности, показатель, характеризующий стабильность измеряемого свойства, - коэффициентом стабильности; а показатель оценки влияния личности экспериментатора - коэффициентом константности.

ВАЛИДНОСТЬ

Валидность по своей сути - это комплексная характеристика, включающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова ее действенность, эффективность. Проверка валидности методики называется валидизациеи.

Валидность в первом ее понимании имеет отношение к самой методике, т.е. это валидность измерительного инструмента. Такая проверка называется теоретической валидизациеи. Валидность во втором понимании уже относится не столько к методике, сколько к цели ее использования. Это прагматическая валидизация. Итак, при теоретической валидизации исследователя интересует само свойство, измеряемое методикой. Это, по существу, означает, что проводится собственно психологическая валидизация. При прагматической валидизации суть предмета измерения (психологического свойства) оказывается вне поля зрения.

что тест измеряет:

1. методика признавалась валидной, так как то, что она измеряет, просто "очевидно";

2. доказательство валидности основывалось на уверенности исследователя в том, что его метод позволяет "понять испытуемого";

3. методика рассматривалась как валидная (т.е. принималось утверждение, что такой-то тест измеряет такое-то качество) только потому, что теория, на основании которой строилась методика, "очень хорошая".

Провести теоретическую валидизацию методики - это показать, действительно ли методика измеряет именно то свойство, качество, которое она, по замыслу исследователя, должна измерять. Доказывается не только путём сопоставления с родственными показателями, а также и с теми, где исходя из гипотезы значимых связей не должно быть. Таким образом, для проверки теоретической валидности важно, с одной стороны, установить степень связи с родственной методикой (конвергентная валидность) и отсутствие этой связи с методиками, имеющими другое теоретическое основание (дискриминантная валидность).

Для проведения прагматической валидизации методики, т.е. для оценки ее эффективности, действенности, практической значимости, обычно используется независимый внешний критерий - показатель проявления изучаемого свойства в повседневной жизни. Таким критерием может быть успеваемость (для тестов способностей к обучению, тестов достижений, тестов интеллекта), производственные достижения (для методик профессиональной направленности), эффективность реальной деятельности - рисования, моделирования и т.д. (для тестов специальных способностей), субъективные оценки (для тестов личности).

Американские исследователи Тиффин и Маккормик (1968), проведя анализ используемых для доказательства валидности внешних критериев, выделяют четыре их типа:

1) критерии исполнения (в их число могут входить такие, как количество выполненной работы, успеваемость, время, затраченное на обучение и т.п.);

2) субъективные критерии (обычно субъективные критерии получают с помощью интервью, опросников, анкет);

3) физиологические критерии (замеряется частота пульса, давление крови, электросопротивление кожи, симптомы утомления и т.д.);

4) критерии случайностей (применяются, когда цель исследования касается, например, проблемы отбора для работы таких лиц, которые менее подвержены несчастным случаям).

Оценка валидности методики может носить количественный и качественный характер.

№ 19 Виды валидности. Измерение валидности

Вопрос о валидности до последнего времени представляется одним из самых сложных. Наиболее укоренившимся определением этого понятия является то, которое приведено в книге А. Анастази: «Валидность теста - понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает»

Валидность по своей сути - это комплексная характеристика, вклю­чающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова ее действенность, эффективность, практическая полезность.

По этой причине не существует какого-то единого универсального подхода к определению валидности. В зависимости от того, какую сто­рону валидности хочет рассмотреть исследователь, используются и разные способы доказательства. Другими словами, понятие валидно­сти включает в себя разные ее виды, имеющие свой особый смысл. Проверка валидности методики называется валидизацией.

Очевидная валидность - описывает представление о тесте, сложившееся у испытуемого. Тест должен восприниматься обследуемым как серьезный инструмент познания его личности, чем-то схожий с вызывающим уважение и в какой-то мере трепет медицинским диагностическим инструментарием. Очевидная валидность приобретает особое значение в современных условиях, когда представление о тестах в общественном сознании формируется многочисленными публикациями в популярных газетах и журналах того, что можно назвать квазитестами, с по- мощью которых читателю предлагается определить все, что угодно: от интеллекта до совместимости с будущим супругом.

Конкурентная валидность оценивается по корреляции разработанного теста с другими, валидность которых относительно измеряемого параметра установлена. П. Клайн отмечает, что данные о конкурентной валидности полезны тогда, когда есть неудовлетворительно работающие тесты для измерения некоторых переменных, а новые создаются для того, чтобы улучшить качество измерения. В самом деле, если уже существует эффективный тест, то для чего нужен такой же новый?

Прогностическая валидность устанавливается с помощью корреляции между показателями теста и некоторым критерием, характеризующим измеряемое свойство, но в более позднее время. Например, прогностическая валидность какого- либо теста интеллекта может быть показана корреляцией его показателей, полученных у испытуемого в возрасте 10 лет, с академической успеваемостью в период окончания средней школы. Л. Кронбах считает прогностическую валидность наиболее убедительным доказательством того, что тест измеряет именно то, для чего он был предназначен. Основная проблема, с которой сталкивается исследователь, пытающийся установить прогностическую валидность своего теста, состоит в выборе внешнего критерия. В особенной степени чаще всего это касается измерения личностных переменных, где подбор внешнего критерия - чрезвычайно сложная задача, решение которой требует немалой изобретательности. Несколько проще обстоит дело при определении внешнего критерия для когнитивных тестов, однако и в этом случае исследователю приходится «закрывать глаза» на многие проблемы. Так, академическая успеваемость традиционно используется в качестве внешнего критерия при валидизации тестов интеллекта, но в то же время хорошо известно, что успехи в обучении далеко не единственное свидетельство высокого интеллекта.

Инкрементная валидность имеет ограниченное значение и относится к случаю, когда один тест из батареи тестов может иметь низкую корреляцию с критерием, но не перекрываться другими тестами из этой батареи. В этом случае данный тест обладает инкрементной валидностью. Это может быть полезно при проведении профотбора с помощью психологических тестов.

Дифференциальная валидность может быть проиллюстрирована на примере тестов интересов. Тесты интересов обычно коррелируют с академической успеваемостью, но по-разному для разных дисциплин. Значение дифференциальной валидности, так же как и инкрементной, ограничено.

Содержательная валидность определяется через подтверждение того, что задания теста отражают все аспекты изучаемой области поведения. Обычно она определяется у тестов достижений (смысл измеряемого параметра полностью ясен!), которые, как уже указывалось, тестами собственно психологическими не являются. На практике для определения содержательной валидности подбираются эксперты, которые указывают, какая область (области) поведения наиболее важна, например, для музыкальных способностей, а затем, исходя из этого, генерируются задания теста, которые вновь оценивают эксперты.

Конструктная валидность теста демонстрируется полным, насколько это возможно, описанием переменной, для измерения которой предназначается тест. По сути дела, конструктная валидность включает в себя все подходы к определению валидности, которые были перечислены выше. Кронбах и Мил (Cronbach & Meehl,1955), которые ввели в психодиагностику понятие конструктной валидности, пытались решить проблему отбора критериев при валидизации теста. Они подчеркивали, что во многих случаях ни один отдельно взятый критерий не может служить для валидизации отдельного теста. Можно считать, что решение вопроса о конструктной валидности теста представляет собой поиск ответа на два вопроса:

1) существует ли реально некоторое свойство; 2) надежно ли измеряет данный тест индивидуальные различия по этому свойству. Вполне понятно, что с конструктной валидностью связана проблема объективности в интерпретации результатов по изучению конструктной валидности, однако эта проблема общепсихологическая и выходит за рамки валидности.

Не существует какого-либо единичного показателя, с помощью которого устанавливается валидность психологического теста. В отличие от показателей надежности и дискриминативности, нельзя осуществить точные статистические расчеты, подтверждающие валидность методики. Тем не менее разработчик должен представить весомые доказательства в пользу валидности теста, что потребует от него психологических знаний и интуиции.

валидность ≤ надежность.

Это означает, что валидность теста не может превышать его надеж­ность.

Данное соотношение, однако, неверно трактовать как указание на прямую пропорциональную связь валидности и надежности. По­вышение надежности отнюдь не обязательно приводит к повышению валидности. В терминах А. Анастази валидность определяется ре­презентативностью теста относительно измеряемой области поведе­ния. Если эта область поведения складывается из разнообразных фе­номенов, то содержательная валидность теста автоматически требует представленности в нем моделей всех этих разнообразных феноме­нов. Возьмем глобальное понятие «речевая способность» (этому психолингвистическому термину в традиционной тестологии соответству­ет термин «вербальный интеллект»). Сюда относятся такие относи­тельно независимые друг от друга навыки, как навыки письма и чте­ния. Если заботиться о содержательной валидности соответствую­щего теста, то нужно ввести в него группы заданий на проверку этих довольно разных по своему операциональному составу компонентов вербального интеллекта. Вводя разнородные пункты и субшкалы (суб­тесты), мы обязательно сокращаем внутреннюю согласованность, од­номоментную надежность теста, но зато добиваемся существенного повышения валидности. Таким образом, для расширения области при­менения теста психодиагност должен избегать излишнего повыше­ния внутренней согласованности. Одновременно с этим снижением внутренних корреляций между различными пунктами теста обязательно исчезает отрицательный эксцесс на кривой распределения тестовых баллов, и она все более приближается по форме к нормальной кривой.

Эмпирическая валидность. Если в случае с содержательной валидностью оценка теста производится за счет экспертов (устанавли­вающих соответствие заданий теста содержанию предмета измере­ния), то эмпирическая валидность измеряется всегда с помощью ста­тистического коррелирования: подсчитывается корреляция двух ря­дов значений - баллов по тесту и показателей по внешнему параметру, избранному в качестве критерия валидности.

Прагматические традиции западной тестологии привязывали эм­пирическую валидность теста к внешним для психологии социально-прагматическим критериям. Эти критерии являются показателями, обладающими непосредственной ценностью для определенных об­ластей практики. Практика всегда имеет целью либо повысить, либо понизить эти показатели. Например, в области педагогической пси­хологии это «успеваемость» (которую надо повысить), в психологии труда это «производительность труда» и «текучесть кадров», в меди­цине - «состояние здоровья пациента». Ориентируясь непосредственно на эти категории, психолог, пы­тающийся скоррелировать результаты теста с этими показателями, фактически решает сразу две задачи: задачу измерения валидности и задачу измерения практической эффективности своей психодиагнос­тической программы. Если получен значимый коэффициент корреля­ции, то можно считать, что решены с позитивным результатом сразу обе эти задачи. Но если корреляции не обнаружено, то остается нео­пределенность: либо невалидна сама процедура (тестовый балл не отражает, например, стрессоустойчивость оператора), либо неверна гипотеза о наличии причинно-следственной связи между психичес­ким свойством и социально значимым показателем (стрессоустойчивость не влияет на процент аварийных ситуаций).

Таким образом, социально-прагматические критерии являются комплексными: они позволяют измерить валидность-эффективность, но не каждое из этих двух свойств теста отдельно. На практике пси­холога часто ожидает и еще более сложная ситуация, когда заказчик требует от психолога на основании полученного диагноза сразу же определенных мер по вмешательству в ситуацию (отбор, консульти­рование, обучение и т. п.). В этом случае повышение показателей (достоверное по сравнению с контрольной группой) доказывает од­новременно и валидность-эффективность диагностики, и эффектив­ность самого вмешательства. А отрицательный результат дает еще большую неопределенность, так как оказывается невозможным от­делить неэффективность вмешательства от низкой валидности ди­агностики.

Процедура эмпирической валидизации. Организация выборки при эмпирической валидизации зависит от временного статуса критерия. Если этот критерий - событие в прошлом (ретроспективная валидизация), то к участию в психодиагностическом обследовании доста­точно привлечь только тех испытуемых, которые оказались на экстремальных полюсах по этому критерию. В результате применяется ме­тод экстремальных (контрастных) групп. Коррелирование с суммар­ным баллом по тесту оценивается с помощью бисериального коэф­фициента по формуле.

Если критерий - будущее событие (проспективная валидизация), то выборка должна быть составлена с запасом - с учетом вероятного объема экстремальных групп в будущем. Например, нужно выяснить, позволяет ли диагностика темперамента прогнозировать повышен­ный риск психосоматических заболеваний (гипертония, язва, астма и т. п.). Пусть на основании эпидемиологических исследований извес­тно, что в течение трех лет из. 1000 здоровых людей этими болезнями заболевают 57 человек. Это означает, что превентивной (предупреж­дающей) диагностикой должно быть охвачено около 2000 человек, чтобы получить численность «высокой» группы (заболевших) поряд­ка 100 человек. Проспективная валидизация выявляет прогностичес­кую эффективность диагностической процедуры. Высокая прогнос­тическая валидность доказывает как валидность самого измерения, так и наличие предполагаемой причинной связи.

№ 20 Достоверность как специальная разновидность валидности применительно к тестовым самоотчетам. Методы борьбы с социальной желательностью.

Особой разновидностью валидности является ДОСТОВЕРНОСТЬ. Речь идет о сознательных или бессознательных искажениях, которые вносит в тестовые результаты сам испытуемый, руководствуясь в ходе теста особой мотивацией, отличающейся от той, которая присуща ему в реальном поведении. Способность теста защищать информацию от МОТИВАЦИОННЫХ ИСКАЖЕНИЙ и есть достоверность теста. Особенно, остро проблема достоверности стоит в случае тест-опросников, которые допускают больше свободы в выборе испытуемым любого варианта ответа. Типичный прием обеспечения достоверности - наличие в тест-опросниках ШКАЛ ЛЖИ, введение вопросов «не про что», введение параллельных вопросов, вопросов дублей. Эти шкалы основываются главным образом на феномене СОЦИАЛЬНОЙ ЖЕЛАТЕЛЬНОСТИ - стремлении испытуемых давать в ходе тестирования социально одобряемую информацию. Если испытуемый набрал по шкале лжи балл выше критического, то его протокол объявляется недостоверным и ему предлагается либо выполнить данный тест еще раз более откровенно, либо выполнить другой тест. Многие более специфичные ловушки, направленные на измерение достоверности, часто входят как компонент в структуру конкретного теста, а иногда даже не подлежат разглашению как элемент ноу-хау (информационного изобретения) и профессиональной тайны, разделяемой разработчиками только с лицензированными пользователями методики, подписавшими особое лицензионное соглашение при приобретении теста. Достоверность тестирования тесно связана со степенью доверительности общения, которую смог психолог установить с данным испытуемым. Здесь полезно различать две диагностические ситуации: консультативную (СИТУАЦИЯ КЛИЕНТА) и аттестационную (СИТУАЦИЯ ЭКСПЕРТИЗЫ). В первом случае испытуемый участвует в тестировании на добровольной основе и сам заинтересован получить рекомендации по результатам тестирования (как, например, в профориентационной консультации). Во втором случае тестирование проводится по инициативе педагога или администрации, психолога, родителей, т. е. других лиц, и эти другие больше заинтересованы в результатах, чем сам испытуемый. Понятно, что в аттестационной ситуации вопрос о достоверности особенно актуален. И опросники, не снабженные шкалами лжи, использовать в таких ситуациях бесполезно. Наоборот, в ситуации клиента могут быть использованы такие методики, на которые испытуемый заведомо будет отвечать некорректно в ситуации экспертизы. Вопросы достоверности и стандартизации тесно связаны между собой. Очень часто даже объективные тесты достижений, если они проходили стандартизацию на добровольцах (в ситуации консультации), должны быть рестандартизированы ля того, чтобы их использовали в аттестационной ситуации.


№ 21 Технология создания и адаптации методик

Создание оригинальной методики или адаптация зарубежной ме­тодики не могут сводиться только к проверке (или перепроверке) от­дельных психометрических свойств - репрезентативности, надежно­сти, валидности, достоверности - в произвольной последовательнос­ти. В одних случаях целесообразно начинать с одного этапа работы, в других - с другого. В действительности любая реальная ситуация использования те­ста не является ситуацией только «конструирования» или только «применения». Можно без преувеличения сказать, что существует конти­нуум между крайними полюсами:

«конструирование» __________________ «применение»

и каждая ситуация до определенной ступени удалена от обоих полю­сов. Трудно назвать такой случай, когда бы конструирование совер­шенно нового теста начиналось с нуля, «на пустом месте». Также труд­но найти и такие случаи, когда все аспекты тестирования были бы полностью неизменными и воспроизводили бы уже совершенно ис­следованную нормативную ситуацию применения готового теста. Но все это многообразие ситуаций, всю комбинаторику независи­мых параметров психологи-практики, как правило, пытаются свести к двум-трем типовым ситуациям.

1. Ситуация применения. Тест кем-то разработан (возможно, В: других социокультурных условиях), известны тестовые нормы, полу­ченные на представителях данной языковой культуры (несоответствие выборки стандартизации и выборки применения по половозрастной структуре и профессионально-культурным признакам признается не­существенным).

2. Ситуация адаптации. Тест кем-то разработан – проверены на­дежность и валидность, но отсутствуют тестовые нормы (как правило, отсутствуют вообще для любых представителей данной языковой культуры). Задача адаптации сводится, таким образом, к построению тестовых норм.

3. Ситуация конструирования. Есть концепция психического свой­ства, но нет процедуры его измерения, удовлетворяющей требованиям места, времени, возможностям количественного анализа и ограничениям прочих ресурсов. Надо придумать измерительную процедуру, проверить ее надежность и валидность, построить тестовые нормы.

Остановимся прежде всего на вопросах адаптации так называе­мых переводных тестов. Путь быстрого пополнения репертуара ме­тодик за счет множества готовых зарубежных методик кажется мно­гим психологам наиболее экономичным, кратчайшим путем к надеж­ной и валидной психодиагностике. Но ведь если при этом адаптация сводится только к построению нормативного распределения тесто­вых баллов, то это означает, что валидность и надежность адаптированной методики в новых условиях принимаются на веру, а теорети­ческая концепция автора теста и содержание использованных им критериев валидности просто переносятся в наши условия без измене­ний (ведь для любой, в том числе и для невалидной и ненадежной методики, можно получить распределение). Подобный перенос дает пренебрежимые погрешности только для тестирования относительно элементарных психических свойств (та­ких, как свойства нервной системы, функциональные состояния, сенсомоторные параметры, элементарные когнитивные функции, при­чем с использованием объективных процедур (психофизиологичес­кая регистрация, тесты с «физическими» критериями успеха и т. п.). При тестировании интегральных психических свойств личности и индивидуального сознания (черты, мотивы, установки, самооценка, общие способности, стиль общения, ценностные ориентации, инте­ресы и т. п.), а также при употреблении любых лингвистических средств в самой процедуре тестирования (включая не только форму­лировки задач, вопросов; но и исходную формулировку инструкции к тесту) и использовании культурно-специфических критериев оценки правильности результата (определения шкального ключа) ограничи­ваться только сбором тестовых норм при адаптации - недопустимо!

Требуется серьезная эмпирическая работа по проверке надежно­сти и валидности в новых социокультурных условиях, работа, факти­чески соответствующая по своему объему созданию оригинальной методики. С этой точки зрения, заимствование зарубежных общедиаг­ностических тестов способностей, черт характера, интересов и т. п. вовсе не оказывается кратчайшим путем к психодиагностике. Этот путь кажется короче только тем, кто сознательно или по неведению пренебрегает принципами психометрики.

Перечислим необходимые этапы эмпирико-статистической рабо­ты при адаптации многомерного переводного тест-опросника.

1. Анализ внутренней валидности, внутренней согласованности пунктов, из которых состоит тест-опросник. Этот анализ призван по­казать, что существует некое (еще неясно, какое именно) общее диаг­ностическое свойство, лежащее на пересечении всех эмпирических индикаторов (в центре «пучка» скоррелированных пунктов-векторов). Такой анализ обязателен по отношению ко всем тестовым шкалам, полученным с помощью факторного анализа, например к тест-опросникам EPI Айзенка и 16PF Кеттелла. А вот к опроснику «локус конт­роля» или ко многим основным клиническим шкалам MMPI требова­ние внутренней согласованности применять не обязательно, так как пункты в эти шкалы подбирались по внешнему критерию и не связа­ны в один «пучок». Анализ внутренней согласованности может быть применен и к одномерным, и к многомерным тестам. В первом слу­чае достаточно иметь настольный калькулятор. Для многомерных те­стов необходимо использование специальной компьютерной програм­мы «Анализ пунктов».

2. Проверка устойчивости к перетестированию. Эта проверка со­вершенно необходима при диагностике свойств, по отношению к ко­торым теоретически ожидается инвариантность во времени. Анализ ретестовой надежности может быть (так же как анализ надежности согласованности) совмещен с исследованием информативности от­дельных пунктов теста, а также, возможно, и устойчивости отдель­ных пунктов. Без сведений о ретестовой надежности психолог не имеет права использовать тест для построения любого элементарного статического экстраполирующего прогноза.

3. Анализ корреляций с релевантным внешним критерием. Этот этап адаптации совершенно необходим, если тест разрабатывался из­начально как критериально-ориентированный, т. е. отбор пунктов производился на основании их корреляций с каким-то критерием валидности. Например, подобная работа проделана коллективом Ф. Б. Березина для сокращенной модифицированной версии MMPI (Березин Ф. Б. и др., 1976).

4. Проверка или рестандартизация тестовых норм. Об этом этапе уже говорилось выше. К сожалению, только этот этап работы по адап­тации тестов до недавнего времени признавался всеми психолога­ми как необходимый. Но и в этом случае далеко не всегда воспроиз­водилась необходимая статистическая работа по проверке устойчи­вости полученного распределения тестовых баллов к расщеплению выборки.

5. Специфичный этап для многомерных тестов - проверка вос­производимости структуры отношений между шкалами. Например, для теста Айзенка принципиальна ортогональность, статистическая независимость факторов «экстраверсия - интроверсия» и «нейротизм - стабильность». На воспроизводимости структуры связей шкал между факторами 16PF основывается корректность подсчета вторич­ных факторов (Ямпольский Л. Г., 1981; Мельников В. М., Ямпольский Л. Г., 1985).

Даже беглый взгляд на пять перечисленных этапов позволяет убе­диться в том, что адаптация зарубежных тестов мало чем уступает по объему эмпирико-статистической работы созданию оригинальных ме­тодик. Здесь было бы даже более адекватным использование не тер­мина «адаптация», а выражения «исследование зарубежной методики на отечественной выборке».

№22 Требования к психометрической подготовке психолога

Для эффективного развития практической психодиагностики сегодня требуется резкое повышение психометрической культуры всех психологов, использующих измерительные психодиагности­ческие методики. Методами рестандартизации теста, простейши­ми приемами проверки надежности и валидности должны владеть все психологи.

До сего дня сохранилось не вполне оправданное разделение (и даже противопоставление) психологов, считающих себя специалис­тами в области клинических методов, и психологов, считающих себя специалистами по тестированию. Но в большинстве реальных прак­тических ситуаций требуется сочетание этих методов. Клинические, диалогические методы необходимы на начальных этапах работы в заданной области для того, чтобы психолог сумел построить ясное содержательное представление о предмете психодиагностики. Они также необходимы в особых спорных случаях, требующих индивиду­ализированного подхода. Но когда от психолога требуется проведе­ние ускоренных, массовых обследований, обращение к некоторым стандартизованным, измерительным методикам становится неизбеж­ным. Здесь требуется психометрическая грамотность в подборе тако­го рода методик: нельзя использовать методики, о которых неизвест­но, какого рода психометрической отладке они подвергались.

Всеобщая психометрическая грамотность психологов не исклю­чает выделения из их среды специалистов особого рода - психологов-психометристов, профессионально занимающихся психометри­ческим обеспечением психодиагностики. Поэтому целесообразно привести здесь два списка нормативных требований - к психологу и к психологу-психометристу.

Требования к психологу:

1. Психолог должен уметь квалифицированно разбираться с пси­хометрической документацией в методической литературе по психо­диагностике, должен знать, какие психометрические характеристики теста должны указать его разработчики, в какой степени эти психо­метрические характеристики соответствуют типу теста, с одной сто­роны, и актуальной задаче, для которой его требуется использовать, с другой. Например, в тех случаях, когда требуется использовать тест для прогноза со значительным упреждением, а сведений о проверке прогностической валидности не получено, тест не может считаться готовым для решения данной задачи.

2. Психолог должен правильно определить, в какой мере извест­ные тестовые нормы по требующейся методике применимы в его си­туации с учетом контингента испытуемых и типа диагностической си­туации, существует ли ситуация «внутрикультурного переноса» и нуж­на ли рестандартизация тестовых норм. При необходимости психолог должен уметь самостоятельно практически произвести рестандартизацию, построив и проанализировав распределение тестовых баллов.

3. Психолог должен уметь самостоятельно собирать данные, прово­дить корреляционную обработку и измерять эмпирическую валидность эффективность методики по отношению к заданному критерию. При необходимости психолог должен уметь самостоятельно конкретизиро­вать операциональные индикаторы критериальной информации.

4. Психолог должен уметь самостоятельно определять появление слишком высокой погрешности в результатах, утрату методикой не­обходимого уровня надежности, при этом проверять свою гипотезу статистически.

5. Психолог обязан вести двойную документацию: все копии про­токолов он должен быть готов передать в головную методическую организацию (научно-академическую или отраслевую) для пополне­ния общего банка данных и совершенствования психометрических характеристик методики. Все модификации, вносимые в методику (формулировку инструкции, отдельных вопросов, последовательность предъявления), психолог должен согласовывать с головной методи­ческой организацией, так как самодеятельное введение на местах раз­нообразных частных модификаций влечет за собой утрату психомет­рической чистоты получаемых результатов, не ускоряет, а замедляет создание модификаций, адаптированных к специфическим условиям и обладающих необходимыми психометрическими свойствами. Тща­тельное соблюдение заданных методических стандартов - необходи­мый атрибут психометрической культуры психолога.

6. Психолог должен уметь самостоятельно выявлять и измерять уровень мотивационных искажений, обусловливающих фальсифика­цию тестовых данных испытуемыми, должен уметь корректно отсеи­вать недостоверные протоколы, статистически фиксировать достиже­ние приемлемого уровня достоверности для массовых результатов в групповой психодиагностике.

7. Психолог должен овладевать приемами сложного количествен­ного подсчета косвенных тестовых показателей, а также интегральных показателей, требующих агрегирования многообразной числовой ин­формации. Он должен уметь поставить задачу программисту (или психологу-психометристу) для проведения расчетов на компьютере.

Психолог-психометрист должен уметь:

1. Самостоятельно планировать и осуществлять все этапы по пси­хометрическому конструированию или адаптации психодиагностичес­ких методик: проверку надежности и валидности на уровне отдель­ных пунктов теста, отсев ненадежных и невалидных пунктов, пост­роение и анализ распределения тестовых баллов, составление мате­матических уравнений для прогнозирования или «решающего правила» для распознавания.

2. Организовывать хранение и обработку психодиагностических данных на компьютере, владеть навыками работы на компьютере в рамках стандартных операционных систем, знать структуру исполь­зуемых в психодиагностике баз данных и уметь управлять базами дан­ных.

3. Организовать работу психологов-психодиагностов по ведению документации к используемым методикам, по соблюдению методи­ческих стандартов, по сведению и интеграции результатов в общие банки психодиагностической информации.

4. Вести картотеку методик в рамках заданной области (отрасле­вой психологической службы), тщательно иерархизируя методики по уровню психометрической обеспеченности, вести библиотеку мето­дических материалов и методических рекомендаций по использова­нию стандартизованных методик.

№23 Психодиагностические ситуации и задачи

Психодиагностические задачи можно различать с точки зрения того, кто и как будет использовать диагностические данные и какова ответственность психодиагноста в выборе способов вмешательства в ситуацию обследуемого.

· Данные используются специалистом-смежником для постановки непсихологического диагноза или формулирования административного решения. Эта ситуация типична для использования психодиагностических данных в рамках деятельности различных комиссий (административной, аттестационной, дисциплинарной). Психолог выносит суждение о специфических особенностях мышления, личности сотрудника, а руководство учреждения принимает решение, за которое психолог не несёт персональную ответственность. В данном случае психолог выступает в качестве эксперта, давая свою оценку наряду с прочими участниками. Он должен следить за тем, чтобы характер использования результатов не выходил за рамки, очерченные требованиями профессиональной этики. С этой целью документ, который готовит психолог для заказчика, должен содержать информацию об ограничениях в использовании результатов.

Практика показала, что их не должно быть меньше 50, однако луч­ше всего более 200. Часто возникает вопрос, какой должна быть вели­чина коэффициента валидности, чтобы она считалась приемлемой? В общем отмечается, что достаточно того, чтобы коэффициент ва­лидности был статистически значим.

Низким признается коэффи­циент валидности порядка 0,2-0,3,

Средним - 0,3-0,5

И высоким - свыше 0,6.

Но, как подчеркивают А. Анастази, К. М. Гуревич и др„ не всегда для вычисления коэффициента валидности правомерно ис­пользовать линейную корреляцию. Этот прием оправдан лишь тогда, когда доказано, что успех в какой-то деятельности прямо пропорцио­нален успеху в выполнении диагностической пробы. Позиция зару­бежных тестологов, особенно тех, кто занимается профпригодностью и профотбором, чаще всего сводится к безоговорочному признанию того, что для профессии больше подойдет тот, кто больше выполнил заданий в тесте. Но может быть и так, что для успеха в деятельности нужно обладать свойством на уровне 40 % решения теста. Более высокий показатель в тесте уже не имеет никакого значения для профессии.

Наглядный пример из монографии К. М. Гуревича: почтальон должен уметь читать, но читает ли он с обычной скоростью или с очень большой скоростью - это уже не имеет профессионального значения. При таком соотношении показателей методики и внешнего критерия наи­более адекватным способом установления валидности может быть критерий различий.

Возможен и другой случай: более высокий уровень свойства, чем это требует профессия, служит помехой профессиональному успеху. Так, еще на заре XX в. американский исследователь Ф. Тейлор нашел, что наиболее развитые работницы производства имеют невысокую производительность труда. То есть высокий уровень их умственного развития мешал им высокопроизводительно трудиться. В этом случае для вычисления коэффициента валидности более подошли бы диспер­сионный анализ или вычисление корреляционных отношений.

Как показал опыт работы зарубежных тестологов, ни одна статис­тическая процедура не в состоянии полностью отразить многообразие индивидуальных оценок. Поэтому часто для доказательства валидно­сти методик используют другую модель - клинические оценки. Это не что иное, как качественное описание сущности изучаемого свой­ства. В этом случае речь идет об использовании приемов, не опира­ющихся на статистическую обработку.

Существует несколько видов валидности , обусловленных особен­ностями диагностических методик, а также временным статусом внеш­него критерия. Однако чаще всего называются следующие.

1. Валидность «по содержанию». Этот прием используется, напри­мер, в тестах достижений. Обычно в тесты достижений включа­ется не весь материал, который прошли учащиеся, а какая-то его небольшая часть (3-4 вопроса). Можно ли быть уверенным в том, что правильные ответы на эти немногие вопросы свидетельству­ют об усвоении всего материала? На это и должна ответить про­верка валидности по содержанию. Для этого проводится сопо­ставление успешности по тесту с экспертными оценками учителей (по данному материалу). Валидность «по содержанию» также подходит к критериально-ориентированным тестам. Иногда этот прием называют логической валидностью.

2. Валидность «по одновременности», или текущая валидность, определяется с помощью внешнего критерия, по которому инфор­мация собирается одновременно с экспериментами по проверя­емой методике. Другими словами, собираются данные, относя­щиеся к настоящему времени: успеваемость в период испытания, производительность в этот же период и т. д. С ними сопоставля­ют результаты успешности по тесту.

3. «Предсказывающая» валидность (другое название - «прогности­ческая» валидность) . Определяется также по внешнему крите­рию, но информация по нему собирается некоторое время спустя, после испытания. Внешним критерием обычно бывает выражен­ная в каких-либо оценках способность человека к тому виду дея­тельности, для которой он оценивался по результатам диагнос­тических испытаний. Хотя этот прием наиболее соответствует задаче диагностических методик - предсказанию будущей успеш­ности, - применять его очень трудно. Точность диагноза нахо­дится в обратной зависимости от времени, заданного для такого прогнозирования. Чем больше проходит времени после измере­ния, тем большее количество факторов требуется учитывать при оценке прогностической значимости методики. Однако учесть все факторы, влияющие на предсказание, практически невозможно.

4. «Ретроспективная» валидность . Она определяется на основе критерия, отражающего события или состояние качества в прош­лом. Может быть использована для быстрого получения сведе­ний о предсказательных возможностях методики. Так, для про­верки того, в какой мере хорошие результаты теста способностей соответствуют быстрому обучению, можно сопоставить прошлые оценки успеваемости, прошлые экспертные заключения и т. д. у лиц с высокими и низкими на данный момент диагностически­ми показателями.

При приведении данных о валидности разработанной методики важ­но точно указать, какой вид валидности имеется в виду (по содержанию, по одновременности и т. д.).

Желательно также сообщать сведения о чис­ленности и особенностях индивидов, на которых проводилась валидизация. Такая информация позволяет пользующемуся методикой исследователю решить, насколько валиден этот прием для той груп­пы, к которой он собирается его применять.

Как и в случае с надеж­ностью, необходимо помнить, что в одной выборке методика может обладать высокой валидностью, а в другой - низкой .

Поэтому, если исследователь планирует использовать методику на выборке испыту­емых, существенно отличающейся от той, на которой проводилась про­верка валидности, ему необходимо заново провести такую проверку. Приводимый в руководстве коэффициент валидности применим толь­ко к группам испытуемых, подобных тем, на которых он определялся.

Вопросы

1. Что такое дифференциальная психометрия? В чем ее отличие от
общей психометрии?

2. Дайте определение понятию «стандартизация методик».

3. Что такое репрезентативная выборка? Как она строится?

4. Назовите приведенные в главе критерии оценки результатов диа­гностических испытаний.

5. Что такое надежность методики? Назовите виды надежности.

6. Что такое валидность методики? Назовите ее основные виды.

Анастази А. Психологическое тестирование: В 2 кн. / Под ред. К. М. Гуревича, В. И. Лубовского. - М, 1982. - Кн.1. - С. 66-179. Бурлачук Л. Ф. Психодиагностика. - СПб., 2003. - С. 105-107, 161-176.

Бурлачук Л. Ф., Морозов С. М. Словарь-справочник по психологиче­ской диагностике. - Киев, 1989.

Гайда В. К., Захаров В. П. Психологическое тестирование. - Л., 1982.

Гуревич К. М. О надежности психофизиологических показателей // Проблемы дифференциальной психофизиологии. - М., 1969. - Т. 6.

Гуревич К. М. Надежность психологических тестов // Психологи­ческая диагностика. Ее проблемы и методы. - М., 1975.

Гуревич К. М. Статистика - аппарат доказательства психологи­ческой диагностики // Проблемы психологической диагностики. - Таллин, 1977.

Гуревич К. М. Что такое психологическая диагностика. - М., 1985.

Гуревич К. М. Проблемы дифференциальной психологии. - М.; Во­ронеж, 1998. - С. 242-254, 256-272.

Носе И. Н. Введение в технологию психодиагностики. - М., 2003. - С. 83-98.

Общая психодиагностика / Под ред. А. А. Бодалева, В. В. Столина, 1987.-С. 15-17,53-90.

Основы психодиагностики / Под ред. А. Г. Шмелева. - Ростов н/Д, 1996.-С. 131-156.

Курс: «ПРАКТИЧЕСКАЯ ПСИХОДИАГНОСТИКА»

(Материалы для самостоятельной работы студентам)

ТЕМА :

Как и оценки надежности, оценки валидности теста получают в форме коэффициентов корреляции. Однако в отличие от интерпретации коэффициента надежности при интерпретации коэффициента корреляции как оценки валидности принимают во внимание гораздо больше и теоретических, и практических соображений. В целях иллюстрации мы ограничимся здесь обсуждением интерпретации доказательств валидности по критерию, поскольку именно с этой ситуацией чаще всего сталкивается большинство индустриально-организационных психологов.
Коэффициент корреляции.
При обсуждении надежности теста было отмечено, что большинство психологов сочтут приемлемой оценку надежности в диапазоне свыше 0,80-0,90, при условии, что она основана на компетентно проведенном исследовании. При интерпретации коэффициентов валидности по критерию нет таких четких ориентиров. За те примерно 90 лет, в течение которых проводится тестирование при приеме на работу, эти коэффициенты редко превышали r = 0,50; этот показатель кажется довольно низким по сравнению с коэффициентами надежности, превышающими 0,80 или даже 0,90. Однако следует помнить, что коэффициент надежности, в сущности, является мерой корреляции между двумя оценками одной и той же характеристики. В отличие от этого, коэффициент валидности по критерию является оценкой корреляции между двумя различными показателями - результатами теста и какой-либо другой оценкой поведения.
Поведение в целом определяется сложным комплексом множества причин, и какой бы то ни было тест может, по-видимому, оценить лишь немногие из релевантных для Данного поведения прогностических факторов. Например, для прогнозирования абсентеизма часто используют оценки удовлетворенности работой, но все работающие люди знают, что решение не пойти на работу в один из дней может и не иметь никакого отношения к удовлетворенности работой или к ее отсутствию. Если воспользоваться терминологией главы 2, то удовлетворенность работой может быть одним из детерминантов абсентеизма, но ее влиянием объясняется лишь небольшая часть дисперсии этой критериальной переменной.
Процентная доля дисперсии критерия, которая объясняется с помощью результатов данного теста, называется коэффициентом детерминированности. Математически этот показатель вычисляется путем возведения в квадрат коэффициента корреляции между тестом и критерием. Если между тестом и оценкой выполнения работы (критерием) существует корреляция с r = 0,50, то коэффициент детерминированности будет равен 0,25 (25 %). Другими словами, около 75 % (1,00 - 0,25) различий в выполнении работы не учитывается, поскольку существует много других факторов, которые не измеряются данным тестом, но влияют на то, как люди выполняют свою работу.
Детеминанты.
Диапазон значений коэффициента детерминированности ограничен, и в настоящее время верхним пределом является значение примерно 25 %. Поэтому может показаться, что не имеет смысла направлять значительные ресурсы на конструирование, доказательство валидности и использование тестов в организациях с целью прогнозирования. Однако здесь идет речь о статистическом прогнозе, то есть о прогнозе, который определяется величиной дисперсии критерия (такого как выполнение работы), объясняющейся влиянием предсказывающей переменной (результат теста).
На практике индустриально-организационные психологи часто считают, что тест с коэффициентом валидности по критерию 0,30 (9 % дисперсии) полезен и во многих ситуациях его использование повышает эффективность принятия решений. Концепция полезности релевантна измерениям любого типа, проводимым для принятия любых кадровых решений, но лучше всего это видно на примере показателя успешности приема на работу в организацию.
Термин показатель успешности приема на работу обозначает долю или процент принятых на работу сотрудников, которые успешно справляются со своими задачами. Этот процентный показатель может снижаться за счет ошибок при отборе, относящихся к двум типам. Если приняты на работу люди, которые работают плохо, то это ошибка ложного положительного отбора. Противоположная ситуация, когда принято решение не нанимать людей, которые в дальнейшем работали бы хорошо, - это ошибка ложного отрицательного отбора. Связь между этими ошибками и правильными решениями о приеме на работу показана на рис. 3.5.

Черта отсекаемая по прогнозу (predictor cutoff score)

На графике, представленном на рис. 3.5, показана связь между результатами отборочного теста, использованного при приеме на работу (предсказывающая переменная), и общей оценкой выполнения работы (критерием). В целях иллюстрации предполагается, что все новые сотрудники, принятые на работу в эту компанию в данный период времени, проходили тестирование. Однако результаты теста не использовались для отбора, а были зафиксированы и сохранены, чтобы воспользоваться ими впоследствии, когда появятся оценки выполнения работы этими сотрудниками. (Это, конечно, та же самая процедура, что и составление прогноза валидности по критерию.)
Имеются еще два предположения о ситуации, которую отображает график, представленный на рис. 3.5. Во-первых, предполагается, что если бы тест использовался для отбора сотрудников, то кандидаты, получившие менее 50 баллов, не были бы приняты на работу. Пятьдесят баллов - это черта отсекания по прогнозу. Во-вторых, предполагается, что сотрудники, получившие оценку выполнения работы выше среднего балла (3) шкалы, считаются в организации успешными, а остальные таковыми не считаются. Оценка 3 - это черта отсекания по критерию.
С учетом этой информации о графике на рис. 3.5 становится яснее смысл ошибок ложного положительного и ложного отрицательного отбора и правильных решений о приеме на работу. Каждая точка точечного графика отображает положение одного сотрудника с точки зрения результата теста и оценки выполнения работы. Точки, попавшие в квадрант IV, относятся к сотрудникам, которые получили баллы выше черты отсекания по прогнозу и должны были стать хорошими работниками, но им выставлены низкие оценки выполнения работы; отсюда и название «ложный положительный отбор».
Сотрудники, положение которых отображается точками из квадранта I, попали в противоположную ситуацию. Если бы при приеме на работу учитывались результаты теста, то их бы не наняли, но их показатели выше черты отсекания по критерию; отсюда название «ложный отрицательный отбор». Наконец, точки из квадрантов II и III отображают положение сотрудников, у которых оценки выполнения работы соответствуют прогнозу и относительно которых были приняты правильные решения (истинный положительный или отрицательный отбор).
При принятии решений об отборе люди в организациях сосредоточиваются на случае, представленном на рис. 3.5 в квадранте II - это ситуация, когда успешных сотрудников удается выявить заранее. То, насколько использование отборочного теста позволяет увеличить количество случаев, попадающих в квадрант II по сравнению с квадрантом IV, зависит от трех факторов:

1. Показатель успешности приема на работу без использования теста (иногда его называют базовым уровнем).
2. Коэффициент валидности теста по критерию.
3. Соотношение числа кандидатов на каждое рабочее место и количества вакансий (отборочное соотношение).

Число кандидатов, из которых надо выбрать одного человека для заполнения одного рабочего места, называется отборочным соотношением (selection ratio). Если это соотношение равно 1:1 (всего один кандидат на каждое место), то не надо принимать решения и нет оснований использовать тест. С другой стороны, если кандидатов больше, чем рабочих мест, то надо принимать решения. Полезность конкретного теста определяется тем, поможет ли он тому, кто принимает решения, лучше справиться со своей задачей.
Опубликованы таблицы, с помощью которых можно сразу же ответить на вопрос о полезности теста, если известны текущий показатель успешности приема на работу, коэффициент валидности по критерию отборочного теста и отборочное соотношение. На рис. 3.6 приведена выдержка из таблиц Тейлора - Расселла (Taylor amp; Russel, 1939). На этом рисунке отражена следующая ситуация:

1. Показатель успешности приема на работу без использования нового теста равен 50 % (успешно работает половина принятых на работу сотрудников).
2. С помощью исследования валидности установлено, что критериальная валидность нового теста r = 0,41 (с помощью теста можно выявить около 17 % различий в выполнении данной работы).
3. Отборочное соотношение равно 50 % (в среднем на каждое вакантное место претендуют два кандидата).

Как показывает жирная черная линия на рис. 3.6, компания, которая должна нанять только половину людей, претендующих на рабочие места (отборочное соотношение 50 %), может увеличить свой показатель успешности от 50 % до более чем 65 %, используя отборочный тест с коэффициентом критериальной валидности r = 0,41. Такое повышение показателя успешности может привести к существенной экономии средств, которая обсуждалась в статье Шмидта и Хантера (Schmidt amp; Hunter, 1981) (отрывок из нее приведен в начале этой главы в рубрике «Психология в действии»).

Предсказывающее значение r для различных отборочных соотношений при условии, что 50 % сотрудников из группы сочтены работающими успешно

Из статьи Н. С. Taylor and J. Т. Russell, «The Relationship of Validity Coefficients to the Practical Effectiveness of Tests in Selection: Discussion and Tables». Journal of Applied Psychology, 1939, 23, 565-578.

Таблицы Тейлора-Расселла уже более 50 лет помогают индустриально-организационным психологам и другим специалистам оценивать полезность тестов. Чтобы подчеркнуть историческую ценность этих таблиц, здесь приведен один из первых графиков; в настоящее время обычно используются затабулированные данные. В таблицах, разработанных Гизелли и Брауном (Ghiselli amp; Brown, 1955), непосредственно показано процентное увеличение эффективности работы при различных значениях коэффициента валидности. Таблицы Нейлора и Шайна (Naylor amp; Shine, 1965) особенно полезны в тех случаях, когда невозможно провести четкое различие между успехом и неудачей в работе, из-за чего нельзя пользоваться таблицами Тейлора-Расселла.
Общая валидность теста

Резюмируя сказанное выше, повторим, что доказательства валидности выводов, которые можно сделать из результатов теста, традиционно делятся на три категории. Это не означает, что существуют различные типы валидности; различные подходы к сбору доказательств валидности любого данного теста должны приводить к одинаковым выводам. Идеальным способом конструирования теста является последовательное использование на разных этапах разработки теста нескольких различных процедур.

Таким образом, валидиость «встроена» в тест с самого начала, а не появляется на последних этапах разработки теста... Процесс доказательства валидности начинается с определения черт или конструктов, которые выводятся из психологической теории, предыдущих исследований или систематичных наблюдений и анализа областей реального жизненного поведения... Затем подготавливают пункты теста, соответствующие определениям конструктов. За этим этапом следует эмпирический анализ пунктов и отбор наиболее валидных пунктов из первоначальной их совокупности... На последнем этапе проводится доказательство валидности... по отношению к внешнему критерию, взятому из реальной жизни» (Anastasi, 1989).

Прежде чем психодиагностические методики могут быть использо­ваны для практических целей, они должны пройти проверку по ряду формальных критериев, доказывающих их высокое качество и эффек­тивность. Эти требования в психодиагностике складывались годами в процессе работы над тестами и над их совершенствованием. В резуль­тате появилась возможность оградить психологию от всевозможных безграмотных подделок, претендующих на то, чтобы называться диаг­ностическими методиками.

К числу основных критериев оценки психодиагностических мето­дик относятся надежность и валидность. Большой вклад в разработку этих понятий внесли зарубежные психологи (А. Анастази, Е. Гизелли, Дж. Гилфорд, Л. Кронбах, Р. Торндайк и Е. Хаген и др.). Ими были разработаны как формально-логический, так и математико-статисти-ческий аппарат (прежде всего, корреляционный метод и факторный анализ) обоснования степени соответствия методик отмеченным кри­териям.

В психодиагностике проблемы надежности и валидности методик тесно взаимосвязаны, тем не менее существует традиция раздельного изложения этих важнейших характеристик. Следуя ей, начнем с рас­смотрения надежности методик.

Надежность

В традиционной тестологии термин «надежность» означает относительное посто­янство, устойчивость, согласованность ре­зультатов теста при первичном и повторном его применении на одних и тех же испытуемых. Как пишет А. Анастази [ 10, т. 1 ], вряд ли можно с доверием относиться к тесту интеллекта, если по нему в начале неде­ли ребенок имел показатель, равный 110, а к концу - 80. Повторное применение надежных методик дает сходные оценки. При этом в оп­ределенной мере могут совпадать как сами результаты, так и порядко­вое место (ранг), занимаемое испытуемым в группе. И в том, и в дру­гом случае при повторении опыта возможны некоторые расхождения, но важно, чтобы они были незначительными, в пределах одной груп­пы. Таким образом, можно сказать, что надежность методики - это такой критерий, который говорит о точности психологических изме­рений, т. е. позволяет судить о том, насколько внушают доверие полу­ченные результаты.

Степень надежности методик зависит от многих причин. Поэтому важной проблемой практической диагностики является выяснение факторов, снижающих точность измерений. Была сделана попытка со­ставить классификацию таких факторов. Среди них наиболее часто называются следующие:

1) нестабильность диагностируемого свойства;

2) несовершенство диагностических методик (небрежно составле­на инструкция, задания по своему характеру разнородны, нечет­ко сформулированы указания, как методику предъявлять испы­туемым, и т. д.);

3) меняющаяся ситуация обследования (разное время дня, когда проводятся эксперименты, разная освещенность помещения, на­личие или отсутствие посторонних шумов и т. д.);

4) различия в манере поведения экспериментатора (от опыта к опы­ту по-разному предъявляет инструкции, по-разному стимулиру­ет выполнение заданий и т. д.);

5) колебания в функциональном состоянии испытуемого (в одном эксперименте отмечается хорошее самочувствие, в другом - утом­ление и т. д.);

6) элементы субъективности в способах оценки и интерпретации результатов (когда ведется протоколирование ответов испы­туемых, оцениваются ответы по степени полноты, оригинально­сти и т. п.).

Если все эти факторы иметь в виду и постараться в каждом из них устранить условия, снижающие точность измерений, то можно до­биться приемлемого уровня надежности теста. Одним из важнейших средств повышения надежности психодиагностической методики яв­ляется единообразие процедуры обследования, его строгая регламен­тация: одинаковые для обследуемой выборки испытуемых обстановка и условия работы, однотипный характер инструкций, одинаковые для всех временные ограничения, способы и особенности контакта с ис­пытуемыми, порядок предъявления заданий и т. д. При такой стандар­тизации процедуры исследования можно существенно уменьшить вли­яние посторонних случайных факторов на результаты теста и таким образом повысить их надежность.

На характеристику надежности методик большое влияние оказыва­ет исследуемая выборка. Она может как снижать, так и завышать этот показатель, например, надежность может быть искусственно завышена, если в выборке небольшой разброс результатов, т. е. если результаты по своим значениям близки друг к другу. В этом случае при повтор­ном обследовании новые результаты также расположатся тесной груп­пой. Возможные изменения ранговых мест испытуемых будут незна­чительными, и, следовательно, надежность методики будет высокой. Такое же неоправданное завышение надежности может возникнуть при анализе результатов выборки, состоящей из группы, имеющей очень высокие результаты, и из группы с очень низкими оценками по тесту. Тогда эти далеко отстоящие друг от друга результаты не будут перекрываться, даже если и вмешаются в условия эксперимента слу­чайные факторы. Поэтому в руководстве обычно делается описание выборки, на которой определялась надежность методики.

В настоящее время надежность все чаще определяется на наиболее однородных выборках, т. е. на выборках, схожих по полу, возрасту, уровню образования, профессиональной подготовке и т. п. Для каж­дой такой выборки приводятся свои коэффициенты надежности. При­водимый показатель надежности применим только к группам, подоб­ным тем, на которых он определялся. Если методика применяется к выборке, отличающейся от той, на которой проверялась ее надежность, то эта процедура должна быть проведена заново.

Так как надежность отражает степень согласованности двух неза­висимо полученных рядов показателей, то математико-статистический прием, с помощью которого устанавливается надежность мето­дики - это корреляции (по Пирсону или Спирмену). Надежность тем выше, чем ближе полученный коэффициент корреляции подходит к единице, и наоборот.

В данной книге при описании видов надежности основной упор де­лается на работы К. М. Гуревича , который, проведя тщатель­ный анализ зарубежной литературы по этой проблеме, предложил тол­ковать надежность как комплексную характеристику, включающую:

♦ надежность самого измерительного инструмента;

♦ стабильность изучаемого признака;

♦ константность, т. е. относительную независимость результатов от личности экспериментатора.

Основные показатели он предложил обозначить следующим образом:

♦ показатель, характеризующий измерительный инструмент, пред­лагается называть коэффициентом надежности;

♦ показатель, характеризующий стабильность измеряемого свой­ства - коэффициентом стабильности;

♦ показатель оценки влияния личности экспериментатора - коэф­фициентом константности.

Именно в таком порядке рекомендуется осуществлять проверку ме­тодики на надежность: целесообразно сначала проверить инструмент измерения. Если полученные данные удовлетворительны, то можно переходить к установлению меры стабильности измеряемого свойства, а уже после этого, при необходимости, заняться критерием констант­ности.

Остановимся на более подробном рассмотрении этих показателей, характеризующих с разных сторон надежность психодиагностической методики.

Определение надежности измерительного инструмента. Оттого, как составлена методика, насколько правильно подобраны задания с точки зрения их взаимосогласованности, насколько она однородна, зависит точность, объективность любого психологического измерения. Внутренняя однородность методики показывает, что ее задания акту­ализируют одно и то же свойство, признак.

Для проверки надежности измерительного инструмента, говоря­щего о его однородности (или гомогенности), используется так назы­ваемый метод «расщепления». Обычно задания делятся на четные и нечетные, отдельно обрабатываются, а затем результаты двух получен­ных рядов коррелируются между собой. Для применения этого спосо­ба нужно поставить испытуемых в такие условия, чтобы они смогли успеть решить (или попытаться решить) все задания. Если методика однородна, то большой разницы в успешности решения по таким по­ловинкам не будет, и, следовательно, коэффициент корреляции будет достаточно высоким.

Можно делить задания и другим путем. Например, можно сопоста­вить первую половину теста со второй, первую и третью четверть со второй и четвертой и т. п. Однако «расщепление» на четные и нечет­ные задания представляется наиболее целесообразным, поскольку именно этот способ наиболее независим от влияния таких факторов, как врабатываемость, тренировка, утомление и пр.

Методика признается надежной, когда полученный коэффициент не ниже 0,75-0,85. Лучшие по надежности тесты дают коэффициенты порядка 0,90 и более.

Определение стабильности изучаемого признака. Определить на­дежность самой методики - это не значит решить все вопросы, связан­ные с ее применением. Нужно еще установить, насколько устойчив, стабилен признак, который исследователь намерен измерять. Было бы методологической ошибкой рассчитывать на абсолютную стабиль­ность психологических признаков. В том, что измеряемый признак со временем меняется, нет ничего опасного для надежности. Все дело в том, в каких пределах варьируются результаты от опыта к опыту у одного и того же испытуемого, не приводят ли эти колебания к тому, что испытуемый по непонятным причинам оказывается то в начале, то в середине, то в конце выборки. Сделать какие-то конкретные вы­воды об уровне представленности измеряемого признака у такого ис­пытуемого нельзя. Таким образом, колебания признака не должны иметь непредсказуемый характер. Если не ясны причины, по которым происходит резкое колебание, то такой признак не может быть исполь­зован в диагностических целях.

Для проверки стабильности диагностируемого признака, свойства используется прием, известный под названием тест-ретест. Он зак­лючается в повторном обследовании испытуемых с помощью той же методики. О стабильности признака судят по коэффициенту корреля­ции между результатами первого и второго обследования. Он будет свидетельствовать о сохранении или несохранении каждым испытуе­мым своего порядкового номера в выборке.

На степень устойчивости, стабильности диагностируемого свойства влияют разнообразные факторы. Число их достаточно велико. Выше уже говорилось о том, как важно соблюдать требования единообразия процедуры проведения эксперимента. Так, например, если первое тес­тирование проводилось в утренние часы, то и повторное должно быть проведено утром; если первый опыт сопровождался предварительным показом заданий, то и при повторном испытании это условие также должно быть соблюдено и т. д.

При определении стабильности признака большое значение имеет промежуток времени между первым и вторым обследованием. Чем короче срок от первого до второго испытания, тем (при прочих рав­ных условиях) больше шансов, что диагностируемый признак сохра­нит уровень первого испытания. С увеличением временного интервала стабильность признака имеет тенденцию снижаться, так как возрас­тает число посторонних факторов, влияющих на нее. Следовательно, напрашивается вывод, что целесообразно проводить повторное тести­рование через короткий срок после первого. Однако тут есть свои сложности: если срок между первым и вторым опытом небольшой, то некоторые испытуемые могут воспроизвести свои прежние ответы по памяти и, таким образом, отойдут от смысла выполнения заданий. В этом случае результаты двух предъявлений методики уже нельзя рассматривать как независимые.

Трудно четко ответить на вопрос, какой срок можно считать опти­мальным для повторного эксперимента. Только исследователь, исхо­дя из психологической сущности методики, условий, в которых она проводится, особенностей выборки испытуемых, должен определить этот срок. При этом такой выбор должен быть научно обоснован. В тестологической литературе наиболее часто называются временные ин­тервалы в несколько месяцев (но не более полугода). При обследова­нии детей младшего возраста, когда возрастные изменения и развитие происходят очень быстро, эти интервалы могут быть порядка несколь­ких недель .

Коэффициент стабильности методики должен быть достаточно вы­соким (не ниже 0,80).

Определение константности (относительной независимости резуль­татов от личности экспериментатора). Поскольку методика, разрабо­танная для диагностических целей, не предназначена для того, чтобы вечно оставаться в руках своих создателей, крайне важно знать, в ка­кой мере ее результаты поддаются влиянию личности эксперимента­тора. Хотя диагностическая методика всегда снабжается подробными инструкциями по ее применению, правилами и примерами, указыва­ющими, как проводить эксперимент, однако регламентировать мане­ру поведения экспериментатора, скорость его речи, тон голоса, паузы, выражение лица очень трудно. Испытуемый в своем отношении к опы­ту всегда отразит то, как сам экспериментатор к этому опыту относит­ся (допускает небрежность или действует точно в соответствии с тре­бованиями процедуры, проявляет требовательность, настойчивость или бесконтрольность и т. п.).

Хотя в тестологической практике критерием константности поль­зуются нечасто, однако это не может служить основанием для его не­дооценки. Если у авторов методики возникают подозрения по поводу возможного влияния личности экспериментатора на исход диагно­стической процедуры, то целесообразно проверить методику по этому критерию. При этом важно иметь в виду следующий момент. Если под воздействием нового экспериментатора все испытуемые в одинаковой степени стали работать немного лучше или немного хуже, то сам по себе этот факт (хотя и заслуживает внимания) на надежность мето­дики не окажет влияния. Надежность изменится лишь тогда, когда воздействие экспериментатора на испытуемых различно: одни стали работать лучше, другие хуже, а третьи так же, как и при первом экспериментаторе. Другими словами, если испытуемые при новом экспе­риментаторе изменили свои порядковые места в выборке.

Коэффициент константности определяется путем корреляции ре­зультатов двух опытов, проведенных в относительно одинаковых усло­виях на одной и той же выборке испытуемых, но разными экспери­ментаторами. Коэффициент корреляции не должен быть ниже 0,80.

Итак, были рассмотрены три показателя надежности психодиагно­стических методик. Может возникнуть вопрос, нужно ли при созда­нии методик осуществлять проверку каждого из них? На этот вопрос следует дать утвердительный ответ.

Так, авторы «Стандартных требований к педагогическим и психо­логическим тестам» в главе «Надежность» отмечают, что коэффици­ент надежности - это родовое понятие, включающее в себя несколько видов, и каждый вид имеет свой особый смысл. Разделяет эту точку зрения и К. М. Гуревич . По его мнению, когда говорят о разных способах определения надежности, то имеют дело не с лучшей или худшей мерой, а с мерами разной по существу надежности. В самом деле, чего стоит методика, если не ясно, надежна ли она сама по себе как измерительный инструмент, или не установлена стабильность из­меряемого свойства? Чего стоит диагностическая методика, если не­известно, могут ли изменяться результаты в зависимости от того, кто ведет эксперимент? Каждый в отдельности показатель никак не заме­нит других способов проверки и, следовательно, не может рассматри­ваться в качестве необходимой и достаточной характеристики надеж­ности. Только методика, располагающая полной характеристикой надежности, наиболее пригодна для диагностико-практического при­менения.

Валидность

Другим после надежности ключевым критерием оценки качества методик является валидность. Вопрос о валидности методи­ки решается лишь после того, как установлена достаточная ее надеж­ность, поскольку ненадежная методика не может быть валидной. Но самая надежная методика без знания ее валидности является практи­чески бесполезной.

Следует заметить, что вопрос о валидности до последнего времени представляется одним из самых сложных. Наиболее укоренившимся определением этого понятия является то, которое приведено в книге А. Анастази: «Валидность теста - понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает» .

Валидность по своей сути - это комплексная характеристика, вклю­чающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова ее действенность, эффективность, практическая полезность.

По этой причине не существует какого-то единого универсального подхода к определению валидности. В зависимости от того, какую сто­рону валидности хочет рассмотреть исследователь, используются и разные способы доказательства. Другими словами, понятие валидно­сти включает в себя разные ее виды, имеющие свой особый смысл. Проверка валидности методики называется валидизацией.

Валидность в первом ее понимании имеет отношение к самой мето­дике, т. е. это валидность измерительного инструмента. Такая провер­ка называется теоретической валидизацией. Валидность во втором понимании уже относится не столько к методике, сколько к цели ее использования. Это прагматическая валидизация.

Обобщая, можно сказать следующее:

♦ при теоретической валидизации исследователя интересует само свойство, измеряемое методикой. Это, по существу, означает, что проводится собственно психологическая валидизация;

♦ при прагматической валидизации суть предмета измерения (пси­хологического свойства) оказывается вне поля зрения. Главный акцент сделан на то, чтобы доказать, что нечто, измеряемое мето­дикой, имеет связь с определенными областями практики.

Провести теоретическую валидизацию , в отличие от прагматиче­ской, порой оказывается значительно труднее. Не вдаваясь пока в кон­кретные детали, остановимся в общих чертах на том, как проверяется прагматическая валидность: выбирается какой-нибудь независимый от методики внешний критерий, определяющий успех в той или иной деятельности (учебной, профессиональной и т. п.), и с ним сравнива­ются результаты диагностической методики. Если связь между ними признается удовлетворительной, то делается вывод о практической зна­чимости, эффективности, действенности диагностической методики.

Для определения теоретической валидности найти какой-либо не­зависимый критерий, лежащий вне методики, гораздо труднее. Поэто­му на ранних стадиях развития тестологии, когда концепция валидно­сти только складывалась, бытовало интуитивное представление о том, что тест измеряет:

1) методика называлась валидной, так как то, что она измеряет, про­сто очевидно;

2) доказательство валидности основывалось на уверенности иссле­дователя в том, что его метод позволяет понять испытуемого;

3) методика рассматривалась как валидная (т. е. принималось ут­верждение, что такой-то тест измеряет такое-то качество) только потому, что теория, на основании которой строилась методика, очень хорошая.

Принятие на веру голословных утверждений о валидности методи­ки не могло продолжаться длительное время. Первые проявления дей­ствительно научной критики развенчали такой подход: начались по­иски научно обоснованных доказательств.

Таким образом, провести теоретическую валидизацию методики - это доказать, что методика измеряет именно то свойство, качество, которое она по замыслу исследователя должна измерять.

Так, например, если какой-то тест разрабатывался для того, чтобы диагностировать умственное развитие детей, надо проанализировать, действительно ли он измеряет именно это развитие, а не какие-то дру­гие особенности (например, личность, характер и т. п.). Таким образом, для теоретической валидизации кардинальной проблемой является отношение между психологическими явлениями и их показателями, посредством которых эти психологические явления пытаются познать. Это показывает, насколько замысел автора и результаты методики со­впадают.

Не столь сложно провести теоретическую валидизацию новой ме­тодики, если для измерения данного свойства уже имеется методика с доказанной валидностью. Наличие корреляции между новой и ана­логичной уже проверенной методикой указывает на то, что разра­ботанная методика измеряет то же психологическое качество, что и эталонная. И если новый метод одновременно оказывается более ком­пактным и экономичным в проведении и обработке результатов, то психодиагносты получают возможность использовать новый инстру­мент вместо старого.

Но теоретическая валидность доказывается не только путем сопо­ставления с родственными показателями, а также и с теми, где, исходя из гипотезы, значимых связей не должно быть. Таким образом, для проверки теоретической валидности важно, с одной стороны, устано­вить степень связи с родственной методикой (конвергентная валид­ность) и отсутствие этой связи с методиками, имеющими другое тео­ретическое основание (дискриминантная валидность).

Гораздо труднее провести теоретическую валидизацию методики тогда, когда такой путь проверки невозможен. Чаще всего именно с такой ситуацией сталкивается исследователь. В таких обстоятельствах только постепенное накопление разнообразной информации о изуча­емом свойстве, анализ теоретических предпосылок и эксперименталь­ных данных, значительный опыт работы с методикой позволяет рас­крыть ее психологический смысл.

Важную роль для понимания того, что методика измеряет, играет сопоставление ее показателей с практическими формами деятельно­сти. Но здесь особенно важно, чтобы методика была тщательно прора­ботана в теоретическом плане, т. е. чтобы имелась прочная, обосно­ванная научная база. Тогда при сопоставлении методики с взятым из повседневной практики внешним критерием, соответствующим тому, что она измеряет, может быть получена информация, подкрепляющая теоретические представления о ее сущности.

Важно помнить, что если доказана теоретическая валидность, то ин­терпретация полученных показателей становится более ясной и од­нозначной, а название методики соответствует сфере ее применения. Что касается прагматической валидизации, то она подразумевает проверку методики с точки зрения ее практической эффективности, значимости, полезности, поскольку диагностической методикой име­ет смысл пользоваться только тогда, когда доказано, что измеряемое свойство проявляется в определенных жизненных ситуациях, в опре­деленных видах деятельности. Ей придают большое значение особен­но там, где встает вопрос отбора.

Если опять обратиться к истории развития тестологии , то можно выделить такой период (20-30-е гг. XX в.), когда научное содержание тестов и их теоретический багаж интересовали в меньшей степени. Важно было, чтобы тест работал, помогал быстро отбирать наиболее подготовленных людей. Эмпирический критерий оценки тестовых заданий считался единственно верным ориентиром в решении научных и прикладных задач.

Использование диагностических методик с чисто эмпирическим обоснованием, без отчетливой теоретической базы нередко приводило к псевдонаучным выводам, к неоправданным практическим рекомен­дациям. Нельзя было точно назвать те особенности, качества, которые тесты выявляли. По существу они являлись слепыми пробами.

Такой подход к проблеме валидности тестов был характерен вплоть до начала 50-х гг. XX в. не только в США, но и в других странах. Те­оретическая слабость эмпирических методов валидизации не могла не вызвать критики со стороны тех ученых, которые в разработке тестов призывали опираться не только на голую эмпирику и практику, но и на теоретическую концепцию. Практика без теории, как известно, слепа, а теория без практики мертва. В настоящее время теоретико-практическая оценка валидности методик воспринимается как наибо­лее продуктивная.

Для проведения прагматической валидизации методики, т. е. для оценки ее эффективности, действенности, практической значимости, обычно используется независимый внешний критерий - показатель проявления изучаемого свойства в повседневной жизни. Таким кри­терием может быть и успеваемость (для тестов способностей к обу­чению, тестов достижений, тестов интеллекта), и производственные достижения (для методик профессиональной направленности), и эф­фективность реальной деятельности - рисование, моделирование и т. д. (для тестов специальных способностей), субъективные оценки (для тестов личности).

Американские исследователи Д. Тиффин и Е. Мак-Кормик, прове­дя анализ используемых для доказательства валидности внешних кри­териев, выделяют четыре их типа [по 31):

1) критерии исполнения (в их число могут входить такие, как коли­чество выполненной работы, успеваемость, время, затраченное на обучение, темп роста квалификации и т. п.);

2) субъективные критерии (они включают различные виды ответов, которые отражают отношение человека к чему-либо или к кому-либо, его мнение, взгляды, предпочтения; обычно субъективные критерии получают с помощью интервью, опросников, анкет);

3) физиологические критерии (они используются при изучении вли­яния окружающей среды и других ситуационных переменных на организм и психику человека; замеряется частота пульса, давле­ние крови, электросопротивление кожи, симптомы утомления И т. д.);

4) критерии случайностей (применяются, когда цель исследования касается, например, проблемы отбора для работы таких лиц, ко­торые менее подвержены несчастным случаям).

Внешний критерий должен отвечать трем основным требованиям:

♦ он должен быть релевантным;

♦ свободным от помех;

♦ надежным.

Под релевантностью имеется в виду смысловое соответствие диаг­ностического инструмента независимому жизненно важному критерию. Другими словами, должна быть уверенность в том, что в крите­рии задействованы именно те особенности индивидуальной психики, которые измеряются и диагностической методикой. Внешний крите­рий и диагностическая методика должны находиться между собой во внутреннем смысловом соответствии, быть качественно однородны­ми по психологической сущности. Если, например, тест измеряет ин­дивидуальные особенности мышления, умение выполнять логические действия с определенными объектами, понятиями, то и в критерии нужно искать проявление именно этих умений. Это в равной степени относится и к профессиональной деятельности. Она имеет не одну, а несколько целей, задач, каждая из которых специфична и предъяв­ляет свои условия к выполнению. Из этого вытекает существование нескольких критериев выполнения профессиональной деятельности. Поэтому не следует проводить сопоставление успешности по диагно­стическим методикам с производственной эффективностью в целом. Необходимо найти такой критерий, который по характеру выполняе­мых операций соотносим с методикой.

Если относительно внешнего критерия неизвестно, релевантен он измеряемому свойству или нет, то сопоставление с ним результатов психодиагностической методики становится практически бесполез­ным. Оно не позволяет прийти к каким-либо выводам, которые могли бы дать оценку валидности методики.

Требования свободы от помех вызываются тем, что, например, учеб­ная или производственная успешность зависит от двух переменных: от самого человека, его индивидуальных особенностей, измеряемых методиками, и от ситуации, условий учебы, труда, которые могут при­внести помехи, «загрязнить» применяемый критерий. Чтобы в какой-то мере избежать этого, следует отбирать для исследования такие груп­пы людей, которые находятся в более или менее одинаковых условиях. Можно использовать и другой метод. Он состоит в корректировке влияния помех. Эта корректировка носит обычно статистический ха­рактер. Так, например, производительность следует брать не по абсо­лютным значениям, а в отношении к средней производительности ра­бочих, работающих в аналогичных условиях.

Когда говорят, что критерий должен иметь статистически достовер­ную надежность, это означает, что он должен отражать постоянство и устойчивость исследуемой функции.

Поиски адекватного и легко выявляемого критерия относятся к очень важным и сложным задачам валидизации. В западной тестологии мно­го методик дисквалифицировано только потому, что не удалось найти подходящего критерия для их проверки. Например, у большей части анкет данные по их валидности сомнительны, так как трудно найти адекватный внешний критерий, отвечающий тому, что они измеряют.

Оценка валидности методик может носить количественный и каче­ственный характер.

Для вычисления количественного показателя - коэффициента ва­лидности - сопоставляются результаты, полученные при применении диагностической методики, с данными, полученными по внешнему критерию, тех же лиц. Используются разные виды линейной корреля­ции (по Спирмену, по Пирсону).

Сколько испытуемых необходимо для расчета валидности?

Практика показала, что их не должно быть меньше 50, однако луч­ше всего более 200. Часто возникает вопрос, какой должна быть вели­чина коэффициента валидности, чтобы она считалась приемлемой? В общем отмечается, что достаточно того, чтобы коэффициент валид­ности был статистически значим. Низким признается коэффициент валидности порядка 0,20-0,30, средним - 0,30-0,50 и высоким - свы­ше 0,60.

Но, как подчеркивают А. Анастази , К. М. Гуревич и др., не всегда для вычисления коэффициента валидности правомерно ис­пользовать линейную корреляцию. Этот прием оправдан лишь тогда, когда доказано, что успех в какой-то деятельности прямо пропорцио­нален успеху в выполнении диагностической пробы. Позиция зару­бежных тестологов, особенно тех, кто занимается профпригодностью и профотбором, чаще всего сводится к безоговорочному признанию того, что для профессии больше подойдет тот, кто больше выполнил заданий в тесте. Но может быть и так, что для успеха в деятельности нужно обладать свойством на уровне 40 % решения теста. Дальнейший успех в тесте уже не имеет никакого значения для профессии. Нагляд­ный пример из монографии К. М. Гуревича : почтальон должен уметь читать, но читает ли он с обычной скоростью или с очень боль­шой скоростью - это уже не имеет профессионального значения. При таком соотношении показателей методики и внешнего критерия наи­более адекватным способом установления валидности может быть кри­терий различий.

Возможен и другой случай: более высокий уровень свойства, чем это требует профессия, служит помехой профессиональному успеху. Так, еще на заре XX в. американский исследователь Ф. Тейлор нашел, что наиболее развитые работницы производства имеют невысокую производительность труда. То есть высокий уровень их умственного развития мешал им высокопроизводительно трудиться. В этом случае для вычисления коэффициента валидности более подошел бы диспер­сионный анализ или вычисление корреляционных отношений.

Как показал опыт работы зарубежных тестологов, ни одна стати­стическая процедура не в состоянии полностью отразить многообра­зие индивидуальных оценок. Поэтому часто для доказательства валид­ности методик используют другую модель - клинические оценки. Это не что иное, как качественное описание сущности изучаемого свой­ства. В этом случае речь идет об использовании приемов, не опира­ющихся на статистическую обработку.

Вопросы и задания

1. Дайте определение понятию «стандартизация методик».

2. Что такое репрезентативная выборка? Как она строится?

3. Назовите приведенные в главе критерии оценки результатов ди­агностических испытаний.

4. Что такое надежность методики? Назовите виды надежности.

5. Что такое валидность методики? Назовите ее основные виды.

1. Анастази А. Психологическое тестирование: В 2 кн. / Под ред. К. М. Гуревича, В. И. Лубовского. Кн. 1. - М., 1982.

2. Бурлачук Л. Ф. Психодиагностика. - СПб., 2003.

3. Бурлачук Л. Ф., Морозов С. М. Словарь-справочник по психоло­гической диагностике. - Киев, 1989.

4. Гайда В. К., Захаров В. П. Психологическое тестирование. - Л., 1982.

5. Гуревич К. М. О надежности психофизиологических показате­лей // Проблемы дифференциальной психофизиологии. Т. 6. - М., 1969.

6. Гуревич К. М. Надежность психологических тестов // Психоло­гическая диагностика. Ее проблемы и методы. - М., 1975.

7. Гуревич К. М. Статистика - аппарат доказательства психологи­ческой диагностики // Проблемы психологической диагности­ки. - Таллин, 1977.

8. Гуревич К. М. Что такое психологическая диагностика. - М., 1985.

9. Гуревич К. М. Проблемы дифференциальной психологии. - М.; Воронеж, 1998.

10. Носс И. Н. Введение в технологию психодиагностики. - М., 2003.

11. Общая психодиагностика / Под ред. А. А. Бодалева, В. В. Столина. - М., 1987.

12. Основы психодиагностики / Под ред. А. Г. Шмелева. - Ростов н/Д, 1996.


Часть II

ДИАГНОСТИКА

КОГНИТИВНОЙ

СФЕРЫ

Для вычисления количественного показателя - коэффициента валидности - сопоставляются результаты, полученные при применении диагностической методики, с данными, полученными по внешнему критерию, тех же лиц. Используются разные виды линейной корреляции (по Спирмену, по Пирсону).

Сколько испытуемых необходимо для расчета валидности? Практика показала, что их не должно быть меньше 50, однако лучше всего более 200 Часто возникает вопрос, какой должна быть величина коэффициента валидности, чтобы она считалась приемлемой? В общем отмечается, что достаточно того, чтобы коэффициент валидности был статистически значим. Низким признается коэффициент валидности порядка 0,20- 0,30, средним - 0,30-0,50 и высоким - свыше 0,60.

Но, как подчеркивают А. Анастази (1982), К.М. Гуревич (1970) и др, не всегда для вычисления коэффициента валидности правомерно использовать линейную корреляцию. Этот прием оправдан лишь тогда, когда доказано, что успех в какой-то деятельности прямо пропорционален успеху в выполнении диагностической пробы. Позиция зарубежных тестологов, особенно тех, кто занимается профпригодностью и профотбором, чаще всего сводится к безоговорочному признанию того, что для профессии больше подойдет тот, кто больше выполнил заданий в тесте. Но может быть и так, что для успеха в деятельности нужно обладать свойством на уровне 40% решения теста. Дальнейший успех в тесте уже не имеет никакого значения для профессии Наглядный пример из монографии КМ Гуревича: почтальон должен уметь читать, но читает ли он с обычной скоростью или с очень большой скоростью - это уже не имеет профессионального значения. При таком соотношении показателей методики и внешнего критерия наиболее адекватным способом установления валидности может быть критерий различий.

Возможен и другой случай: более высокий уровень свойства, чем это требует профессия, служит помехой профессиональному успеху. Так Ф Тейлор нашел, что наиболее развитые работницы производства имеют невысокую производительность труда. То есть высокий уровень их умственного развития мешает им высокопроизводительно трудиться. В этом случае для вычисления коэффициента валидности более подошел бы дисперсионный анализ или вычисление корреляционных отношений.

Как показал опыт работы зарубежных тестологов, ни одна статистическая процедура не в состоянии полностью отразить многообразие индивидуальных оценок. Поэтому часто для доказательства валидности методик используют другую модель - клинические оценки. Это не что иное, как качественное описание сущности изучаемого


свойства. В этом случае речь идет об использовании приемов, не опирающихся на статистическую обработку.

Существует несколько видов валидности, обусловленных особенностями диагностических методик, а также временным статусом внешнего критерия Во многих работах (А Анастази, 1982; Л.Ф Бурлачук, СМ. Морозов, 1989; КМ. Гуревич, 1970; Б.В Кулагин, 1984; В Черны, 1983; "Общая психодиагностика", 1987 и др) называются чаще всего следующие:

1. Валидность "по содержанию". Этот прием используется в основном в тестах
достижений. Обычно в тесты достижений включается не весь материал, который
прошли учащиеся, а какая-то его небольшая часть (3-4 вопроса). Можно ли быть
уверенным в том, что правильные ответы на эти немногие вопросы свидетельствуют об
усвоении всего материала. На это и должна ответить проверка валидности по
содержанию. Для этого проводится сопоставление успешности по тесту с экспертными
оценками учителей (по данному материалу). Валидность "по содержанию" также
подходит к критериально-ориентированным тестам. Иногда этот прием называют
логической валидностью.

2. Валидность "по одновременности", или текущая валидность, определяется с
помощью внешнего критерия, по которому информация собирается одновременно с
экспериментами по проверяемой методике. Другими словами, собираются данные,
относящиеся к настоящему времени успеваемость в период испытания,
производительность в этот же период и т д. С ним коррелируют результаты успешности
по тесту.

3. "Предсказывающая" валидность (другое название - "прогностическая"
валидность). Определяется также по достаточно надежному внешнему критерию, но
информация по нему собирается некоторое время спустя после испытания. Внешним
критерием обычно бывает выраженная в каких-нибудь оценках способность человека к
тому виду деятельности, для которой он отбирался по результатам диагностических
испытаний. Хотя этот прием наиболее соответствует задаче диагностических методик -
предсказанию будущей успешности, применять его очень трудно. Точность прогноза
находится в обратной зависимости от времени, заданного для такого прогнозирования.
Чем больше проходит времени после измерения, тем большее количество факторов
требуется учитывать при оценке прогностической значимости методики. Однако учесть
все факторы, влияющие на предсказание, практически невозможно.

4. "Ретроспективная" валидность. Она определяется на основе критерия,
отражающего события или состояние качества в прошлом. Может быть использована
для быстрого получения сведений о предсказательных возможностях методики. Так, для
проверки того, в какой мере хорошие результаты теста способностей соответствуют
быстрому обучению, можно сопоставить прошлые оценки успеваемости, прошлые
экспертные заключения и т.д. у лиц с высокими и низкими на данный момент
диагностическими показателями.

При приведении данных о валидности разработанной методики важно точно указать, какой вид валидности имеется в виду (по содержанию, по одновременности и т.д.). Желательно также сообщать сведения о численности и особенностях индивидов, на которых проводилась валидизация. Такая информация позволяет пользующемуся методикой исследователю решить, насколько валиден этот прием для той группы, к


которой он собирается его применять. Как и в случае с надежностью, необходимо помнить, что в одной выборке методика может обладать высокой валидностью, а в другой - низкой. Поэтому если исследователь планирует использовать методику на выборке испытуемых, существенно отличающейся от той, на которой проводилась проверка валидности, ему необходимо заново провести такую проверку. Приводимый в руководстве коэффициент валидности применим только к группам испытуемых, подобным тем, на которых он определялся.

Литература

Анастази А. Психологическое тестирование" В 2 кн. / Под ред. К.М. Гуре-вича, В И. Лубовского М., 1982. Кн 1.

Гуревич К.М О надежности психофизиологических показателей // Проблемы дифференциальной психофизиологии М., 1969 Т VI. С 266-275.

Гуревич К.М Надежность психологических тестов // Психологическая диагностика Ее проблемы и методы М, 1975 С 162-176.

Гуревич КМ Статистика - аппарат доказательства психологической диагностики//Проблемы психологической диагностики Таллин 1977. С 206-225

Гуревич К.МЧ^о такое психологическая диагностика М., 1985.

ДИАГНОСТИКА УМСТВЕННОГО РАЗВИТИЯ И ОБЩИХ СПОСОБНОСТЕЙ

§ 1. УМСТВЕННОЕ РАЗВИТИЕ И ИНТЕЛЛЕКТ

Умственное развитие характеризуется совокупностью знаний, умений и набором умственных действий, которые сформировались в процессе приобретения этих знаний. Таково общепринятое в отечественной психологии понимание умственного развития. По существу, умственное развитие - это характеристика способов, форм и содержания мышления человека.

Современная психология и педагогика убедительно доказывают, что уровень мыслительной деятельности определяется содержанием знаний и умений, которые учитель дает учащимся (М.Н. Шардаков, 1963, В.В. Давыдов, 1986). Важен не только объем, но и качество знаний, т.е их глубина, осмысленность, динамичность. Характер усвоенных знаний определяет и качество освоенных умственных действий. Уровень умственного развития является основой, базой для усвоения новых знаний и умений, возникновения и функционирования новых умственных действий. По мнению К.М. Гуревича и Е.И. Горбачевой (1991), одним из признаков умственного развития следует считать присущую ему качественную направленность, избирательность по отношению к различным областям теории и практики, что проявляется в развитии различных видов мышления - лингвистического, естественнонаучного, математического. Но наиболее общей характеристикой уровня умственного развития является все же подготовленность функционирования мышления в пределах возрастного социально-психологического норматива. Иначе говоря, уровень умственного развития должен в первую очередь отражать наиболее типичные, общие, характерные возрастные особенности мыслительной деятельности, касающиеся как объема и качества знаний и умений, так и запаса определенных умственных действий.


В этом плане проблема умственного развития смыкается с проблемой интеллекта, или общей умственной способности. Интеллект - не сумма знаний и умственных операций, а то, что способствует их успешному усвоению. Достигнутый индивидом уровень умственного развития зависит от его интеллектуальных способностей. Поэтому нельзя не согласиться со справедливым утверждением Н.С. Лейтеса, что "умственное развитие не является чем-то внешним по отношению к способностям. Внутренняя близость умственного развития и умственных способностей не могут вызывать сомнения" (Н.С. Лейтес, 1960).

Но несомненно и другое: уровень умственного развития зависит не только от интеллекта, он обусловлен многими факторами, такими, как условия жизни, особенности учебного заведения, методы обучения и пр. В отечественной психологии имеется целое направление исследований, показывающих тесную связь между уровнем умственного развития и содержанием обучения, а также характером воспитательных методов (В.В. Давыдов, 1972, 1986; А.З. Зак, 1979, 1984). Например, одни и те же знания могут обусловить разный тип мышления учащегося (эмпирический или теоретический), все зависит от организации учебного процесса (А.З. Зак, 1984).

О роли метода обучения в формировании мышления говорят исследования, связанные с теорией поэтапного формирования умственных действий. В работах, базирующихся на этой теории, представлены теоретически и методически разработанные способы планомерного и управляемого развития мышления (Н.Ф. Талызина, 1975).

Итак, если в прошлом мышлению не обучали или делали это более или менее бессознательно, нецеленаправленно, считая, что мышление либо есть, либо его нет, а уровень мыслительной деятельности не зависит от обучения, то сегодня прогрессивные психологи и педагоги показывают, что продуктивному мышлению можно научить.

В связи с этой проблемой естественно возникает вопрос о соотношении умственного развития с понятием "обучаемость". Какие психологические сущности отражают эти термины, одинаковые или разные?

Проблема обучаемости школьников детально изучалась в лаборатории Н.А. Менчинской. З.И. Калмыкова, выбрав в качестве основного показателя темп продвижения, нашла, что чем выше уровень развития, тем выше темп продвижения, т.е. обучаемость (1968). Позднее Калмыкова стала отождествлять ее с умственными способностями, что, на наш взгляд, является неправомерным, так как обучаемость слишком зависима от методов и средств обучения, личности учителя и пр. Более того, обучаемость нельзя отождествлять и с уровнем умственного развития. Н.С. Лейтес на основе собственных исследований пришел к выводу, что если уровень умственного развития школьников возрастает от младших классов к старшим, то обучаемость не прогрессирует аналогичным образом (1971). Напротив, обучаемость школьников младших классов в некоторых отношениях превосходит обучаемость школьников последующих классов. Поэтому нельзя оценивать уровень умственного развития ребенка на основе его обучаемости, не принимая во внимание возрастные особенности индивидов.

Из всего вышесказанного следует вывод о неправомерности отождествления понятий "уровень умственного развития", "интеллект" и "обучаемость". Диагностика этих психологических феноменов также должна быть различной.


Но практически диагностика умственного развития возникла как тестирование интеллекта и в этом русле развивалась на протяжении первой половины XX века. Интеллектуальные тесты явились продолжением шкал Бине-Симона, о которых шла речь в гл. I.

§ 2. ДИАГНОСТИКА ИНТЕЛЛЕКТУАЛЬНОГО УРОВНЯ ТЕСТ Д ВЕКСЛЕРА

Наиболее удачная и жизнеспособная адаптация тестов Бине-Симона, названная шкалами Стэнфорд-Бине, в течение многих лет служила единственным инструментом для измерения интеллектуальных способностей, а также использовалась в качестве критерия валидности новых интеллектуальных тестов. Этим в значительной степени объясняется тот факт, что IQ стал представляться символом интеллекта, а не показателем по определенному тесту. Сыграла свою роль и относительная стабильность IQ, установленная при повторных испытаниях одних и тех же групп индивидов через некоторый промежуток времени, о причине чего будет сказано позднее.

Остановимся на другом типе индивидуальных тестов, предназначенных для тех же целей, что и шкала Стэнфорд-Бине. В 1939 г. была опубликована первая форма шкал Дэвида Векслера, известная как шкала интеллекта Векслера-Белльвью. Она предназначалась для тестирования взрослых. Она имела ряд методических недостатков (это касалось величины и репрезентативности нормативной выборки и надежности субтестов) и позднее была переработана. В 1955 г. была опубликована одна из последних шкал интеллекта для взрослых (WAIS). Она содержала 11 субтестов. 6 субтестов составляли вербальную шкалу и 5 - шкалу действия. В вербальную шкалу входили субтесты на осведомленность, понимание, решение арифметических задач, нахождение сходства, запоминание цифр и определение словарного запаса. Шкала действия состояла из субтестов "Цифровые символы", "Завершение картинок", "Конструирование блоков", "Расположение картинок", "Сборка объектов".

При стандартизации шкалы Векслера нормативная выборка состояла из 1700 испытуемых с равным количеством мужчин и женщин. Испытуемые в возрасте от 16 до 64 лет были распределены по 7 возрастным уровням. При комплектовании выборки исследователи опирались на данные переписи населения США за 1950 г. Учитывалось пропорциональное распределение населения по географическим районам, принадлежность к городскому или сельскому населению, к белой или цветной расе, учитывались также уровень образования и профессия. На каждом возрастном уровне в выборку были введены один мужчина и одна женщина, находящиеся в учреждении для умственно отсталых.

Для пожилых людей были установлены дополнительные нормы путем тестирования выборки лиц пожилого возраста, состоящей из 475 человек в возрасте от 60 лет из типичного города среднего запада. Для каждого возраста были установлены стандартные IQ со средним значением 100 и а, равной 15. Показатели надежности шкалы высоки и расположены от 0,93 до 0,97 (в зависимости от шкал и отдельных субтестов). Валидность, установленная по корреляции с тестами Стэнфорд-Бине, около 0,87, а валидность по внешнему критерию (с оценками в колледже) порядка 0,40-0,50.

Помимо шкал для взрослых, Векслером были созданы шкалы для детей (от 6,0 до 15 лет 11 мес.). Последнее издание WISC было опубликовано в 1974 г. В него были включены 12 субтестов. По сравнению со шкалой для взрослых тест для детей включает еще один дополнительный субтест "Лабиринты".


Стандартизация проводилась на выборке, состоящей из 100 мальчиков и 100 девочек по каждому годовому интервалу; общая численность выборки равнялась 2200. Она подбиралась так же тщательно на основе переписи населения США 1970 года, как это было сделано и для взрослых. Среднее значение показателей для каждой из шкал и для полного теста - 100ио= 15.

Показателями валидности были коэффициенты корреляции, полученные в результате сопоставления с показателями выполнения теста Стэнфорд-Бине. Они находились в пределах от 0,6 до 0,73. Коэффициенты надежности по методу ретеста для вербальной шкалы равнялись 0,93, для шкалы действий - 0,90, для полной шкалы - 0,95.

Векслером была создана также шкала для дошкольников и младших школьников (для возраста от 4 до 6,5 лет). Эта шкала была опубликована в 1967 г. Она состоит из 11 субтестов, 8 из которых представляют собой облегченные и адаптированные варианты заданий WISC, а остальные 3 были разработаны в качестве замены непригодных по тем или иным причинам субтестов WISC. В вербальной шкале таким новым субтестом был субтест "Предложения" (тест на запоминание, в котором от ребенка требуется вслед за экспериментатором повторять каждое произносимое им предложение). Новый субтест "Дом животного" сходен с субтестом "Цифровые символы". Субтест "Геометрические схемы" требует от ребенка скопировать 10 простых чертежей.

Стандартизация проводилась так же тщательно, как и для других векслеровских шкал. Размер референтной выборки был 1200 детей.

Выборка была стратифицирована относительно переписи США 1960 г. Стандартный IQ имел среднее 100 и квадратичное отклонение 15. Коэффициенты надежности при повторном тестировании равнялись для вербальной шкалы 0,86, для шкалы действия 0,89, для полной шкалы - 0,92. Валидность определялась путем корреляции с тестом Стэнфорд-Бине; коэффициенты корреляции по вербальной шкале равнялись 0,76, для шкалы действия - 0,56. Коэффициент по полной шкале равен 0,75.

Итак, в настоящее время имеются три формы шкал Векслера. Все они характеризуются высокими формальными показателями. От тестов Стэнфорд-Бине эти шкалы отличаются некоторыми важными параметрами:

1) задания одного типа в этих тестах не сгруппированы по возрастным уровням, а
объединены в субтесты и расположены в порядке возрастающей трудности;

2) субтесты разделяются на вербальные (объединяемые в вербальную шкалу) и
действия (объединяемые в шкалу действия); для каждой шкалы в отдельности
вычисляется IQ.

Помимо использования шкал Векслера для измерения общего интеллекта они применяются и как вспомогательное средство психиатрического диагноза.

Рассмотрим еще один тест интеллекта, относимый к разряду групповых. § 3. ТЕСТ Р. АМТХАУЭРА

Один из известнейших групповых тестов, широко используемых в немецкоязычных странах, - Тест структуры интеллекта Рудольфа Амтхауэра. Он создан в 1953 г. (последняя редакция осуществлена в 1973 г) и предназначен для измерения уровня интеллектуального развития лиц в возрасте от 13 до 61 года.


Тест отличается хорошими методическими показателями: коэффициент ретестовой надежности (интервал 1 год) - 0,83-0,91; коэффициент параллельных форм - 0,95; надежности частей теста (по методу "расщепления") - 0,97. Валидность, определяемая по связи с успеваемостью, - 0,46; с экспертными оценками уровня интеллектуального развития - 0,62.

Стандартизация теста проводилась на выборке из 4076 испытуемых, средний показатель по сырым (первичным) баллам равнялся 82. После стандартизации новая средняя равнялась 100, о = 10.

Тест разрабатывался в первую очередь для диагностирования уровня общих способностей в связи с проблемами профессиональной психодиагностики. При его создании Р. Амтхауэр исходил из концепции, согласно которой интеллект является специализированной подструктурой в целостной структуре личности и тесно связан с другими компонентами личности, такими, как волевая и эмоциональная сферы, интересы и потребности.

Интеллект понимался Амтхауэром как единство некоторых психических способностей, проявляющихся в различных формах деятельности. В тест им были включены задания на диагностику следующих компонентов интеллекта: вербального, счетно-математического, пространственного, мнемического.

Тест состоит из девяти субтестов, каждый из которых направлен на измерение различных функций интеллекта. Шесть субтестов диагностируют вербальную сферу, два - пространственное воображение, один - память. Во всех группах заданий, за исключением 4-6 субтестов, используются задачи закрытого типа

Субтест 1. Логический отбор исследование индуктивного мышления, чутья языка. Задача испытуемого заключается в том, чтобы закончить предложение одним из приведенных слов. Пример задания: Противоположностью понятия "верность" является

а) любовь; б) ненависть; в) дружба; г) предательство; д) вражда.

Субтест 2. Определение общих черт: исследование способности к абстрагированию, обобщению, оперированию вербальными понятиями В задачах предлагается пять,слов, из которых четыре объединены определенной смысловой связью, а одно лишнее. Это слово и следует выделить в ответе.

Пример: а) рисунок; б) картина; в) графика; г) скульптура; д) живопись.

Субтест 3. Аналогии: анализ комбинаторных способностей. В заданиях предлагаются три слова, между первым и вторым существует определенная связь. После третьего слова - прочерк. Из пяти прилагаемых к заданию вариантов необходимо выбрать такое слово, которое было бы связано с третьим таким же образом, как и первые два.

Пример: дерево - строгать, железо - ?

а) чеканить; б) сгибать; в) лить; г) шлифовать; д) ковать.

Субтест 4. Классификация: оценка способности выносить суждение, обобщать Испытуемый должен обозначить два слова общим понятием Пример дождь - снег Правильным ответом будет слово "осадки".


Субтест 5. Задания на счет: оценка уровня развития практического математического мышления, сформированности математических навыков. Пример-Сколько километров пройдет товарный поезд за 7 часов, если его скорость 40 км/ч?

Субтест 6. Ряды чисел: анализ индуктивного мышления, способности оперировать числами. В заданиях требовалось установить закономерность числового ряда и продолжить его.

Пример- 6, 9, 12, 15, 18, 21, 24, ?

Субтест 7. Выбор фигур: исследование пространственного воображения, комбинаторных способностей. В заданиях приводятся разделенные на части геометрические фигуры. При выборе ответа следует найти карточку с целой фигурой, которой соответствуют разделенные части.

Субтест 8. Задания с кубиками: исследуется то же, что и в 7-м субтесте. В заданиях предъявлялись изображения кубиков с различно обозначенными гранями. Кубики были определенным образом повернуты и перевернуты в пространстве, так что иногда появлялись новые, неизвестные испытуемому грани. Необходимо было определить, какой из пяти кубиков-образцов изображен на каждом рисунке.

Субтест 9. Задания на способность сосредоточить внимание и сохранить в памяти усвоенное. Предлагается запомнить ряд слов, которые объединены в таблице по определенным категориям, например, цветы: тюльпан, жасмин, гладиолус, гвоздика, ирис; или животные: зебра, уж, бык, хорек, тигр. Время заучивания - 3 минуты. Затем тетради с заданиями собираются, и испытуемым выдаются листы с вопросами такого типа: С буквы "б" начиналось слово:

а) растения; б) инструменты; в) птицы; г) произведения искусства; д) животные.

Общее время обследования (без подготовительных процедур и инструктажа испытуемых) - 90 минут. Время выполнения каждого субтеста ограничено и колеблется от 6 до 10 минут.

В нашей стране адаптированный вариант теста Амтхауэра был использован при обследовании учащихся 8-10 классов городских и сельских школ. Получены данные о достаточно высокой надежности и валидности этого теста (М.К. Акимова с соавторами, 1984).

Р. Амтхауэр при интерпретации результатов теста предполагал, что с его помощью можно судить о структуре интеллекта испытуемых (по успешности выполнения каждого субтеста). Для грубого анализа "умственного профиля" он предлагал подсчитать отдельно результаты по первым четырем и по следующим пяти субтестам. Если суммарная оценка первых четырех субтестов превышает суммарную оценку следующих пяти субтестов, значит у испытуемого больше развиты теоретические способности. Если наоборот, то практические способности.

При интерпретации полученных в отечественных исследованиях данных примененялся новый критерий, который был предложен К.М. Гуревичем и назван социально-психологическим нормативом (СПН). Социально-психологический норматив - это система требований, которые общность предъявляет каждому из своих членов и которым каждый должен соответствовать, если не хочет быть отторгнутым своей общностью. Оценка результатов тестирования в этом случае должна основываться на


степени близости к СПН, который дифференцируется в образовательно-возрастных группах. Использование в качестве критерия выполнения СПН выдвигает на первый план качественный анализ данных.

§ 4 НЕЯЗЫКОВЫЕ ТЕСТЫ, ТЕСТЫ ДЕЙСТВИЯ И СВОБОДНЫЕ ОТ ВЛИЯНИЯ КУЛЬТУРЫ ТЕСТЫ

Особо рассмотрим тесты интеллекта, разработанные для испытания людей, которых невозможно адекватно оценить с помощью вербальных тестов. Речь идет о младенцах, о детях с дефектами речи, с некоторыми психическими и физическими недостатками, о говорящих на иностранном языке, неграмотных, а также о лицах из неблагоприятной культурной среды и некоторых других. Для исследования этих групп испытуемых применяются либо тесты действия, либо неязыковые тесты, либо тесты, свободные от влияния культуры.

Одним из первых тестов действия, разработанных для испытания умственно отсталых детей, является тест воспроизведения прежнего порядка на доске. Созданный Э. Сегеном еще в 1866 г., он применяется и в настоящее время. Тест состоит в следующем. На доске расположены от 2 до 5 предметов; экспериментатор снимает их и складывает в определенном порядке. Испытуемый должен как можно быстрее вернуть предметы на прежнее место. Допускается три пробы; показателем по тесту является самое короткое время, необходимое для выполнения задания. Тесты, подобные этому, но большей трудности, применяются для испытания иностранцев. Широко применяется Лабиринтный тест Портеуса, разработанный в 1914 г. и усовершенствованный в 1959 г. Он состоит из серии изображенных линиями лабиринтов возрастающей трудности. От испытуемого требуется, не отрывая карандаша от бумаги, провести кратчайший путь от входа до выхода из лабиринта. Этот тест используется для исследования самых разных групп людей, включая умственно отсталых, правонарушителей и др.

Подобные тесты действия были объединены в шкалу тестов исполнения Артура в 1930 г., стандартизированную на единой выборке и единообразную по методу оценки каждого теста. Вторая форма этой шкалы была выпущена в 1947 г. Она состоит из 4 модифицированных старых тестов и одного нового, стандартизирована на новой выборке и применяется в качестве замены первой формы при повторном тестировании.

Несколько слов о тестировании младенцев и дошкольников (до 5 лет). Тестирование этого контингента испытуемых проходит индивидуально. Большинство тестов являются либо тестами действия, либо устными тестами; некоторые включают элементарные действия с карандашами и бумагой; часть тестов измеряет сенсорное и моторное развитие. Наиболее часто для тестирования младенцев применяется разработанная Р.Б. Кеттеллом Шкала интеллекта ребенка, охватывающая возрастные уровни от 2 до 30 месяцев. Н. Бейли была подготовлена. Шкала развития ребенка, предназначенная для детей от рождения до 15 месяцев. Шкала состоит из 3 частей: Умственная шкала направлена на оценку сенсорного развития, памяти, способности к научению, зачатков развития речи; Моторная шкала измеряет уровень развития мышечной координации и манипулирования; Запись о поведении ребенка предназначена для регистрации эмоциональных и социальных проявлений поведения, объема внимания, настойчивости и т д.

Шкалы Бейли нормированы на выборке из 1262 детей, имеют высокие показатели


надежности и валидности. По мнению видного тестолога А Анастази (1982), шкалы Бейли выгодно отличаются от других методик для детей раннего возраста и весьма полезны для раннего распознавания всякого рода нарушений и отклонений развития ребенка.

Обычно тесты для младенцев и дошкольников стандартизированы на выборках, меньших по величине и репрезентативности, чем нормативные выборки других тестов. Они менее надежны, чем тесты для старших возрастов. Определение валидности этих тестов затруднено из-за недостатка пригодных критериев. Валидность тестов для младенцев определяется, главным образом, по двум критериям: возрастные различия и предсказание последующего развития уровня интеллекта. С точки зрения первого критерия тесты для младенцев в целом показывают неплохую валидность. Однако их предсказательная валидность очень низка: так, корреляции показателей теста Кеттелла для детей в возрасте до года и теста Стэнфорд-Бине для детей трехлетнего возраста близки к 0.

Остановимся на некоторых важных проблемах, возникающих при тестировании представителей разных культурных групп. Изначальная связь тестирования интеллекта с культурой определенной социальной группы ограничивает сферу применения тестов. Они оказываются неадекватными для обследования лиц, принадлежащих к иной культуре, нежели та, в которой эти тесты создавались. Поэтому перед исследователями встала проблема создания таких интеллектуальных тестов, которые были бы свободны от влияния культуры. При создании таких тестов пытаются чаще всего исключить параметры, по которым эти культуры различаются.

Наиболее известный параметр - язык, другой параметр - скорость выполнения теста, еще одно различие - наличие информации, специфичной для некоторых культур. Эти типы различий между культурными группами привели к тому, что тесты для испытания представителей разных культур делают преимущественно неязыковыми, исключают влияние скорости выполнения, в них не используется информация, специфичная для некоторых культур.

Однако следует с полной определенностью сказать, что совершенно исключить влияние культурных различий на тестовые результаты не представляется возможным. Каждый тест, по мнению Анастази, благоприятен для лиц той культуры, в которой он был разработан. Важно отметить, что не только содержание теста, но также эмоциональные и мотивационные факторы ситуации опытов влияют на исполнение теста. Каждая культура стимулирует развитие одних способностей и образцов поведения и не поощряет, а подавляет развитие других. Поэтому по тестам, разработанным в американской культуре, американцы будут выгодно отличаться от других народов, а по результатам тестов, разработанных в другой культуре, не похожей на американскую, напротив, американцы, возможно, не будут соответствовать установленным нормам.

В отношении валидности тестов, разрабатываемых для сравнительного испытания представителей разных культур, сведения неутешительны. Эти тесты обладают малой валидностью в любой культуре, так как конструируются из элементов, равно знакомых (насколько возможно) во многих культурах, и, следовательно, измеряют тривиальные функции. По существу, устранение культурных различий из теста означает исключение из него интеллектуальных компонентов. "Свобода от культуры" есть просто "свобода от интеллекта" (Дж. Брунер, 1977).


Первым неязыковым групповым тестом был армейский тест "Бета", разработанный в период первой мировой войны (1918) для испытания солдат-иностранцев и неграмотных. В настоящее время используется переработанная и заново стандартизированная в 1946 г. форма этого теста. Она состоит из 6 субтестов, таких, как "Лабиринты", "Завершение картинок", "Нарисованные нелепости" и др.

В так называемых чистых, не тронутых культурой тестах стремятся исключить некоторые главные культурные различия не только в языке, но и в знаниях, интеллектуальных умениях. Пример такого рода тестов - Интеллектуальный тест, свободный от влияния культуры, разработанный Р.Б. Кеттеллом. Этот тест типа "карандаш-бумага", охватывающий 3 возрастных и интеллектуальных уровня: от 4 до 8 лет и умственно отсталых взрослых, от 8 до 13 лет и взрослых средних умственных способностей, от 10 до 16 лет и взрослых с высокими умственными способностями. Среди субтестов имеются такие, как "Выбор точки, завершающей серию", "Дополнение данной матрицы", "Лабиринты" и др. Данные о надежности и валидности этого теста неполны и получены на меньших, чем обычно принято, нормативных группах.

Интересным примером теста, "свободного от влияния культуры", является тест Гудинаф-Харриса, в котором испытуемому (старше 5 лет) дается задание "нарисовать мужчину" (первая форма) и "нарисовать женщину" (вторая форма). Надежность этого теста велика, порядка 0,90. Валидность, найденная по корреляции с показателями других тестов интеллекта, несколько превышает 0,50. Однако авторы этого теста, рассмотрев исследования, относящиеся к нему, пришли к выводу, что предложенный ими тест в большей степени зависит от различий в культурном окружении, чем это первоначально ожидалось. Нельзя не согласиться с высказанным ими мнением, что поиск свободного от культуры теста интеллекта - иллюзия.

Завершая обзор зарубежных интеллектуальных тестов, отметим, что для большинства из них характерен высокий методический уровень. В западной, главным образом американской, психологии созданы и продолжают создаваться и совершенствоваться методики с высокой надежностью, валидностью, а также репрезентативностью выборок, на которых эти показатели получены.

§ 5 ТЕОРЕТИЧЕСКИЕ ВОПРОСЫ ТЕСТИРОВАНИЯ ИНТЕЛЛЕКТА

Итак, на протяжении длительного периода тесты интеллекта служили средством измерения, как предполагалось, некоторой психологической реальности, о сущности которой имелись весьма смутные представления. Сведение интеллектуальных различий к коэффициенту умственного уровня вытекало из представлений об интеллекте как общей врожденной способности, лежащей в основе всех наших достижений и измеряемой с помощью тестов Эти представления подтверждались относительной стабильностью IQ, установленной при повторных испытаниях одних и тех же групп индивидов через некоторый промежуток времени.

Существует, по крайней мере, две основные причины стабильности IQ Первая причина - это стабильность, относительная неизменность окружающей среды. В большинстве случаев дети остаются в том же самом окружении, на одном и том же социально-экономическом уровне, в той же культурной среде долгие годы. Поэтому любые недостатки или преимущества для интеллектуального развития, которые испытуемые имели на ранней стадии развития, сохраняются и в интервалах между повторными тестированиями.


Вторая причина относительной стабильности IQ заключается в том, что умения и навыки, полученные на ранних этапах развития, сохраняются и служат предпосылками для последующего обучения.

Однако относительная стабильность IQ носит статистический характер. Иначе говоря, лишь в групповых исследованиях могут быть получены достаточно высокие корреляции между повторными исследованиями. Изучение же отдельных индивидов обнаруживает большие сдвиги показателей IQ, полученных через временные интервалы. Тестология к настоящему времени накопила множество фактов, неопровержимо свидетельствующих об изменчивости того, что измеряется коэффициентом IQ. Исследования, в которых собраны эти факты, группируются по двум направлениям. Одно направление доказывает зависимость тестовых оценок от окружающей среды, которая включает в себя множество самых разных показателей (материальная обеспеченность и уровень образования родителей, характер работы отца, занятость матери, размер семьи, наличие домашней библиотеки и др).


Top