Особенности определения валидности педагогического теста. Валидность теста и ее виды Внутренняя валидность теста

Тест (англ. test - проба, испытание, исследование) - стандартизированное задание, результат выполнения которого позволяет измерить психофизиологические и личностные характеристики, а также знания, умения и навыки испытуемого.

При тестировании персонала применяемая батарея тестов (в том числе компьютерная) должна отвечать базовым требованиям валидности и надежности .

Валидность теста - это критерий степени достоверности измерения психического свойства (качества, явления), которое хотят измерить с помощью данного теста. По сути, валидность теста - это показатель степени его эффективности и пригодности для измерения нужной нам характеристики.

Различают несколько видов валидности:

конструктивную валидность;
валидность по критерию;
валидность по содержанию;
прогностическую валидность.

Валидность лучших тестов не превышает 80%. Следует учитывать, что валидность меняется в зависимости от контингента людей, которые подвергаются тестированию, а также характера их будущей деятельности. В результате один и тот же тест может быть высоковалидным для одной ситуации, и совершенно невалидным для другой.

Основные виды валидности тестов

Конструктивная валидность - это критерий качества теста, используемый при измерении какого-либо сложного психического феномена, имеющего иерархическую структуру, измерить который из-за этого одним актом тестирования невозможно. К примеру, психодиагностика интеллекта невозможна без предварительного определения понятия «интеллект» и его структуры. В данном случае степень соответствия структуры интеллекта структуре теста и будет составлять конструктивную валидность теста. В общем она нацелена на определение точности измерения сложных, устойчивых типов поведения, качеств личности, психических явлений.

Валидность по критерию - это критерий качества теста, с помощью которого можно судить об интересующем аспекте психики конкретной личности в настоящем и будущем. Для его определения сопоставляются результаты тестирования с уровнем развития измеряемого признака, качества личности на практике. Так, для теста на технические способности основным критерием их определения будет выступать техническая деятельность конкретных специалистов, оценка их технических способностей с помощью экспертов, хорошо знающих испытуемых в интересующем аспекте на протяжении достаточно продолжительного времени. Оценка при этом дается по шкале порядковой, интервальной или отношений. В целом, применение теста считается оправданным, если валидность по критерию составляет минимум 0,2-0,25.

Валидность по содержанию - критерий качества теста, используемый при выяснении соответствия его области измеряемых психических явлений. Показывает, насколько полно тест охватывает исследуемое множество измеряемых параметров.

Прогностическая валидность - критерий качества теста, предсказывающий характер развития измеряемого параметра в будущем. Данный вид валидности особенно ценен с практической точки зрения. Однако существенным недостатком критерия является то, что он не учитывает неравномерность развития измеряемого параметра у различных людей в будущем.

Надежность теста - это его фундаментальная характеристика, показывающая степень стабильности результатов тестирования при неоднократном обследовании. Может определяться путем повторного тестирования через строго определенный отрезок времени и вычисления коэффициента корреляции между результатами первого и повторного тестирования. При этом важно учитывать, что надежность результатов тестирования зависит не только от качества самого теста, но и от процедуры проведения тестирования персонала (она должна быть одинаковой в первом и последующих случаях) и социально-психологической однородности выборки. Надежность теста может быть различной, к примеру, для подростков, мужчин, женщин, представителей различных социальных групп. Таким образом, надежность теста, выражая степень неточности, возможность ошибки, возникающей при любом тестировании, заставляет искать пути уменьшения этой ошибки, более конкретного, целенаправленного применения теста. Надежность лучших тестов составляет 0,8-0,9.

В целом, для того чтобы методы тестирования персонала оказались результативными, они должны быть достаточно надежными, достоверными. Достоверность метода отбора характеризуется его неподверженностью систематическим ошибкам при измерениях, то есть состоятельностью при переменных условиях.

На практике достоверность при вынесении суждений достигается сравнением результатов двух (или более) аналогичных тестирований, проведенных в разные дни. Многие квалифицированные эксперты отмечают, что результаты теста характеризуют человека в определенное время в определенном месте.

Не следует сбрасывать со счетов и волнение кандидатов в процессе тестирования. Профессиональные специалисты, проводящие тестирование, как правило, наблюдают за состоянием тестируемых и в случае необходимости стараются их успокоить.

Другой путь повышения достоверности тестирования персонала - сравнение результатов нескольких альтернативных методов профотбора (например, тестов и собеседования). Чем более сходны результаты, полученные с помощью нескольких адекватных задачам отбора методов, тем они более достоверны.

Из всего многообразия тестов важно выделить наиболее подходящие для решения конкретных задач отбора. В современной практике российских компаний используются в основном западные методики, адаптированные в той или иной мере к отечественным социально-культурным особенностям.

В общем виде все тесты можно разделить на три основные группы:

тесты-испытания;
тесты-опросники;
проективные (в том числе графические) методики.

К тестам-испытаниям относятся следующие группы тестов.

Тесты на выполнение отдельных видов работ. Например, прослушивание для музыкантов, тесты на вождение для водителей, программирование для программистов, машинопись для секретарей и др. Кандидату предлагается выполнить конкретное рабочее задание, отвечающее специфике будущей деятельности. Результаты по таким тестам наиболее достоверны в определении профессиональных знаний, навыков и умений.
Тесты, связанные с моделированием условий деятельности (метод профессиональной пробы).
Деловые и ролевые игры (т. н. «театрализованные тесты»).

Деловые игры нацелены на испытание человека (проверку, как он себя будет вести) в ситуациях, приближенных к реальным, с которыми ему придется сталкиваться на работе. Они применяются не только при отборе новых сотрудников, но и для того, чтобы оценить профессиональный рост уже работающих и, при необходимости, решить, как повысить их уровень.

С помощью тестов-опросников определяются интеллектуальные качества, свойства личности или интересы, предпочтения. Опросники используются для определения склонности к тому или иному виду деятельности, например, нравится ли человеку работать в коллективе, есть ли у него склонности к данному виду деятельности и т. д. В настоящее время широко применяются компьютерные варианты опросников.

Проективные тесты берут свое начало из глубины веков, от различных видов гаданий (на кофейной гуще, расплавленном воске, пламени свечи, полете птиц, небесных явлениях и др.). Современные проективные методики: тест Люшера , тест Роршаха , ТАТ (тематический апперцептивный тест), а также различные методики изучения продуктов творчества человека (например, рисование человека, дерева, дома, несуществующего (мифического) животного и др.). Проективные тесты построены на интерпретации ответов личности на внешне нейтральные вопросы и реакций на ситуации, допускающие множественность толкований при восприятии их испытуемым. По этим реакциям исследователь пытается понять глубинную сущность, психические особенности личности (например, раскрыть систему личностных смыслов, структуру мотивации и др.). Испытуемый проецирует на тестовую картинку свои мысли и чувства (отсюда и название тестов - проективные). Проективные методики позволяют выявить управленческий потенциал личности, определить уровень тревожности кандидата, выявить доминирующие потребности, склонность к конфликтности и пр.

Проективные тесты эффективны при выявлении творческого потенциала личности. В условиях возрастающей конкуренции предприниматели стремятся привлечь сотрудников с развитым творческим мышлением, способным генерировать новые идеи в быстро меняющейся бизнес-среде.

Популярные тестовые методики, применяемые в практике профессионального отбора и тестирования персонала

Проективные тесты

Тест Роршаха . Испытуемому предъявляются для интерпретации картинки с абстрактными изображениями - пятнами различной конфигурации и цвета (напоминающими чернильные кляксы). На основании того, что увидит испытуемый, диагностируются его скрытые установки, побуждения, свойства характера.

Тест Люшера позволяет исследовать личность работника путем анализа его субъективных предпочтений при выборе цветовых стимулов. В оригинале стимульный материал представляют 73 карточки различного цвета, в российской психодиагностике распространена упрощенная тестовая методика, применяющая восемь основных цветов. При этом каждому цвету приписывается определенное значение. Важен порядок выбора цветов: первые выбранные цвета выражают явные цели деятельности личности и способы их достижения, последние - подавленные, вытесненные стремления.

Тематический апперцептивный тест (ТАТ) направлен на исследование психических свойств личности по спонтанному описанию тестируемым тех или иных стандартных ситуаций, изображенных на предъявляемых ему рисунках. Это один из наиболее известных тестов на мотивацию достижений. Надежность в практике тестирования персонала не является доказанной. По мнению специалистов, ответы на вопросы ТАТ могут быть подвержены влиянию сторонних факторов. Тем не менее, успешность прохождения данного теста коррелирует как с общими успехами человека в учебе, так и с его экономическим преуспеванием.

Тест Майнера на завершение предложений позволяет прогнозировать управленческий и творческий потенциал менеджеров. Этот тест состоит из 40 незаконченных предложений, которые тестируемый должен дописать самостоятельно. По нему можно судить о различных аспектах мотивации менеджерской деятельности. В других тестах на завершение предлагается досочинить рассказ или дорисовать рисунки.

По критерию измеряемого психологического качества можно выделить следующие группы тестов:

Тесты на уровень интеллекта (тесты на IQ - интеллектуальные тесты)

Тестов, измеряющих уровень интеллекта, очень много, большинство из них происходят от двух классических методик: теста Бине-Симона и теста Векслера . Оба теста прошли испытание на протяжении 70-летней практики их применения и являются наиболее изученными и надежными. К примеру, баллы по результатам словесно-речевых IQ-тестов (тест Векслера) всегда хорошо коррелируют с успехами в учебе.

Применяя тот или иной тест интеллекта, важно знать, что автор или авторы теста вкладывают в понятие «интеллект». В настоящее время психологами выделяется несколько видов интеллекта: словесно-речевой, математический, визуально-пространственный, художественный, двигательный, музыкальный и прикладной. При этом многие психологи говорят о так называемом «общем (едином) интеллекте», позволяющим человеку довольно эффективно проявлять себя в разных областях жизнедеятельности.

Тесты на IQ (коэффициент интеллекта) помогают выявить наличие отдельных интеллектуальных способностей человека, в том числе:

словесно-речевых;
способностей оперировать с числами - математический интеллект;
визуально-пространственных;
исполнительских (особых) - прикладной интеллект.

Недостатком интеллектуальных тестов является то, что они нацелены на получение некоторого суммарного балла, отражающего интеллектуальные способности «вообще». Но за этим суммарным баллом остаются неразличимыми отдельные сильные и слабые способности человека. Выполняя интеллектуальные тесты, человек использует главным образом конвергентное мышлени е. Это мышление «специализируется» на решении задач, у которых есть только один правильный ответ. Однако на многие вопросы нельзя дать однозначный, верный или неверный ответ. Например, когда нужно найти новую генеральную линию развития фирмы, которая позволила бы ей обогнать своих конкурентов, или выработать новый действенный слоган - в этих случаях у задачи множество вариантов решения. Некоторые из них будут лучше, другие хуже (зачастую это может показать лишь время), но ни один из них не является единственно верным. Такие вопросы требуют дивергентного мышления . Тесты на IQ реально зондируют лишь конвергентное мышление.

К тому же высокий коэффициент интеллекта сам по себе не является гарантией успешной работы сотрудника. Многое определяется тем, что требуется для выполнения конкретной работы, а в этом случае на первом месте далеко не всегда выходят интеллектуальные качества. К примеру, финансовому директору недостаточно иметь хороший математический интеллект, ему очень важно уметь верно оценивать степень риска и принимать правильные финансовые решения.

Тесты на личностные качества

Отличительная особенность данных тестов в том, что в них оценивается не правильность ответов тестируемого, а его личностные качества. Хотя не все стороны характера можно оценить с помощью тестов, поскольку каждый человек уникален, но некоторые личностные черты поддаются количественной оценке.

В практике кадровой работы часто используются MMPI (Миннесотский многопрофильный личностный опросник), СМИЛ (стандартизированный метод исследования личности), тест Айзенка , 16-факторный опросник Кеттелла (тест 16PF), тесты Лири, Стреляу, Леонгарда , «рисуночные тесты», тесты цветовых предпочтений, а также такие экзотические, как графологические (анализ почерка) и физиогномические (анализ черт лица). Эти тесты могут применяться при профотборе, если в службе персонала есть квалифицированные психологи, способные интерпретировать получаемые с их помощью данные. При этом следует учитывать, что ни один из этих тестов не рассчитывался на специальное применение в кадровых службах. Личностные тесты обладают недостатком: как правило они достаточно громоздки и сложны. В то же время большинство служб персонала при определении личностных качеств кандидата стремятся использовать более простые тесты.

Многофакторный метод исследования личности (СМИЛ) - это модифицированный (адаптированный к российским условиям) вариант теста MMPI, разработанного в 40-х годах американскими психологами Дж. Маккинли и С. Хатэуэем для профессионального отбора военных летчиков. Методика построена по типу опросника, при этом оценка результата базируется не на прямом анализе ответов испытуемого, а на данных статистически подтвержденной значимости каждого ответа в сравнении со средненормативными показателями. Одно из важных достоинств метода состоит в том, что автоматизированный способ обработки данных практически исключает зависимость получаемых результатов от личностных особенностей и опыта специалиста, проводящего тестирование. В основу методики положена статистически достоверная математическая база.

Тест эффективен в решении сложных вопросов профотбора и профориентации, комплектовании рабочих коллективов, расстановки кадров, при изучении социального климата в организациях и на предприятиях. Он находит активное применение в профконсультировании и профориентационной работе психологов.

Тест Кеттелла (16PF ) выводит баллы для разных качеств личности (17 факторов первого порядка). Данные по некоторым из этих шкал коррелируют друг с другом, поэтому в итоге образуются 5 факторов (показателей) второго (высшего) порядка. Полный вариант теста Кеттелла позволяет исследовать и уровень интеллекта, и личностные качества. Тест Кеттелла, а также тест Айзенка наиболее результативны в диагностике степени нервозности личности, что профессионально значимо для некоторых профессий.

Тест Майерс-Бриггс , в основе которого лежит психологическая теория личности К.Г. Юнга, содержит более ста утверждений и позволяет описать личность человека по четырем составляющим:

Экстравертированность - Интравертированность;
Осознание - Интуиция (что из них для вас более значимо, приоритетно);
Размышления - Чувства;
Суждения - Ощущения.

Однако этот тест больше подходит для оценки возможности карьерного роста сотрудников внутри организации, чем для решения вопроса о приеме на работу.

На входном контроле (при приеме на работу) используют тесты самооценки, например, тест Лири , личностный дифференциал (ЛД) или опросник деловой направленности (ОДН) личности, а также СМИЛ , результаты которого коррелируют с результатами, полученными другими методами.

Тесты на творческое мышление

Существуют следующие виды:

Тесты на генерирование идей;
Тесты на межпредметные связи (умение создавать «творческие композиции» особенно важно в рекламном и маркетинговом деле);
Визуальные тесты (на умение создавать визуальные каламбуры или рассказы по картинкам);
Тесты на «боковое мышление» (которое, в отличие от обычного, позволяет взглянуть на задачу под нестандартным углом зрения).

Нередко в тестах на творческое мышление применяются сюрреалистические либо иронические рисунки.

100 р бонус за первый заказ

Выберите тип работы Дипломная работа Курсовая работа Реферат Магистерская диссертация Отчёт по практике Статья Доклад Рецензия Контрольная работа Монография Решение задач Бизнес-план Ответы на вопросы Творческая работа Эссе Чертёж Сочинения Перевод Презентации Набор текста Другое Повышение уникальности текста Кандидатская диссертация Лабораторная работа Помощь on-line

Узнать цену

К основным психометрическим характеристикам тестов относятся, в первую очередь, валидность и надежность.

Валидность - это свойство теста измерять именно то, для чего он предназначен.

Например, мы можем определить что «знание математики» соответствует высоким баллам, полученным по математическим тестам. Но если все задания состоят из простых арифметических задач, то тест будет определять, насколько человек быстро считает. Таким образом, важно понимание того насколько рабочее определение измеряемой величины соответствует концептуальному определению. Достичь абсолютной валидности нельзя. Можно лишь пытаться максимально улучшить валидность в каждом конкретном случае, исходя из критериев, значимых для этого случая.

Существуют разные типы и виды валидности:

Практическая валидность характеризует тест не столько со стороны его психологического содержания, сколько с точки зрения его ценности в отношении достижения определенной практической цели (прогнозирования, диагностики). Выделяют подтипы практической валидности : прогностическая и совпадающая . Тест с высокой прогностической валидностью позволяет сделать прогноз, насколько успешно испытуемый будет выполнять определенную деятельность впоследствии. Тест с высокой совпадающей валидностью позволяет ответить на вопрос: "Какова вероятность того, что индивид Х обладает свойством У в настоящий момент времени?" Валидность по объему отражает степень, в какой объем теста выборочно репрезентирует тот класс ситуаций или учебного материала, относительно которого должны быть сделаны выводы и показывает, в каком объеме, в какой мере знание чего-либо отражено в методике. Оценочная валидность выражает степень корреляции (соответствия) между показателями, полученными испытуемыми по данному методу, и оценками измерительного свойства со стороны экспертов. Например, при валидизации (проверке теста на валидность) тестов оценки знаний школьников в качестве экспертов обычно выступают учителя. Внешняя валидность означает, что впечатление, которое создается при знакомстве с сугубо внешней стороной тестирования, соответствует заявленному содержанию метода. Это наименее важный аспект валидности, так как требует дополнительной проверки валидности другими методами. В некоторых случаях исследователи специально ухудшают внешнюю валидность, например, для измерения социально нежелательных характеристик (таких как расизм). Внутренняя валидность - это необходимое условие возможности интерпретации результатов теста, она спрашивает: «Не изменились ли условия эксперимента в данном случае?» Факторы ухудшающие внутреннюю валидность : 1 . История: некое событие произошло между первым и вторым измерением в дополнение к экспериментальным переменным. 2. Развитие: процесс внутри испытуемых, как функция от времени (не специфический к частным событиям), например, взросление, усиление чувства голода, усталость и т.д. 3. Тестирование: эффект первого тестирования влияет на баллы второго. 4 . Инструменты: изменение в наблюдателях или способах получения баллов могут влиять на наблюдаемые величины.5. Статистическая регрессия: в случае, если работа идет с группами, отобранными на основе экстремальных значений балов.6. Выбор: смещение, возникающее в результате дифференцированного выбора респондентов в пары для сравнения.7. Выбывание: дифференциальная потеря респондентов из сравниваемых групп.Валидность генерализации (репрезентативность), задает вопрос о том, на кого мы можем распространить результаты эксперимента. Факторы ухудшающие репрезентативную валидность : 1. Реагирующий или взаимодействующий эффект тестирования: значения первого теста могут возрасти.2. Эффект взаимодействия смещения выбора и экспериментальных переменных.3. Эффект экспериментальной подготовки, который будет препятствовать распространению результата на людей, которые тестируются в не-экспериментальном окружении.4. Эффект многократной обработки, когда эффект предыдущих тестов не стирается. Валидность критерия состоит из двух частей :Совместная валидность : «Есть ли какая-либо связь между мерой и другими проявлениями свойства, которого этот тест должен измерить?».Предиктивная валидность : «Предсказывает ли тест уровень развития данной конкретной способности?»

Относительная валидность: важно знать насколько результаты данного теста соответствуют результатам аналогичных тестов, которые измеряют то же или близкое свойство. Дискриминантная валидность : важно показать, что мера не измерят то, что не предполагалось измерять, то есть дискриминантна. Например, можно говорить о дискриминантной валидности, если есть низкая корреляция между результатами теста на скорость чтения и теста на определяющие факторы мотивации, так как способность к чтению не имеет отношения к мотивации.

Источники плохой валидности: 1. Плохая надежность теста2. Ответы на вопросы = психологическая ориентация или предубеждения против данного ответа:2.1. Уступчивость: тенденция соглашаться, то есть говорить «Да». Следует составлять вопросы.2.2. Социальная желательность: тенденция показывать себя в лучшем свете. Следует составлять тесты, где социальная желательность не очень заметна.2.3. Ухудшение: намеренно говорить «Нет», если это принесет какую-нибудь «награду» (например, внимание, компенсацию, социальную помощь и т.д.).3. Смещение:1.1 Культурное смещение: имеет ли данное свойство одинаковое значение в разных культурах? Как различные вопросы интерпретируются людьми разных культур? Содержание теста (внешняя валидность) может быть разной для людей разных культур.1.2 Смещение по половому признаку также может быть возможным.1.3 Тестовое смещение:1.3.1 Смещение в измерениях возникает, если тест делает систематическую ошибку в измерении данного свойства. Например, считается, что многие тесты IQ хороши для основной средней массы населения, но не для представителей национальных меньшинств, ведущих отличный образ жизни. Если тест проводится методом интервью, то возникает смещение в направлении хорошо выглядящих экзаменуемых.1.3.2 Смещение в предпосылках возникает, когда тест делает систематическую ошибку в предсказании некоторого значения или критерия. Также тест может быть хорош только для некоторых групп людей. Например, тест, составленный мужчинами, может не очень хорошо оценивать значение данной характеристики у женщин.

Психометрика – область ПД, связанная с теорией, практикой и измерениями ПД.

Методологическая дисциплина (по отношению к ПД):

Обосновывает требования к…

Измерительным психодиагностическим методам;

Процедурам разработки теста;

Применению процедуры статистического анализа;

Адаптации методик к новым условиям их применения;

Интерпретации тестовых данных (пр: проблема критерия и т.п.).

Знание психометрики необходимо для критичности…:

В понимании ограниченности методик;

В понимании допущений, которые были сделаны при разработке;

В понимании валидности и надежности и т.д.

Основные психометрические характеристики :

Надежность;

Валидность.

ВАЛИДНОСТЬ – это характеристика, которая включает в себя сведения об области измеряемых свойств и репрезентативности диагностической процедуры по отношению к ним.

Валидность – это такая характеристика, которая показывает то, что измеряет данная методика и насколько хорошо она это делает.

Виды валидности:

Закладывается уже на стадии разработки теста.

Устанавливается экспертами.

Этапы валидизации теста :

1. Определяется круг измеряемых свойств и (или) видов деятельности. Происходит расчленение свойства/ деятельности на элементы.

2. Разрабатывается модель тестовой деятельности или модель свойства, содержание которой подбирается путем выделения наиболее важных элементов реальной деятельности.

3. Проводится анализ степени соответствия разработанной модели реальной деятельности/ свойству (степень соответствия результатов 1 и 2 этапов).

КРИТЕРИАЛЬНАЯ/ эмпирическая ВАЛИДНОСТЬ – включает в себя текущую и прогностическую валидность.

Отражает степень соответствия прогноза и диагноза определенному кругу критериев измеряемого свойства.

Текущая валидность – степень соответствия диагноза.

Прогностическая валидность – степень соответствия прогноза.

В качестве критерия может выступать уровень достижений в какой-либо другой деятельности (производственная, научная, учебные успехи; степень развития какой-либо способности; степень выраженности какого-либо свойства личности; социально-демографические и географические данные и т.п.).

Подсчитывается корреляция двух рядов значений: баллов по тесту и показателей по внешнему параметру, избранному в качестве критерия валидности.

Пр: Разработка методики Экстра-Интраверсии.

Экстраверсия (1)/Интраверсия (2) → определение, свойства (1 и 2) → экспертная оценка участником эксперимента этих параметров + оценка экстра-интраверсии с помощью разрабатываемой методики → корреляция (чем выше, тем валидность больше).

КОНСТРУКТНАЯ ВАЛИДНОСТЬ – отражает степень представленности измеряемого психологического конструкта в результатах теста.

Для того, чтобы доказать валидность представленности измеряемого свойства, необходимо найти уже проверенную конструкцию, направленную на измерение того же самого.

Если такой конструкции нет, то привлекаются эксперты. При этом они работают не с тестом (как это было в случае с содержательной валидностью), а с испытуемыми из выборки стандартизации (наблюдают).

Если и это не удается, тогда прибегают к оценкам особого типа – субъективным, которые выносят испытуемому люди из его круга, имеющие опыт реального общения с ним.

Виды конструктной валидности :

- конвергентная валидность (схождение) – для доказательства надо выбрать какое-то психологическое свойство, которое связано (прямо или обратно) с измеряемым свойством.

- дискриминативная валидность – доказывается отсутствием связи между измеряемым свойством и каким-либо другим свойством.

ВАЛИДНОСТЬ ТЕСТА (англ. validity of test ) - важнейший критерий доброкачественности теста , характеризующий точность измерения исследуемого свойства; оценка адекватности теста исследуемой проблеме. В. т. определяется корреляцией его результатов с др. критериями измеряемого свойства (напр., В. т. способностей определяется корреляцией результатов по тесту с успешностью выполнения соответствующей деятельности). Проверка В. т. называется валидацией (валидизацией). Допускаются разные типы валидации и В. т.: 1) содержательная (content ); 2) по критерию (эмпирическая; criterion- related ): 3) понятийная (конструктная; construct ); 4) дискриминантная (discriminant ) и др. См. Психодиагностика , Психологическая диагностика . (В. И. Лубовский.)

Валидность теста - действительная способность теста измерять ту психологическую характеристику, для диагностики которой он заявлен. Количественно валидность теста может выражаться через корреляции результатов, полученных с его помощью, с другими показателями, например, с успешностью выполнения соответствующей деятельности.
Выделяют несколько типов валидности:
1. Содержательную;
2. По критерию, или эмпирическую;
3. Понятийную, или конструктивную.

Валидность теста [англ. validate - объявлять действительным, подтверждать] - один из основных (наряду с надежностью, репрезентативностью, объективностью, достоверностью и эффективностью) критериев оценки тестовых результатов. Понятие В. т. отражает прагматическую идею обязательной практической (применительно к науке эмпирической) проверки качества измерения психологических свойств личности. Если раньше понятие В. т. чаще других ассоциировалось с понятием "качество теста", то в последние годы все больше осознается роль интерпретации тестовых результатов. Таким образом, В. т. - это прежде всего адекватность интерпретации тестовых результатов по отношению к цели тестирования, содержанию основного понятия (содержанию диагносцируемого психического свойства) и применению результатов тестирования (в профессиональном отборе и других прикладных психологических обследованиях). В контексте прикладной задачи В. т. представляет собой не столько критерий качества теста, сколько показатель меры соответствия теста цели тестирования. Например, тест может быть валиден для измерения интеллекта и невалиден для оценки знаний. И наоборот: если тест создавался для проверки уровня знаний, то результаты по нему не могут быть интерпретированы как мера интеллектуального развития испытуемых. Результаты подобного истолкования невалидны изначально, по цели создания теста. Существенной стороной интерпретации является учет условий тестирования и применения результатов. Если тестирование протекает с нарушением правил (неодинаковое для всех время тестирования, различия в инструкциях, помощь отдельным испытуемым), то интерпретация таких нестандартных результатов не может быть названа валидной по условиям сбора данных. Содержание заданий теста должно соотноситься с содержанием основного понятия (концепции), отражающей измеряемое качество. Это гносеологический аспект В. т., отражающий меру связи теоретического понятия с операциональным понятием и качеством подбора эмпирических индикаторов. В западной психологической литературе отмеченный способ интерпретации тестовых результатов соотносится с определением конструктивной валидности (construct validity).

Тестовые результаты могут быть валидны для отбора по одной профессии и невалидны для отбора на другую профессию. Это особенно характерно для сконструированных целенаправленно-прагматических тестов по критерию. Мерой валидности обычно выступает коэффициент корреляции результатов по тесту с результатами по профессиональному критерию. При этом встречаются немало корреляций, опосредованных другими, иногда неизвестными факторами. Отсюда берет начало широко исследованная на Западе проблема дифференциации различных тестов по их валидности для отбора на различные профессии.

В.С. Аванесов, А.Г. Шмелев

Валидность – это один из базовых критериев в психодиагностике тестов, методик, определяющий их качество, близкое к понятию достоверности. Применяется, когда нужно узнать насколько хорошо методика измеряет именно то, на что она ориентирована, соответственно то, насколько лучше отображается исследуемое качество, тем большая валидность данной методики.

Вопрос о валидности возникает сперва в процессе разработки материала, потом после применения теста или методики, если необходимо узнать, соответствует ли степень выраженности определяемой характеристики личности и методом измерения этого свойства.

Понятие валидности выражается корреляцией результатов, которые получились в результате применения теста или методики с другими характеристиками, которые также исследуются, и ее можно также аргументировать комплексно, с помощью разных приемов и критериев. Используются разные виды валидности: концептуальная, конструктивная, критериальная, содержательная валидности, со свойственными методами установления их степени достоверности. Иногда критерий достоверности является обязательным требованием к проверке психодиагностических методов, если они вызывают сомнения.

Чтобы психологическое исследование имело реальную ценность, оно должно быть не только валидным, а еще и надежным одновременно. Надежность позволяет экспериментатору быть уверенным в том, что исследуемое значение очень близко к истинному показателю. А валидный критерий важен тем, что он указывает, что изучается именно то, что экспериментатор предполагает. Важно обратить внимание на тот факт, что данный критерий может предположить надежность, но надежность предположить валидность не может. Надежные значения могут быть не валидными, но валидные обязаны быть надежными, в этом вся суть успешного исследования, тестирования.

Валидность это в психологии

В психологии понятие валидности обозначает уверенность экспериментатора в том, что он измерял именно то, что хотел с помощью определенной методики, показывает меру соответствия результатов и самой методики относительно поставленных задач. Валидное измерение – это то значение, которое измеряет именно то, для чего было создано. Например, методика, направлена на определение , должна измерять именно темперамент, а не нечто другое.

Валидность в экспериментальной психологии очень важный аспект, является важным показателем, который обеспечивает достоверность результатов, и с ним иногда больше всего возникает проблем. Совершенный эксперимент должен обладать безупречной валидностью, то есть он должен демонстрировать, что экспериментальный эффект вызван модификациями независимой переменной и полностью соответствовать действительности. Полученные результаты без ограничений можно обобщать. Если речь идет о степени данного критерия, то предполагается, что результаты будут соответствовать поставленным задачам.

Проверка на валидность осуществляется тремя способами.

Оценивание содержательной валидности, проводится, чтобы узнать уровень соответствия использованной методики и реальной действительности, в которой выражается исследуемое свойство в методике. Существует здесь также такой компонент, как очевидная, еще ее называют лицевая валидность, она характеризует степень соответствия теста к ожиданиям оцениваемых. В большинстве методик считается очень важным, чтобы участник оценки видел очевидную связь содержания процедуры оценки и действительности того объекта оценки.

Оценивание конструктной валидности исполняется для получения степени обоснованности, что тест реально вычисляет те конструкты, которые заданные и научно обоснованные.

В конструктной валидности имеются два направления. Первый называется конвергентной валидизацией, с его помощью проверяется ожидаемая связь результатов методики с характеристиками из других методик, которые измеряют исходные свойства. Если для измерения какой-то характеристики необходимо несколько методик, то рациональным решением было бы проведение экспериментов минимум двух методик, чтобы при сопоставлении результатов обнаружив высокую положительную корреляцию, можно было утверждать о валидном критерии.

Конвергентная валидизация определяет вероятность вариации оценки теста с ожиданиями. Второй подход, называется дискриминантная валидизация, в ней заключается, что методика не должна измерять никаких характеристик, с которой теоретически не должно быть корреляции.

Проверка на валидность , также бывает критериальной, она, руководствуясь статистическими методами, определяет степень соответствия результатов к заранее определенным внешним критериям. Такими критериями могут быть: непосредственные меры, независимые от результатов методики или значение социально-организационных значимых показателей деятельности. В критериальной валидности также выделяют прогностическую, она применяется при потребности прогнозирования поведения. И если получается, что этот прогноз осуществляется со временем, значит методика прогностически валидна.

Валидность теста это

Тест – это стандартизованное задание в результате применения, которого получаются данные о психофизиологическом состоянии человека и его личностные свойства, его знания, способности и навыки.

Валидность и надежность тестов – это два показателя, которые определяют их качество.

Валидность теста определяет степень соответствия исследуемого качества, характеристики, психологического свойства к тесту, с помощью которого они определяются.

Валидность теста является показателем его эффективности и применяемости к измерению необходимой характеристики. Самые качественные тесты имеют 80% валидности. При валидизации следует учитывать, что от контингента испытуемых и их характеристик, будет зависеть качество результатов. Получается, что один тест может быть как высоко достоверным, так и совсем невалидным.

Существует несколько подходов к определению валидности теста.

При измерении сложного психологического явления, которое имеет иерархическую структуру и его невозможно исследовать, применяя всего один тест, применяют конструктивную валидность. Она определяет точность исследования сложных, структурированных психологических явлений, качеств личности, измеряемых с помощью тестирования.

Валидность за критерием – это такой критерий теста, за которым определяется исследуемое психологическое явление в настоящий момент и прогнозирование особенностей этого явления в будущем. Для этого результаты, полученные при тестировании соотносятся со степенью развития измеряемого качества на практике, оценка специфических способностей в определенной деятельности. Если валидность теста имеет значение минимум 0,2 то применение такого теста является оправданным.

Прогностическая валидность – критерий, за которым можно предсказать характер развития исследуемого качества в будущем. Такой критерий качества теста очень ценный, если смотреть с практической стороны, но могут быть сложности, поскольку исключается неравномерность развития данного качества в разных людей.

Надежность теста – это критерий теста, который измеряет уровень стабильности результатов, полученных после тестирования, при повторном исследовании. Определяется путем вторичного тестирования спустя определенное количество времени и расчета корреляционного коэффициента результатов, полученных после первого и после второго тестирования. Также важно, учитывать особенности самой процедуры проведения тестов и социально-психологической структуры выборки. Один и тот же тест может иметь разную надежность, зависимо от пола, возраста, социального статуса исследуемых. Поэтому надежность может иногда иметь неточности, ошибки, которые истекают из самого процесса исследования, поэтому ищутся пути, как уменьшить влияние определенных факторов на тестирование. Можно утверждать о надежности теста, если она составляет значение 0,8-0,9.

Валидность и надежность тестов очень важны, потому что определяют тест, как измерительный инструмент. Когда надежность и валидность неизвестны, тест считается неприменяемым для применения.

В измерении надежности и валидность имеет место также этический контекст. Это особенно важно, когда результаты тестирования имеют значимость в использовании их для принятия жизненно важных решений людей. Одних людей принимают на работу, других отсеивают, одни студенты проходят в учебные заведения, а другие должны еще доучиться сначала, кому-то определяется психиатрический диагноз и лечение, а кто-то здоров – это все говорит о том, что подобные решения принимаются на основании изучения оценки поведения или специальных способностей. Например, человек ищущий работу, должен пройти тестирование, и его оценки есть решающими показателями при приеме на работу, узнает, что тест был не в меру валидным и надежным, он очень разочаруется.

Валидность методики это

Валидность методики определяет соответствие того, что изучается данной методикой, тому для изучения чего именно она предназначена.

Например, если психологическая методика, которая основана на осведомленном самоотчете, назначена для исследования некого качества личности, такого качества, которое не может быть верно, оцененным самим человеком, то такая методика не будет валидной.

В большинстве случаев ответы, которые дает испытуемый на вопросы о наличии или отсутствии развитости в нем этого качества, может выражать то, как сам испытуемый воспринимает себя, или каким бы ему хотелось быть в глазах других людей.

Валидность также является основным требованием к психологической методике изучения психологических конструктов. Существует масса разных видов данного критерия, и нет пока единственного мнения о том, как правильно назвать эти виды и неизвестно каким именно видам методика обязана соответствовать. Если же методика оказывается невалидной внешне или внутренне, не рекомендуется ее использовать. Существуют два подхода к валидизации методики.

Теоретический подход выявляется в том, чтобы показать насколько действительно методика измеряет именно то качество, которое, как придумал исследователь, и обязана измерять. Это доказывается через составление с родственными показателями и теми, где связей не могло бы быть. Поэтому для подтверждения теоретического валидного критерия нужно определить степень связей с родственной методикой, имеется в виду конвергентный критерий и отсутствие такой связи с методиками, которые имеют иную теоретическую базу (дискриминантная валидность).

Оценивание валидности методики может быть количественной или качественной. За прагматическим подходом оценивается эффективность и практическая значимость методики, и для ее проведения используется независимый критерий извне, как показатель встречаемости данного качества в повседневной жизни. Таким критерием, например, может быть успеваемость (для методик на достижения, тестов на интеллект), субъективные оценки (для личностных методик), специфические способности, рисование, моделирование (для методик специальных особенностей).

Для доказательства валидности внешних критериев, выделяется четыре типа: критерии исполнения – это критерии такие, как количество выполненных заданий, время, потраченное на обучение; субъективные критерии получают вместе с опросниками, интервью или анкетами; физиологические – частота пульса, давление, физические симптомы; критерии случайности – используются, когда к цели имеет касательство или влияние определенного случая или обстоятельств.

При выборе методики исследования имеет теоретическое и практическое значение определение охвата изучаемых характеристик, как важной составляющей валидности. Информация, которая содержится в названии методики практически всегда не является достаточной для суждения об области ее применения. Это просто имя методики, но под ним всегда кроется еще много чего. Хорошим примером будет методика корректурной пробы. Здесь в сферу изучаемых свойств включаются концентрация внимания, устойчивость и психомоторная скорость процессов. Такая методика дает оценку выраженности этих качеств в личности, хорошо соотноситься со значениями, полученными из других методов и обладает хорошей валидностью. Вместе с тем полученные в результате проведения корректурной пробы значения подвержены большему влиянию других факторов, относительно которых методика будет неспецифичной. Если применить корректурную пробу, чтобы измерить их, то валидность будет невысокая. Выходит,что определяя область применения методики, валидный критерий отображает уровень обоснованности результатов исследования. При небольшом количестве сопровождающих факторов, которые имеют влияние на результаты, достоверность оценок, полученных в методике будет выше. Еще достоверность результатов определяется с помощью набора измеряемых свойств, их важностью при осуществлении диагностики сложной деятельности, существенностью отображения в материале методики предмета измерения. Например, для удовлетворения требований достоверности и надежности, методика, назначенная на профотбор, должна иметь анализ большого круга различных показателей, которые наиболее важные при достижении успеха в профессии.

Виды валидности

Валидный критерий бывает нескольких видов, в зависимости на что именно он направлен.

Внутренняя валидность определяет насколько определенное экспериментально воздействие стало причиной изменений в данном эксперименте.

Внутренняя валидность определяется отношениями между независимыми и зависимыми переменными, и проходит через особенные процедуры, в результате которых определяется достоверность выводов в данном исследовании. О внутреннем критерии говорится, когда достоверно известно о зависимости причинно-следственного типа между независимыми и зависимыми переменными.

Валидность исследования определяется влиянием неконтролируемых ситуативных факторов на изучаемое явление, если оно высокое, то данный критерий будет низким. Высокая внутренняя валидность исследования является признаком качественного исследования.

Внешняя валидность обобщает вывод популяции, ситуации и других независимых переменных. От того, насколько высокая и хорошая внешняя валидность зависит возможность переноса результатов, полученных в исследовании на реальную жизнь.

Очень часто внешняя и внутренняя валидизации противоречат друг другу, потому что если увеличивается одна валидность, то это значение может повлиять на показатели другой. Самым лучшим вариантом считается выбор экспериментальных планов, которые обеспечивали бы два вида данного критерия. Особенно это важно в случае исследований, в которых важным есть распространение результатов в определенных практических ситуациях.

Содержательная валидность применима к тем тестам, в которых полностью моделируется определенная деятельность, в первую очередь, аспекте связанным с предметом. Выходит, что в самом содержании методики отражаются основные стороны психологического конструкта. Если эта характеристика имеет сложную структуру, то в самой методике должны присутствовать все входящие в него элементы. Определяется такой валидный критерий с помощью систематического контроля за содержанием, должен показывать полноту охвата всей выборки за измеряемыми параметрами. Исходя из этого должна быть проведена эмпирическая проверка методики в соответствии с ее гипотезами. Каждое задание или вопрос в назначенной области, должен иметь равные шансы на включение его к заданиям теста.

Эмпирическая валидность определяется через статистическую корреляцию, то есть считается корреляция баллов по тесту и показателей внешнего параметра, избранного как критерий валидности.

Конструктная валидность относится к теоретическому конструкту, как отдельному и включается к поиску факторов, которые объясняют поведение человека при выполнении теста или методики.

Прогностический тип валидности определяется за счет наличия очень надежного внешнего критерия, хотя информация о нем собирается через определенное время после окончания испытания. Таким внешним критерием может быть способность личности к определенному виду деятельности, для которой он был отобран за результатами психодиагностических измерений. Точность прогнозирования в этом валидном критерии находится в противоположной зависимости от времени, которое давалось для прогнозирования. И чем больше времени проходит после исследования, тем еще больше факторов будут учитываться для оценивания прогностической значимости теста. Хотя учесть абсолютно все имеющиеся факторы практически невозможно.

Ретроспективная валидность определяется за критерием, который отражает события или сстояние свойства в прошлом времени. Она может использоваться для получений знаний о предсказательных аспектах методики. Очень часто в таких тестах сопоставляют оценки развития способности в их прошлом значении и на данный момент, вычесляется насколько эффективнее стали результаты.

Экологическая валидность показывает, что некий организм в силу наследственных, генетически обусловленных или приобретенных особенностей является подготовленным к демонстрированию разнообразных форм поведения во всевозможных контекстах или в разных средах обитания. Действия организма могут быть успешными в одном времени и месте, но не настолько успешными или совсем не иметь успеха в другое время, и другом месте.

Экологическая валидность подтверждается, если результаты исследования имеют место подтверждения или должного применения их в полевых исследованиях. Проблемой лабораторных исследований есть адекватная переносимость полученных результатов на условия реальной жизни, на повседневную деятельность индивида, которая длится естественным путем. Но это тоже не является конечным подтверждением результатов, как экологически валидных, потому что предполагает генерализацию также на другие условия и обстоятельства. Часто исследования обвиняются в невысоком, экологическом валидном критерии, но вся причина бывает заключается в невозможности повторить исследование в реальной жизни.