Валидизация опросника NorBA - Сравнительное исследование убеждений и практик учителей математики основной школы

На настоящий момент не существует единого понятия валидности. Это вызвало затруднение в практике оценки данной характеристики. Многие авторы, в частности Мессик, Кронбах, Левинджер отмечали, что реальность требует единой концепции валидности, именно это и было отражено в последней версии Стандартов образовательного и психологического тестирования (Цит. по: Newton, 2013).

В настоящее время, общепринятым, зафиксированным в стандартах, является понимание валидности, как единой концепции. Новая концепция понимания валидности сконцентрирована на том, Что тест должен измерять, то есть на конструкте. Во всех исследованиях валидности изучается измеряемый конструкт, будь то структура теста (задания должны быть согласованы и измерять один Конструкт) или исследования взаимосвязи с другими переменными (проверяется теоретическое предположение о связи Конструкта С другими переменными) (AERA, APA, &; NCME, 1999). Соответственно доказательства валидности инструмента так же строятся, как доказательства конструктной валидности. Таким образом, с одной стороны конструктная валидность - это свойство теста, а с другой - свойство интерпретации теста.

Во многих европейских странах также существуют организации, контролирующие качество тестирования (Hagemeister et al, 2012). Голландским комитетом тестирования (the Dutch Committee on Testing (COTAN)) была разработана собственная версия стандартов оценки качества тестирования The Dutch rating system. В 1997 году, впервые, в новой версии данного документа внимание было уделено современным направлениям развития тестирования, в частности IRT и компьютерному тестированию (Evers et al, 2010).

The Dutch rating system (DRS) рассматривает 6 групп доказательств конструктной валидности: исследование размерности полученных результатов, психометрическое качество заданий, инвариантности факторной структуры теста, конвергентная и дивергентная валидность, различия и другие исследования (в частности, исследования критериальной валидности). Методы IRT применяются в основном для оценки структуры теста, психометрических свойств заданий и инвариантности факторной структуры теста (Evers, 2001).

В своей работе мы проведем исследование размерности и психометрических качеств теста с помощью методов IRT, исследование инвариантность факторной структуры теста с помощью конфирматорного факторного анализа и IRT, исследование критериальной валидности, а так же качественное исследования соответствия результатов анкеты теоретическому описанию конструктов "конструктивизм" и "традиционализм".

Общая схема проверки валидности опросника представлена на рисунке 4.

схема валидизации опросника norba

Рис. 4. Схема валидизации опросника NorBA

Особое внимание стоит уделить пониманию кросс-культурной эквивалентности. Инструмент, разработанный в одной культуре для оценки определенного конструкта, на основании определенных ценностей и представлений не всегда будет эквивалентено измерять тот же конструкт в другой культуре. В литературе подчеркивается, что многие конструкты, особенно психологические, скорее всего, связаны с языком и культурными ценностями и установками (Cooper &; Denner, 1998).

В данной работе для проверки кросс-культурной эквивалентности были объединены методы конфирматорного факторного анализа (КФА) и современной теории тестирования IRT. Был разработан специальный метод оценивания выраженности латентной переменной у респондентов в условиях частичной эквивалентности конструктов, при помощи построения шкал методами IRT.

Исследование размерности, построение шкал

Для построения шкал, исследования их психометрических свойств и проверки кросс-культурной эквивалентности измеряемых конструктов использовались два подхода - современная теория тестирования (Item Response Theory (IRT) в англоязычной литературе) (Карданова, 2008) и мультигрупповой факторный анализ (эксплораторный и конфирматорный) (Byrne, 2011). Процесс построения шкал будет описан на примере модуля 3 "Общие убеждения о преподавании" опросника NorBA. В оригинальной версии опросника модуль 3 включал в себя 16 вопросов, из которых 12 относились авторами к шкале конструктивизма и 4 - к шкале традиционализма.

Анализ данных проводился с помощью специализированного программного обеспечения - программы Winsteps (Linacre, 2011) и пакета Mplus 6.12 (Muthйn &;Muthйn, 1998-2010).

На первом этапе анализа на выборке каждой из стран-участниц был проведен эксплораторный факторный анализ (с вращением geomin) с целью выделения инвариантной факторной структуры, эквивалентность которой может быть проверена. Во всех трех выборках была получена двухфакторная структура (рис. 5).

график

Рис. 5. График "каменистой осыпи" для всех трех выборок

В силу того, что пункт 1 (Проблемы повседневной и будущей жизни учеников являются значимым условием для развития их знаний) во всех трех выборках давал слабые нагрузки на оба фактора, он был исключен из анализа, и модель строилась для остальных 15 пунктов (V2-V16).

Этот же результат был получен и с помощью анализа данных в рамках современной теории тестирования с применением модели PCM (Partial Credit Model). В данном случае для исследования размерности применялся анализ главных компонент стандартизированных остатков(Smith, 2002). На рисунке 6 видно, что выделяется четко две размерности.

определение размерности методами irt

Рис. 6. Определение размерности методами IRT

Пункт 1 также был исключен из анализа из-за неудовлетворительных психометрических характеристик (таблица 3).

Таблица 3 - Результаты анализа размерности методом главных компонент на стандартизированных остатках

Контраст

Нагрузка

Мера

Взвеш. MNSQ

Обоз-начение

Задание

1.1

,66

1,28

1,2

A

4. Хорошие учителя показывают, как правильно решать задание

1.1

,62

,71

1,23

B

16. Чтобы учебный процесс был эффективным, в классе должна быть тишина

1.1

,58

,71

1,06

C

2. Обучение нужно основывать на заданиях с ясными правильными ответами и на основании тех идей, которые большинство учеников могут быстро усвоить

1.1

,52

,78

1,06

D

3. Объем усвояемого материала зависит от существующего на данный момент объема знаний учеников - поэтому так важно преподавать факты

1.2

,03

-,03

1,02

E

1. Проблемы повседневной и будущей жизни учеников являются значимым условием для развития их знаний

1.3

-,50

-,89

0,86

A

8. Учителя должны направлять учеников к их личным открытиям

1.3

-,45

-,56

0,92

B

7. Ученикам нужно дать возможность самим поработать над практическими заданиями до того, как учитель покажет правильное решение

1.3

-,43

-,45

0,93

C

6. Ученики учатся лучше всего тогда, когда самостоятельно находят решения заданий

1.3

-,43

-,52

0,89

D

10. Учеников следует вовлекать в работу в небольших группах, где они могут объяснить свои новые идеи и выслушать идеи других учеников

1.3

-,4

-,77

0,87

E

9. Чтобы развивать концептуальное понимание у учеников, учителям необходимо использовать различные методы (соответствующие ситуации)

1.3

-,39

-,36

0,93

F

5. Роль учителя - способствовать исследовательской деятельности учеников

1.3

-,27

-,60

0,92

G

13. Учителю следует акцентировать внимание на использовании знаний и умений, приобретенных на других уроках, для решения заданий и понимания проблем

1.3

-,25

-,11

0,98

H

11. Процессы мышления и рассуждения важнее, чем содержание конкретной учебной программы

1.3

-,18

1,05

1,07

I

14. Ученики вместе со своими учителями разрабатывают критерии оценивания и/или средства оценивания

1.3

-,15

,0

0,95

J

15. Оцениваться должны и практические задачи, проекты, исследования

1.3

-,14

-,3

0,96

K

12. Большинство видов деятельности требует использования имеющихся знаний и навыков по-новому

Таким образом, в процессе анализа было показано, что модуль 3 "Общие убеждения о преподавании" опросника NorBA не одномерен, и состоит из двух шкал. Две выделенных шкалы могут быть проинтерпретированы как традиционализм (к нему были отнесены пункты 2, 3, 4 и 16) и конструктивизм (пункты 5-15). Такая факторная структура подтверждает теоретические предположения разработчиков анкеты.

Психометрические свойства теста

Далее были проанализированы обе шкалы. Было показано, что каждая из шкал является одномерной (т. е. измеряет только один конструкт), все пункты шкал имеют удовлетворительные психометрические характеристики и находятся в хорошем согласии с используемой моделью измерения. Общие характеристики заданий теста по двум шкалам представлены в таблице 4.

Таблица 4 - Общие характеристики заданий 3 модуля опросника NorBA

Традиционализм, 4 задания

Трудность

Ошибка модели

Взвешенные статистики согласия

Не взвешенные статистики согласия

MNSQ

ZSTD

MNSQ

ZSTD

Среднее

.00

.05

1.01

.0

1.00

-.1

Ст. откл.

.51

.02

.06

1.5

.07

1.6

MAX

.74

.07

1.13

2.9

1.13

3.0

MIN

-.94

.03

.93

-2.2

.91

-2.8

Конструктивизм, 15 заданий

Трудность

Ошибка модели

Взвешенные статистики согласия

Не взвешенные статистики согласия

MNSQ

ZSTD

MNSQ

ZSTD

Среднее

.00

.06

.99

-.1

.99

.1

Ст. откл.

.62

.02

.13

2.8

.14

2.8

MAX

1.66

.11

1.28

7.8

1.30

8.4

MIN

-.83

.03

.80

-3.9

.77

-3.4

Таким образом, данные шкалы могут быть использованы для оценивания уровня конструктивизма и традиционализма у учителей каждой из стран.

Анализ кросс-культурной эквивалентности, DIF анализ

Однако для того, чтобы было возможно осуществить сравнение уровня конструктивизма и традиционализма у учителей из разных стран, необходимо доказать кросс-культурную эквивалентность измеряемых конструктов. С этой целью на втором этапе был проведен анализ функционирования пунктов анкеты по отношению к выборкам различных стран (Differnetial Item Functioning (DIF) в англоязычной литературе) (Wang, 2008). Уже предварительный анализ показал, что некоторые пункты понимаются учителями разных стран по-разному и требуется дополнительное исследование возможности проведения сравнений (рис. 7, 8).

различное функционирование заданий

Рис. 7. Различное функционирование заданий: шкала "Конструктивизма"

На рисунке видно, что меры значительно различаются по 5, 6, 8 и 15 вопросам.

различное функционирование заданий

Рис.8. Различное функционирование заданий: шкала "Традиционализма"

Для данной шкалы значимые различия между всеми тремя странами видны по 3 и 16 вопросу.

Далее, с целью проверки кросс-культурной эквивалентности моделей измерения использовался мультигрупповой конфирматорный факторный анализ (КФА) на трех выборках: российской (N=343), латвийской (N=390) и эстонской (N=332). Изначально российская выборка значительно превосходила по объему выборки других стран, поэтому из нее была случайным образом сформирована подвыборка, которая и использовалась для дальнейшего анализа.

Процедура мультигруппового КФА, как правило, осуществляется в несколько шагов (Byrne, 2011): разработка модели измерения на каждой выборке по отдельности, выделение множества общих параметров, а затем последовательное введение ограничений на равенство значений параметров модели. Выполнение ограничений на равенство значений факторных нагрузок и остаточных средних (intercepts) наблюдаемой переменной свидетельствует, соответственно, о слабой и сильной эквивалентности факторных структур; выполнение требования сильной эквивалентности позволяет проводить осмысленные сравнения средних баллов между выборками. Невыполнение требований эквивалентности факторных нагрузок и остаточных средних свидетельствует о наличии неоднородной (non-uniform bias) и однородной (uniform bias) систематической ошибки, соответственно (Matsumoto &; Van de Vijver, 2012). Следует отметить, что на практике требование сильной эквивалентности, необходимое для сопоставления средних баллов между выборками, выполняется далеко не всегда. В этом случае возможно построение модели с частичной эквивалентностью параметров, что позволяет производить осмысленное сравнение параметров латентных факторов (средних, дисперсий, ковариаций) между выборками.

Для каждой из выборок в отдельности были построены модели, которые демонстрировали приемлемое соответствие данным в каждой из стран. Ниже представлена теоретическая модель для российской выборки (рис. 9).

теоретическая факторная модель для российской выборки

Рис. 9. Теоретическая факторная модель для российской выборки

Далее, несмотря на то, что полученные модели демонстрировали лишь частичную эквивалентность структуры, была проверена инвариантность для набора общих параметров. Для этого была создана мультигрупповая модель М1 на объединенной выборке (N=1065), включавшая как общие, так и специфичные для каждой из групп параметры. Все факторные нагрузки задавались как свободные параметры, для идентификации модели дисперсии латентных факторов фиксировались в 1 на каждой выборке, а средние латентных факторов в России были приравнены к 0. Полученная модель показала приемлемое соответствие данным (табл. 5).

Таблица 5 - Показатели соответствия мультигрупповых моделей

Модель

Показатели соответствия модели

Ч2

Df

SCF

CFI

RMSEA(90% CI)

М1 - Эквивалентность структуры

421,89

254

1,073

0,917

0,043 (0,036-0,050)

М2 - Эквивалентность нагрузок

478,17

280

1,082

0,901

0,045 (0,038-0,051)

М2* - Частичная экв. нагрузок

452,28

278

1,083

0,913

0,042 (0,035-0,049)

М3 - Эквивалентность остатков

979,17

304

1,079

0,664

0,079 (0,074-0,085)

М3* - Частичная экв. остатков

473,42

293

1,078

0,910

0,042 (0,035-0,048)

В таблице использованы следующие обозначения: ч2 - значение статистики хи-квадрат, df-число степеней свободы, SCF - коэффициент поправки шкалирования статистики хи-квадрат, CFI-сравнительный индекс соответствия, RMSEA-корень среднего квадрата ошибки аппроксимации с 90% доверительным интервалом. В качестве критериев приемлемого соответствия модели данным здесь и далее использовались значения CFI>0,90, RMSEA<0,06 (Byrne, 2011).

На следующем этапе проверялась эквивалентность факторных нагрузок. Для этого ограничения на равенство нагрузок в группах были введены в модель М2 (дисперсии латентных факторов были заданы как свободные параметры). Затем, на основе анализа индексов модификации, ограничения на равенство снимались в выборках до тех пор, пока вложенная модель (М2*) не переставала значимо отличаться от исходной (М1) по критерию разности показателей статистики хи-квадрат (с учетом поправки на шкалирование (Muthйn &; Muthйn, 1998-2010). В качестве неэквивалентных параметров были выделены нагрузки двух заданий: 5 и 13, однако значения статистики хи-квадрат были сравнительно небольшими (ч2=13 в обоих случаях), что свидетельствует о небольшой выраженности неоднородной систематической ошибки.

Однородная систематическая ошибка, напротив, оказалась существенно более выраженной. Модель с ограничениями на равенство средних остатков переменных (М3) показала неудовлетворительное соответствие данным. Наиболее ярко выраженную неэквивалентность продемонстрировали остатки заданий 15 (Оцениваться должны и практические задачи, проекты, исследования, Ч2=117) и 6 (Ученики учатся лучше всего тогда, когда самостоятельно находят решения заданий, ч2=56) в России, пункта 3 (Объем усвояемого материала зависит от существующего на данный момент объема знаний учеников, ч2=55) в Латвии, пунктов 16 (Чтобы учебный процесс был эффективным, в классе должна быть тишина, Ч2=102) и 5 (Роль учителя - способствовать исследовательской деятельности учеников, Ч2=59) в Эстонии. Остатки еще ряда пунктов также были выделены в качестве неэквивалентных, но с гораздо меньшим значением статистики хи-квадрат. Соответствие полученной модели М3* оказалось приемлемым и значимо не отличалось от показателя модели М2*. Параметры латентных факторов в модели М3* позволяют содержательно соотнести выборки между собой (для сравнения параметров использовался тест Уолда).

Таким образом, ряд пунктов опросника функционируют различно в выборках разных стран. Этот факт может объясняться различными причинами - как неточностью перевода, так и отличиями образовательных систем стран-участниц. Однако число таких пунктов невелико и большинство пунктов демонстрируют эквивалентность. Поэтому шкалы конструктивизма и традиционализма могут быть признаны частично эквивалентными для выборок стран-участниц.

Оценивание участников

Для оценивания уровня конструктивизма и уровня традиционализма в убеждениях участников опроса вновь использовалась модель PCM (Partial Credit Model) современной теории тестирования, которая позволяет получить оценки параметров, расположенные на метрической шкале и сопровождаемые характеристиками точности оценивания. Метрический характер шкалы позволяет сопоставлять результаты измерения, полученные по отчасти разным наборам вопросов и, таким образом, учесть частичную неэквивалентность шкал. Все неэквивалентные пункты рассматривались как уникальные для выборок разных стран.

Для удобства сравнений и интерпретаций все оценки с помощью соответствующего линейного преобразования были переведены на 100-бальную шкалу со средним значением 50 и стандартным отклонением 10.

Таким образом, каждый учитель характеризуется двумя оценками на 100-бальной шкале - уровнем конструктивизма и традиционализма в его убеждениях.

Критериальная валидность и социальная желательность ответов

Верификация ответов учителей осуществлялась при помощи анализа интервью. Предполагалось, что учителя с более высоким уровнем конструктивизма делают больший акцент на самостоятельное конструирование знания учеником, работу в группах, их урок более интерактивный, приветствуются вопросы учеников. В то время как для учителя-традиционалиста во главе угла стоит усвоение программы, путем тренировки и наработки навыков, и дисциплина в классе. Но стоит отметить, что возможно и совмещение двух подходов одним учителем.

Анализ интервью показал, что действительно, учителя с более высоким уровнем конструктивизма рассматривают ученика как активного участника процесса обучения. Вот лишь некоторые цитаты из их интервью: "люблю, когда дети рассуждают", "на каждом уроке ученик должен совершать маленькое открытие", "учитель - это координатор, который только направляет обучение". При этом важную роль для таких учителей играет связь математики и реальной жизни: "идеальный учитель показывает, как математика связана с жизнью", "провожу дискуссию "зачем нужна математика?"", "даю примеры из других предметов". Учителя-конструктивисты не боятся признать, что они чего-то не знают. На вопрос "Бывает ли такое, что ученик задал Вам вопрос, на который Вы не можете дать ответа" только учителя с высоким уровнем традиционализма и низким уровнем конструктивизма отвечали, что такого не бывает.

Учителя, у которых уровень традиционализма выше уровня конструктивизма делают акцент на дисциплину: "Ребенок может иметь какое-то минимальное общение. Но не шумное", "домашнее задание надо довести до безукоризненности"; обращают внимание на программу и образовательные стандарты: "смотрю, чтобы выполнена была база, усвоен стандарт", "Я составляю "дети должны знать". Потом смотрю, есть ли все эти пункты".

Однако, результат по шкале "конструктивизм" одного из учителей (ID 783) не соответствовал ее ответам в интервью. По итогам анкеты уровень конструктивизма данного учителя высокий, однако, в интервью больше традиционалистских утверждений, нежели конструктивистских. Исходя их этого результата, мы можем предположить, что, возможно, некоторые учителя давали социально-желательные ответы на вопросы анкеты. Это предположение требует дальнейшего исследования, однако введение шкалы лжи в опросник NorBA сделает результаты и их интерпретацию более точными.

Более подробно результаты анализа интервью будут представлены после описания профилей убеждений учителей (глава 2.4).

Для проверки Критериальной валидности было проведено сравнение ответов учеников и учителей о практиках, которые используются на уроке. Различия в ответах учеников, учителя которых имеют разные профили убеждений можно считать подтверждением валидности методики.

Результаты проверки критериальной валидности представлены в следующей главе, после описания модуля о практиках учителя в классе и взаимосвязи установок и практик учителей.

Похожие статьи




Валидизация опросника NorBA - Сравнительное исследование убеждений и практик учителей математики основной школы

Предыдущая | Следующая