Главная › Педагогика › Система компьютерного адаптивного тестирования. Компьютерное адаптивное тестирование в образовании Системы адаптивного тестирования знаний по английскому

Система компьютерного адаптивного тестирования. Компьютерное адаптивное тестирование в образовании Системы адаптивного тестирования знаний по английскому

Под адаптивным тестовым контролем понимают компьютеризованную систему научно обоснованной проверки и оценки результатов обучения, обладающую высокой эффективностью за счет оптимизации процедур генерации, предъявления и оценки результатов выполнения адаптивных тестов. Эффективность контрольно-оценочных процедур повышается при использовании многошаговой стратегии отбора и предъявления заданий, основанной на алгоритмах с полной контекстной зависимостью, в которых очередной шаг совершается только после оценки результатов выполнения предыдущего шага. После выполнения испытуемым очередного задания каждый раз возникает потребность в принятии решения о подборе трудности следующего задания в зависимости от того, верным или неверным был предыдущий ответ. Алгоритм отбора и предъявления заданий строится по принципу обратной связи, когда при правильном ответе испытуемого очередное задание выбирается более трудным, а неверный ответ влечет за собой предъявление последующего более легкого задания, чем то, на которое испытуемым был дан неверный ответ. Также есть возможность задания дополнительных вопросов по темам, которые обучаемый знает не очень хорошо для более тонкого выяснения уровня знаний в данных областях. Таким образом, можно сказать, что адаптивная модель напоминает преподавателя на экзамене – если обучаемый отвечает на задаваемые вопросы уверенно и правильно, преподаватель достаточно быстро ставит ему положительную оценку. Если обучаемый начинает «плавать», то преподаватель задает ему дополнительные или наводящие вопросы того же уровня сложности или по той же теме. И, наконец, если обучаемый с самого начала отвечает плохо, оценку преподаватель тоже ставит достаточно быстро, но отрицательную.

Достоинства:

Позволяет более гибко и точно измерять знания обучаемых;

Позволяет измерять знания меньшим количеством заданий, чем в классической модели;

Выявляет темы, которые обучаемый знает плохо и позволяет задать по ним ряд дополнительных вопросов.

Недостатки:

Заранее неизвестно, сколько вопросов необходимо задать обучаемому, чтобы определить его уровень знаний. Если вопросов, заложенных в систему тестирования, оказывается недостаточно, можно прервать тестирование и оценивать результат по тому количеству вопросов, на которое ответил обучаемый;

Возможно применение только на ЭВМ.

Классические шкалы оценки знаний и Item Response Theory.

Классическая теория тестирования ( Clasical Test Theory - CTT ) изначально создана для интерпретации диагностических процедур. Эта теория создавалась под чисто прикладные задачи, поэтому некоторые предположения, используемые в основаниях этой теории, необходимо прояснить, тем более что в литературе эти основания почти не обсуждаются.

В классической теории тестирования предполагается явно:

1. Одномерность, т.е. процедура тест измеряет только одно качество, готовность или способность.

2. Репрезентативность, в рамках CTT понимаемая как независимость вероятности той или иной оценки от того, какая подгруппа из общей популяции будет выполнять тест.

3. Независимость заданий, т.е. задания не зависят друг от друга.

4. Независимость ответов испытуемых.

Обе упомянутых независимости понимаются как минимум в статистическом смысле.

Поскольку диагностические процедуры в большинстве случаев проводились в виде тестов, причём в большинстве тестов в форме закрытых или, реже, открытых вопросов, то результат каждого ответа предполагался измеримым в баллах по некоторой шкале.

Кроме явных предположений, в этой теории заложены некоторые неявные предположения. В частности, неявно предполагается:

- измеримость всех возможных ответов, т.е. существование эффективной процедуры получения ответа на любой поставленный вопрос,

- полнота ответов, т.е. получение ответов на все поставленные вопросы, из чего следует, что отказы от ответов во внимание не принимаются,

- равнозначимость всех вопросов и, следовательно, равные веса всех поступивших ответов,

- равенство дисперсий при использовании параллельных форм ответов,

- нормальное распределение ответов.

Как и в случае технических измерений, неявно предполагается, что любой результат измерений складывается из истинного значения и ошибки измерения, и ошибки измерения предполагаются аддитивными, что нужно для корректности перехода от сумм ошибок к одной интегральной ошибке, причём интегральная ошибка тоже предполагается нормально распределённой.

Насколько корректны эти допущения, обычно не обсуждается. Во всяком случае, самые серьёзные вопросы по поводу CTT связаны с обеспечением реальной независимости заданий. Не обсуждается также и вопрос о выборе оценочных шкал, в качестве исходного допущения предполагается, что «сырые баллы» уже получены.

Более тонкий вопрос связан с метрологическим смыслом категории «ошибка». В технических измерениях неявно предполагается, что ошибка и порождённая ею погрешность - свойство измерительной процедуры, и, следовательно, погрешность в принципе можно оценить и учесть по результатам поверки и калибровки. При измерениях эргатических элементов появляется ещё один источник ошибок - нестабильность самого измеряемого, возникающая вследствие действия различных факторов, к самым важным из которых можно отнести обучение, забывание, утомление и динамику функционального состояния. Поправки на эти факторы в метрологии не обсуждаются.

Для получения итоговой оценки используются различные вычислительные процедуры. Чаще всего вычисляется средний балл по обычной формуле среднего арифметического , где- итоговый баллi -го испытуемого, и квадрат отклонения от среднего или варианты этого показателя - среднеквадратическое отклонение или дисперсия. Для сравнения результатов используется коэффициент корреляции между заданиями и между испытуемыми.

Как вариант, иногда используется взвешенный средний балл вида , где- соответствующие весовые коэффициенты.

Из всех перечисленных выше предположений труднее всего доказывать равнозначимость ответов, поскольку это требует доказательств субъективного равенства всех трудностей соответствующих ответов и одновременно доказательств одинаковой важности всех поставленных вопросов. Предположение о вычислимости упомянутых статистических показателей требует содержательных доказательств корректности гомеоморфного вложения шкалы баллов в шкалу действительных чисел, в которой на самом деле выполняются подобные вычисления. Другими словами, вопросы как по критериальной, так и по конструктной валидности обычно остаются открытыми.

Кроме упомянутых стандартных статистических показателей (вопрос о математической корректности которых обычно не обсуждается) для испытуемых, оцениваются некоторые психометрические характеристики измерительных процедур с ясным прагматическим, но сомнительным математическим смыслом, например,

Коэффициент лёгкости задания (или аналогичный коэффициент трудности), где- средняя оценка, полученная за задание,- максимально возможная оценка за это же задание, при том, что минимальная возможная оценка за любое задание по умолчанию предполагается нулевой,

Коэффициент дискриминации задания, т. е. коэффициент корреляции между результатом задания и итоговым результатом, или считающийся более информативным вариант - коэффициент корреляции между результатом задания и итоговым результатом без учёта этого задания,

и некоторые другие коэффициенты, толкование которых в этой науке отличается от общепринятого.

В частности, надёжность здесь, в отличие от стандартного понимания, считается качеством не системы или объекта, а измерения, и оценивается не через время исправной работы или какие-либо варианты этого времени, например, в терминах наработки на отказ, а как возможность получения сопоставимых показателей, оцениваемых через коэффициент корреляции. Из такого толкования получаются последовательная надёжность , т. е. коэффициент корреляции между результатами выполнения двух заданий, расстояние по времени между которыми достаточно для того, чтобы эти задания можно было бы считать субъективно независимыми, параллельная надёжность, т.е. коэффициент корреляции между результатами вариантов заданий, надёжность частей, т.е. коэффициент корреляции между результатами всей процедуры измерений и какой-либо его части, и другие показатели. Другими словами, последовательной надёжностью в этой науке называют то, что в профессиональной теории измерений считают количественной мерой test-retest-валидности, параллельной надёжностью и надёжностью форм - мерой test-subtest-валидности, и в целом наблюдается путаница в терминологии, что приводит к смешиванию валидности и надёжности.

По другой версии, коэффициент надёжности определяется как , где- дисперсия ошибок измерения,- дисперсия набранных баллов, т. е. время в таком определении коэффициента надёжности вообще не упоминается.

Сомнительность подобных вычислений с математической точки зрения связана с тем, что исходные данные изначально получены по шкале баллов, на которой бывает задано отношение порядка, и даже линейного порядка, но не определены арифметические операции. Следовательно, сложение и вслед за ним вычисление средних, взвешенных средних, дисперсий и корреляций на шкале баллов не определено. Ещё одно предположение, понятное с прагматической точки зрения, но с явно неадекватным теоретическим обоснованием, сводится к утверждениям о нормальном распределении ответов и, следовательно, с распределением «сырых баллов» на шкале действительных чисел. Предположение о логнормальном распределении тех же баллов часто кажется более правдоподобным, но содержательно обычно тоже не обосновывается. Эти предположения позволяют использовать при статистической обработке результатов хорошо известные методы, но математическая корректность всех последующих вычислений после этого предположения не обсуждается.

В литературе широко обсуждаются многие проблемы традиционного подхода к построению шкал (метрик) знаний как баллов за выполнение некоторых специально подобранных наборов заданий.

Прежде всего, практически невозможно доказать test-to-test- и intertest-валидность, следовательно, вопрос о сравнении и тем более об общем учёте результатов измерений, выполненных по разным методам, остаётся открытым.

Многократно отмечены «эффекты края», т. е. относительная устойчивость результатов ближе к медиане распределения ответов и неустойчивые результаты по краям этого распределения, что обычно объясняется возрастанием роли инородных факторов как в «нижней», так и в «верхней» части распределения. В качестве борьбы с этими эффектами обычно предлагается эмпирически обоснованная рекомендация задать некоторый «доверительный квантиль» распределения , обычно предлагается принять,или, и при попадании ответа нижеили вышевносить поправки на нестабильность, главным образом, завышать полученные оценки по эмпирически подобранным поправочным формулам.

В случае закрытых вопросов возможны ситуации случайного угадывания, для коррекции данных в этом случае предлагается вносить поправки вида , где- результат после коррекции,- результат (в баллах или другим шкалам) ответа на-й вопрос до коррекции,- количество возможных ответов на-й вопрос,w - количество невыполненных заданий в серии измерений. Эта формула обосновывается эмпирически, в частности, обсуждается вопрос о целесообразности учёта в этой формуле невыполненных заданий, для которых соответствующее значение , что уменьшает значение, и идут дискуссии о содержательном смысле подобных поправок.

В целом, метрики качества знаний при классическом подходе обоснованы статистической калибровкой методов по соответствующей популяции. Со времён создания IQ метрологическое обоснование измерений знаний проводится по распределениям баллов, вычисленных по соответствующему контингенту респондентов. Например, указываются средние значения IQ по возрастным, социальным или профессиональным группам. Однако из разницы IQ непонятно, какие принципиальные отличия в структуре знаний различают эти группы.

Согласно Концепции модернизации российского образования можно отметить, что основные усилия по реализации реформы сегодня сосредоточены на увеличении роли информационных технологий. Используются они по-разному: для управления образовательным процессом, для непосредственного обучения, для контроля и проверки усвоения и практического применения полученных знаний обучаемыми. Для этого в последнее время все большее применение на разных этапах обучения получили различного рода тестовые опросы. Спектр применения тестов очень широк от короткого опроса после объяснения текущей темы до итоговых, выпускных или вступительных экзаменов. При этом для многих высших учебных заведений актуальным вопросом является использование информационных технологий при разработке автоматизированных систем обучения и контроля знаний. Ведь использование подобного типа систем в образовательном процессе позволит применить новые адаптивные алгоритмы тестового контроля, использовать в тестовых заданиях мультимедийные возможности компьютеров, уменьшить объем бумажной работы, ускорить процесс подсчета результатов опроса, упростить администрирование, снизить затраты на организацию и проведение тестирования. В заключение можно отметить, что компьютерные системы контроля знаний приобретают все большую популярность, что объясняется их объективностью, доступностью и экономической эффективностью.

Исходя из вышесказанного, было принято решение по разработке программного комплекса, универсальной автоматизированной системы адаптивного тестирования (АСАТ) - являющейся средством разработки и создания различного рода тестов, а также используемая для проведения тестирования и обработки результатов. Основным требованием к разработанной системе являлось ее интеллектуальность, достигающаяся за счет организации адаптивности процесса тестирования.

Программный комплекс АСАТ предоставляет следующие возможности по организации процесса тестирования:

Автоматизация процесса создания тестов, качественное проведение процесса тестирования.

Открытость и наращиваемость системы.

Отсутствие жесткой привязки к какому-либо предмету.

Легкость создания и модификация тестов.

Обеспечение возможности многопользовательской работы. Персонифицированный доступ для всех категорий пользователей.

Защита от несанкционированного доступа к тестируемым заданиям.

Развитые средства навигации на всех уровнях при проведении процесса тестирования. Наличие средства динамического контроля процесса тестирования со стороны преподавателя.

Настройка (адаптация) тестового материала под индивидуальные особенности обучаемого (студента, учащегося, специалиста и т.п.).

Адаптивный выбор следующего вопроса в зависимости от правильности предыдущих ответов обучаемого.

Наполнение базы данных тестовыми заданиями, позволяющими работать как с текстовой, графической, так и с динамической тестовой информацией.

Возможность создания различных заданий из одного набора вопросов.

Возможность проведения тестирования по частям курса и как следствие проведение итогового экзаменационного тестирования по всему курсу.

Обеспечение полной и качественной проверки знаний большого количества обучаемых (студентов, учащихся, специалистов) без особых временных затрат и материальных средств по всем разделам учебного процесса.

Достоверность, точность и объективность результатов тестирования. Исключение субъективного подхода к оценке знаний обучаемых.

Уменьшение вероятности возникновения ошибок при подсчете результатов тестирования и выведения итоговой оценки.

Освобождение преподавателей от трудоемкой работы по обработке результатов тестирования.

Оперативный сбор и анализ результатов тестирования на любой момент времени с возможностью формирования периодических отчетов и ведомостей по различным запросам.

Внедрение АСАТ в процесс обучения студентов СурГУ и в общеобразовательные учреждения ХМАО - Югры.

По способу оценки результатов, тесты бывают двух видов: традиционные и адаптивные. Преимущество адаптивного теста перед традиционным - его эффективность. Адаптивный тест может определить уровень знаний тестируемого с помощью меньшего количества вопросов. При выполнении одного и того же адаптивного теста тестируемые с высоким уровнем подготовки и тестируемые с низким уровнем подготовки увидят совершенно разные наборы вопросов: первый увидит большее число сложных вопросов, а последний - легких. Доли правильных ответов у обоих могут совпадать, но так как первый отвечал на более сложные вопросы, то он наберет большее количество баллов. Еще один значимый эффект - повышение достоверности, так как в этом случае исключается быстрое изучение банка заданий путем простого "прощелкивания" вариантов на компьютере (таким образом, можно узнать лишь легкие задания, а трудные и часть средних оказываются неизученными).

В данной системе тестирования адаптивность выражается в изменении относительных пропорций в предъявлении легких, средних, трудных заданий в зависимости от числа правильных ответов, зарегистрированных в ходе сеанса тестирования. Следует заметить, что переход на адаптивную методику возможен только в результате накопления значительного банка заданий с эмпирическим измеренным уровнем трудности. Адаптивность сочетается с принципом "лестничного алгоритма" - предъявления заданий с систематическим нарастанием уровня трудности. Вначале предъявляются легкие задания, затем - средние и, если тестируемый успешен на предыдущих уровнях, - трудные. После каждого ответа программа тестирования определяет обоснованность так называемого «досрочного перевода» тестируемого на более высокий уровень трудности. На каждом шаге оценивается значимость различий между числом правильных и неправильных ответов. При значениях меньших чем 5%-ый уровень ошибки (в отвержении гипотезы равновероятной встречаемости правильных ответов и ошибок) осуществляется перевод тестируемого на более высокий уровень трудности. Если задания данного уровня исчерпались, а тестируемый не перешел на следующий уровень трудности, то процесс тестирования завершается и осуществляется определение уровня знаний тестируемого.

Система реализована в виде трех независимых модулей:

модуля тестирования (предназначенного для тестируемых);

модуля создания и редактирования тестов (предназначенного для преподавателя);

модуля статистики и анализа результатов (предназначенного для преподавателя), которые могут устанавливаться независимо друг от друга на различные клиентские машины;

для сохранения исходных данных и результатов проводимых тестов используется база данных, которая хранит банк тестовых заданий, параметры настройки теста и процесса тестирования, информацию для аутентификации пользователей, результаты тестирования и другую информацию по обработке данных.

Модуль создания и редактирования тестов осуществляет идентификацию зарегистрированных или регистрацию новых преподавателей, обращается к базе данных, в которой хранятся тестовые задания и ответы к каждому тесту, а также его параметры, и позволяет преподавателю создать новый тест, изменить настройки имеющегося теста, редактировать вопросы и ответы.

Следует заметить, что преподаватель, зайдя в систему под своим регистрационным именем и паролем, получает доступ только к своей совокупности тестов, не имея возможности просмотреть или изменить тесты другого преподавателя.

Используя базу данных, модуль тестирования проводит идентификацию зарегистрированных или регистрацию новых пользователей, выбор теста, осуществляет тестирование испытуемого посредством вывода на экран вопроса и последующего получения ответа, обрабатывает поступившие данные и записывает полученные результаты тестирования в базу данных для возможности дальнейшего анализа и использования преподавателем.

Тестируемые могут получить доступ только к определенным тестам, заранее назначенным преподавателем. При этом используется адаптивный алгоритм контроля знаний, обуславливающий выбор очередного задания в зависимости от ответов тестируемого на предыдущие вопросы. В данной системе отсутствует возможность пропустить вопрос и вернуться к нему в конце тестирования, это связано с тем, что в зависимости от того, как тестируемый ответит на текущий вопрос, обуславливается выбор очередного задаваемого вопроса. По окончании выполнения теста для тестируемого выводится результат тестирования и краткий комментарий. Результатом тестирования является оценка, которую пользователь получает исходя из критериев, заданных преподавателем для данного теста.

Модуль статистики и анализа результатов тестирования предоставляет преподавателю возможность просмотреть результаты тестирования отдельного студента или целой группы, по одному или нескольким тестам с различной степенью детализации. При этом в отчете отображаются результаты всех студентов по всем пройденным ими тестам, относящимся к выбранному предмету определенного преподавателя.

Так как тестирование основывается на принципе адаптивности, то вопросы, а также их количество в пределах одного теста для каждого пользователя будет неодинаковым. Поэтому в данном модуле предусматривается возможность вывода не только общей информации, но и более детального отчета о прохождении теста, который содержит информацию о том, какие пользователь получал вопросы и как он на них отвечал.

Созданная система соответствует современным требованиям, предъявляемым к классу подобного типа систем, как в области педагогического тестирования, так и в области информационных технологий.

Библиографическая ссылка

Бушмелева К.И. АВТОМАТИЗИРОВАННАЯ СИСТЕМА АДАПТИВНОГО ТЕСТИРОВАНИЯ // Фундаментальные исследования. – 2007. – № 2. – С. 48-50;
URL: http://fundamental-research.ru/ru/article/view?id=2517 (дата обращения: 18.09.2019). Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания» 1

Программный комплекс АСАТ предоставляет следующие возможности по организации процесса тестирования:

Автоматизация процесса создания тестов, качественное проведение процесса тестирования.

Открытость и наращиваемость системы.

Отсутствие жесткой привязки к какому-либо предмету.

Легкость создания и модификация тестов.

Защита от несанкционированного доступа к тестируемым заданиям.

Адаптивный выбор следующего вопроса в зависимости от правильности предыдущих ответов обучаемого.

Возможность создания различных заданий из одного набора вопросов.

Освобождение преподавателей от трудоемкой работы по обработке результатов тестирования.

Внедрение АСАТ в процесс обучения студентов СурГУ и в общеобразовательные учреждения ХМАО - Югры.

Система реализована в виде трех независимых модулей:

модуля тестирования (предназначенного для тестируемых);

модуля создания и редактирования тестов (предназначенного для преподавателя);

Библиографическая ссылка

Бушмелева К.И. АВТОМАТИЗИРОВАННАЯ СИСТЕМА АДАПТИВНОГО ТЕСТИРОВАНИЯ // Современные проблемы науки и образования. – 2007. – № 2.;
URL: http://science-education.ru/ru/article/view?id=2517 (дата обращения: 18.09.2019). Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания»

Одним из активно развивающихся и перспективных направлений в современной методике обучения иностранным языкам является использование компьютерных технологий для контроля уровня сформированности речевых навыков и умений.

Компьютерное тестирование дает возможность интегрировать в тестовых заданиях текстовую, графическую, звуковую и видеоинформацию, а также полностью автоматизировать процесс проведения контрольного измерения.

Компьютерное тестирование позволяет:

быстро обрабатывать вводимую информацию;

обеспечивать оперативную обратную связь, которая дает возможность испытуемому постоянно и незамедлительно получать подкрепление правильности ответа, а преподавателю - осуществлять поэтапный или пооперационный контроль действий тестируемого;

повышать мотивацию тестируемого, поскольку при работе с компьютерной программой присутствует элемент необычности, схожий с игровой ситуацией, появляется дух состязательности с компьютером;

значительно экономить время и затраты на организацию и проведение тестирования.

Итак, первая задача, которую позволяет эффективно решить компьютер, - хранить тестовые задания и создавать из них тесты, а именно обрабатывать первичный, исходный авторский материал, вносить в него необходимые уточнения, исправления, дополнения; хранить информацию, отбирать задания из электронного банка данных по заданным критериям и производить нужную компоновку тестов.

Вторая задача, которую реализует компьютер, - регистрация тестируемых и подготовка последних к выполнению заданий. Например, регистрация, которая может быть как предварительной, так и непосредственно перед тестированием, включает заполнение на экране компьютера регистрационной карты. Получив необходимые сведения, система выдает тестируемому идентификационный номер.

Компьютер может подготовить испытуемого к сдаче теста - провести инструктаж. В компьютерную программу включается информация о методике работы с тестом: рекомендации по технологии выполнения теста, данные о времени тестирования, процедуре оценивания и т. д. Подготовка к выполнению теста может включать и тренировку, поясняющую, как реагировать на те или иные задания, не допускать случайных (не имеющих отношения к языковой и речевой компетенции тестируемого) ошибок, выработать необходимые временные стереотипы.

Следующий этап - проведение сеанса тестирования с помощью компьютера. Ключевой проблемой этого этапа является длительность работы. Поэтому важно в компьютерную программу для тестирования заложить показ, учет и контроль отведенного, потраченного и оставшегося у испытуемого времени.

Чтобы начать работу, тестируемый обязан указать свой идентификационный номер, т. е. номер, полученный при регистрации. После этого ему предъявляется тест с заданиями и инструкциями по их выполнению.

Завершение сеанса тестирования может быть как добровольным (по желанию тестируемого и с разрешения инструктора, по мере выполнения заданий), так и принудительным (при окончании лимита времени).

Если авторы-составители теста специально не упорядочили тестовые задания по степени трудности, не разделили тест на автономные по целям выполнения и видам речевой деятельности разделы-субтесты, то допустимо выполнение теста в произвольном порядке. В противном случае пропуск отдельных, например показавшихся трудными, заданий и возврат к ним запрещаются компьютерной программой.

После выполнения заданий теста наступает этап обработки ответов и подсчета баллов. Согласно классификации В. И. Нардюжева, И. В. Нардюжева обработка может быть:

локальной, выполняемой на месте проведения тестирования;

удаленной, осуществляемой за пределами места проведения сеансов тестирования;

формальной, если возможно простое сравнение с ключами;

экспертной, если подобное сравнение невозможно и требуется привлечение экспертов, специалистов (например, для оценки развернутого устного или письменного ответа);

оперативной, позволяющей продемонстрировать результаты сразу же после тестирования;

отложенной по причине сложного алгоритма расчетов баллов или необходимости получения заключения рейтера, эксперта.

Использование компьютера позволяет осуществлять статистический анализ информации, т. е., с одной стороны, дать информацию об участниках тестирования, с другой - что наиболее важно на современном этапе развития лингводидактического тестирования - собрать данные о качестве тестовых материалов.

В первом случае алгоритм анализа предполагает:

)выбор объекта статистического анализа (субтеста);

)определение количества участников тестирования данного уровня;

)ранжирование тестируемых по числу набранных баллов;

)определение процента правильных ответов на каждое задание теста;

)построение по цифровым данным графиков;

)при необходимости сравнение результатов тестирования по различным объектам.

Во втором случае статистический анализ осуществляется через:

)определение минимального, среднего, максимального значения тестовых результатов;

)установление статистических параметров задания: уровня трудности, дифференцирующей способности (способности задания отличать сильных учащихся от слабых);

)анализ работы дистракторов, включающий определение частоты выбора ответов всеми, а также слабыми и сильными;

)определение независимости заданий в тесте .

Компьютерное тестирование возможно при наличии специально разработанного программного обеспечения, которое реализует предлагаемую авторами информационно-педагогическую модель тестирования.

Компьютерное обеспечение существенно влияет как на содержание тестовых заданий (например, использование звукового сопровождения предполагает оборудование компьютера звуковой картой), так и на способ реализации информационно-педагогической модели (например, подключение компьютеров к Интернету позволяет организовывать и проводить тестирование в режиме реального времени).

Компьютерные программы для проведения тестирования по иностранному языку можно классифицировать в зависимости от способа программирования. Программа может быть линейной: в этом случае предусматривается единственно возможное направление работы с тестом независимо от качества ответа учащихся на конкретный вопрос или задание. Например, тестируемый должен выбрать один из вариантов ответа, выполняя задания на проверку понимания прочитанного текста:

Линейная программа может быть осложнена этапом корректировки (например, при выполнении заданий на проверку грамматических навыков). В таком случае при неправильном ответе компьютер возвращает тестируемого к исходному заданию, инструкции или правилу.

В разветвленной программе предусмотрены разъяснение, дополнительные, наводящие вопросы, указания, помогающие выполнить исходные задания и получить разрешение на последовательное движение или движение через кадр.

Программы, сочетающие в себе линейные и разветвленные участки, относят к группе смешанных или комбинированных. Они обеспечивают и большую гибкость контроля, и приспосабливают работу к индивидуальным возможностям обучающихся. Вместе с тем компьютерное тестирование по иностранному языку имеет свою специфику и свои требования к презентации контролируемого материала и к выполнению заданий. Одной из основных задач является максимальное использование всех каналов подачи информации, привлечение для этого мультимедиатехнологий (графиков, анимационных клипов, видеоизображения), а также различных ссылок на документы и ресурсы (справочники, лексические минимумы, интонационные контуры и т. д.). В свою очередь, использование компьютерной дидактической наглядности, моделирующей ситуации общения и организующей выполнение заданий и корректировку ответа, повышает продуктивность контролирующих компьютерных программ и мотивацию тестируемых к овладению иностранным языком.

Возможности компьютерного тестирования

Сегодня в мире существуют различные организации, занимающиеся не только разработкой проблем, но и систем компьютерного тестирования. В их ряду Educational Testing Service (ETS) - Служба тестирования в образовании (#"justify">), которая с 1970 г. занимается вопросами компьютерного тестирования и предлагает на данный момент компьютерные варианты TOEFL (#"justify">) - Test of English as a Foreign Language. Этот тест по английскому языку как иностранному используется при поступлении в колледжи США и Канады.

Во Франции Национальный центр дистанционного обучения (Centre national denseignement à distance) предлагает компьютерный вариант теста по английскому языку как иностранному: Test FLE - Test de Français langue étrangère et seconde - niveau général (élémentaire, intermédiaire, avancé): compréhension écrite, grammaire, vocabulaire, compréhension orale (#"justify">). Тест позволяет определить уровень владения английским языком как иностранным. Английская языковая школа "LEcole des Trois Ponts" также предлагает выполнить в интерактивном режиме тесты на общее владение английским языком (#"justify">).

В России компьютерным тестированием одними из первых начали заниматься сотрудники кафедры гуманитарных технологий МГУ. Были разработаны технологии компьютерного дистанционного тестирования, в которых функции образовательного или психологического тестирования распределены между локальным компьютером пользователя ("клиентом") и центральным компьютером разработчика ("сервером"). Эта новая информационная технология обеспечивает быстрое и широкое распространение тестов, отвечающих международным научным стандартам. Ежегодно во время весенних каникул проводится телекоммуникационная олимпиада "Телетестинг" для выпускников (#"justify">). На указанном выше сайте можно в интерактивном режиме потренироваться в выполнении некоторых заданий (с выбором ответа) демонстрационных вариантов тестов разных лет, в том числе и по английскому языку.

Компьютерное тестирование по английскому языку проводят также различные языковые школы в России. Например, языковые школы BKC-International House (#"justify">), Transparent Language (#"justify">) предлагают тесты на определение уровня владения английским языком.

Компьютеризированная система контроля открывает широкие возможности для индивидуализации процесса усвоения знаний обучаемыми. Принцип индивидуализации обучения лежит в основе адаптивного тестирования. Адаптивное тестирование - это контроль, который позволяет регулировать трудность и число предъявляемых заданий каждому учащемуся в зависимости от его ответа на предыдущее задание: в случае правильного ответа учащийся получит более трудное следующее задание, в случае неправильного ответа - задание легче предыдущего . Режим адаптивного тестирования (и не только тестирования, но и обучения) предполагает набор заданий в тестовой форме, требующих от учащегося работы на пределе своих возможностей и обеспечивающих тем самым максимальный эффект. Использование заданий, соответствующих уровню подготовки ученика в адаптивном тестировании, повышает точность измерений, сокращает время индивидуального тестирования.

На основе анализа результатов адаптивного тестирования можно строить процесс обучения с позиций личностно ориентированного подхода, т. е. отбирать учебные задания на оптимальном уровне трудности для каждого ученика. Известно, что легкие задания не способствуют развитию, а трудные - снижают мотивацию обучения. Поэтому оптимальным уровнем трудности4 заданий в тестологии считается 50%.

Компьютеризация образования, развитие теории педагогических измерений позволяют создать рейтинговую систему контроля для более объективной и точной оценки знаний, навыков и умений учащихся. Рейтинговая оценка обученности дает возможность с большой степенью достоверности охарактеризовать качество подготовки учащегося по данному учебному предмету. "Рейтинг" в переводе с английского - это оценка, некоторая численная характеристика какого-либо качественного понятия. Обычно под рейтингом понимается "накопленная оценка" или оценка, учитывающая "предысторию".

Модульное обучение предполагает жесткое структурирование учебной информации, содержания обучения и организацию работы учащихся с полными, логически завершенными учебными блоками (модулями). Модуль по своему содержанию совпадает с темой изучения учебного предмета. Например, модуль изучения темы "География Англии и Америки". Однако в отличие от темы в модуле все измеряется, все оценивается: выполнение каждого задания, работа на занятии, посещение занятий, стартовый, промежуточный и итоговый уровни подготовки учащихся. В модуле четко определены цели обучения, задачи и уровни изучения данного модуля, названы навыки и умения.

Учащиеся при модульном обучении всегда должны знать перечень основных понятий, навыков и умений по каждому конкретному модулю, включая количественную меру оценки качества усвоения учебного материала. На основе этого перечня составляются вопросы и учебные задания, охватывающие все виды работ по модулю, и выносятся на контроль после изучения модуля. Как правило, в модульной технологии обучения используется тестовая форма контроля.

Учебные модули и тесты могут быть легко перенесены в компьютерную среду обучения. Многие российские институты дистанционного образования строят свои учебные программы именно на основе модулей.

В модульном обучении оценивается в баллах каждое задание, устанавливаются его рейтинг и сроки выполнения (своевременное выполнение задания тоже оценивается соответствующим количеством баллов), т. е. основной принцип рейтингового контроля - это контроль и оценка качества знаний, навыков и умений с учетом систематичности работы учащихся.

После окончания обучения на основе модульных оценок определяется общая оценка, которая учитывается при определении результатов итогового контроля по предмету.

Итак, компьютерное тестирование наряду с обучением является сегодня одним из основных методов новой информационной технологии оценки уровня владения иностранным языком.

Аннотация: Рассматриваются основные понятия технологии компьютерного тестирования и некоторые инструментальные системы тестирования

Хотя возможности m- Learning и ограничены (трудно использовать страницы, рисунки, таблицы и меню большой разрешающей способности и размера, всплывающие диалоговые окна и др.), оно имеет большую инновационную привлекательность.

Инструментальные системы учебного назначения обычно предназначены для настройки на любую предметную область.

Существует множество автоматизированных систем обучения и контроля. Наиболее часто встречаются так называемые обучающие программы, разработанные на основе эмпирического подхода, определенный педагогический опыт и здравый смысл (системы "от учебного предмета"). Как правило, у них низкая дидактическая эффективность (по зарубежным оценкам, эффективными являются не более 10% таких программ, а число непригодных – около 90%).

Рассмотрим некоторые системы.

Lotus Learning Space – средство разработки обучающих мультимедиа-курсов. Пакет Learning Space поддерживает три способа обучения: самостоятельное и пошаговое, без тьютора и контроля (материалы на веб-сервере, в базе данных или на носителе).
ToolBook – средство создания мультимедиа–приложений обучающего характера. Позволяет создавать тесты, встраивать их в контент и проводить тестирование. Имеется также набор стандартных видов тестов, которые легко встраиваются в создаваемый контент.
WebCT – интегрированная среда разработки и использования сетевых курсов. Тестирующая система WebCT позволяет использовать основные типы тестовых заданий, включая и развернутый ответ.
eLearning Office – система разработки мультимедиа-приложений: электронных каталогов, энциклопедий, учебников, презентаций, поисковых систем и других. Включает систему интерактивного тестирования для самопроверки знаний учащегося с заданиями, которые могут быть трех типов (с вариантами выбора ответов, с вводом строки ответа и на соответствие ответа) и включать аудио- и видео-фрагменты, а также графические объекты. Есть режим контроля результатов тестирования. Преподаватель может выставлять оценки обучаемым автоматически или самостоятельно, контролируя неправильные ответы.
tTester – разработка, которая позволяет создавать тесты, объединять тесты в один тест, редактировать тесты, создавать "бумажные" версии тестов и их печать и др.
АСТ-Тест – инструментальная среда для разработки педагогических тестов и адаптивного тестирования с использованием OLE-технологии и мультимедиа. Имеет модули "Конструктор тестов", "Система тестирования".
АИССТ – Автоматизированная Интерактивная Система Сетевого Тестирования для проведения контроля знаний обучающихся, создания и настройке предметного материала, администрирования работы системы.
Гефест – сетевая адаптивная информационно-обучающая система, использующая методы теории автоматов и марковских процессов. В модель адаптивного управления обучением включены объекты "Устройство адаптивного обучения (формирование вопросов и задач, контроль ответов и оценка знаний)", "Модель обучающегося".
LERSUS – программная система (редактор) для быстрой разработки и стандартизации электронных (в том числе, веб-контента с использованием видео, аудио, Java, Flash) или печатных учебных материалов в виде интерактивного веб-контента без непосредственного (процедурного) программирования и дизайнерских усилий, организует интерфейсную поддержку и импорт-экспорт при разработке тестов.
М-Тест – инструментальная среда для поддержки адаптивного тестирования и аттестации сотрудников. Позволяет конструировать мультимедийные задания основных форм, используя технологию связывания объектов OLE, создавать банки таких заданий, визуализировать результаты тестирования (протоколирование), вести статистику.
IRT–технология (методология) адаптивного тестирования, получившая название "Тест интеллектуального потенциала" для экспресс-диагностики интеллектуальных способностей людей различных возрастных групп.

Есть и другие аналогичные системы.

В заключение отметим, что системы обучения и контроля должны иметь критерии адекватности.

Отметим следующие критерии адекватности образовательных WWW-ресурсов:

качество закрепления материала (в частности, для тестирующих систем);
качество и структурированность учебного материала (для электронных учебников);
актуализация структурированного знания (для поисковых систем);
эффективная обратная связь (для образовательных телеконференций);
визуализация (для визуальных сред программирования);
виртуализация (для моделирующих сред);
создание новых операционных возможностей или актуализация "старых" новыми структурами (для микромиров);
связность нового и старого знания (для когнитивных сред);
обеспечение перехода на новый продуктивный уровень деятельности обучаемых (для креативных средств и сред);
снижение стоимости и времени (для CASE-систем);
повышение интеллектуальной поддержки процесса принятия решений (для нейросистем);
качество обеспечения коммуникативности (для интрасетей и экстрасетей) и др.

Образовательная система должна реагировать на наблюдаемые несоответствия и скачки в окружении, в обществе, адаптируясь и извлекая уроки из критических ситуаций.

Необходим переход от парадигмы обучения к парадигме учения, от парадигмы обучения к функционирующим изолированным системам. Необходима парадигма актуализации, усиления и изучения системно-синергетических связей открытой системы и ее окружения, изучения и предвидения эволюции систем. Особенно важно такое предвидение в образовательных системах, так как в них достаточно большой цикл эволюции.

Важно использовать в тестировании аутсорсинг