书签分享收藏举报版权申诉 / 21

立即下载加入VIP,免费下载

当前位置：首页 > 工程科技 > 能源化工 > 计算机自适应测验中测验安全控制方法评述.docx

计算机自适应测验中测验安全控制方法评述.docx

文档编号：23444440
上传时间：2023-05-17
格式：DOCX
页数：21
大小：38.30KB

《计算机自适应测验中测验安全控制方法评述.docx》由会员分享，可在线阅读，更多相关《计算机自适应测验中测验安全控制方法评述.docx（21页珍藏版）》请在冰豆网上搜索。

计算机自适应测验中测验安全控制方法评述.docx

计算机自适应测验中测验安全控制方法评述

本文由iris028贡献

pdf文档可能在WAP端浏览体验不佳。

建议您优先选择TXT，或下载源文件到本机查看。

心理科学进展2010,Vol.18,No.8,1339–1348AdvancesinPsychologicalScience

计算机自适应测验中测验安全控制方法评述*

李铭勇1张敏强1简小珠1,2

（2井冈山大学,吉安343009）（1华南师范大学应用心理研究中心,广州510631）

摘

要

计算机自适应测验在实际应用中曾经受到了测验安全问题质疑。

国内外学者主要从两种研究

思路提出了测验安全控制的方法：

一是控制项目的最大曝光率,沿着这个思路发展出来的方法有SH法、项目合格方法、多重最大曝光率法等;二是改进选题策略,沿着这个思路发展的方法主要是a分层法及其变式。

此外,近年来出现了测验安全控制方法之间相结合的研究思路。

本文从均方误差、项目曝光率、题库利用率等指标论述了测验安全控制方法的优缺点,并概述了这些测验安全控制方法的研究发展历程与发展思路,展望了今后的研究趋势。

关键词分类号测验安全;SH法;项目合格方法;多重最大曝光率法;a分层法。

B841说,项目的信息函数是：

1CAT中测验安全控制的研究背景

1.1CAT在教育与心理测验实践中的应用计算机自适应测验（ComputerizedAdaptiveTest,CAT）是现代测量理论与计算机技术相结合的产物。

与传统的纸笔测验相比,CAT具有诸多优点,例如：

它能够根据被试能力水平选择相适应难度的试题,进行施测;不同的测验成绩具有可比性;不需要安排在固定的时间、固定的地点;能够实时评分等等,使得国内外学者对CAT的理论研究和应用研究越来越多。

美国的许多大型考试,如GRE（研究生入学考试）、TOFEL、CGFNS（护士资格考试）、SAT（学术能力测验）、GMAT（美国商学院入学考试）、ASVAB（美国军队职业能力倾向测验）等都使用了CAT的形式;国内的一些考试也采用CAT形式,比如全国大学英语四、六级考试（试用阶段）、台湾初中升高中的基础知识测试（简称“基测”）等等。

1.2CAT的选题策略及由此产生的项目曝光率问题由于CAT根据被试能力水平选择能提供最大信息量的试题,因此一些测量性能优良的试题往往会被优先选择。

对于三参数Logistic模型来

收稿日期：

2010-03-28*广东省自然科学基金（9151063101000002）、教育部人文社科基地项目基金（2009JJDXLX006）资助。

通讯作者：

张敏强,E-mail:

zhangmq1117@1339

Ii（θ）=

（1.7）2ai2（1?

ci）[ci+e1.7ai（θ?

bi）][1+e?

1.7ai（θ?

bi）]2

（1）

其中a、b、c分别是区分度参数、难度参数、伪机遇参数。

由公式1可知,项目的a参数越大、c参数越小、（θ?

bi）越小,则越能够提供更大的信息量。

IRT中定义测量误差为测验信息量的平方根的倒数（漆书青,戴海琦,丁树良,2002）,即：

SE（θ）=1

∑I（θ）

ii

（2）

由公式2可知,测验信息量越大,对特质点

θ?

的估计标准误就越小,此时CAT能得到最大的

精确性。

因此,CAT的选题策略往往是最大项目信息量法或其变式。

基于最大项目信息量的选题,必然使高a参数、c参数的项目选中的几率非常大;反之,则低选中几率就低,甚至为零,这就导致了题库曝光的程度极不均衡。

试题曝光率问题在最早的CAT测验ASVAB-CAT就进行了探讨,并使用了试题曝光率控制方法（Sands,Waters,&McBride,1997）。

1.3CAT在实践应用中的试题泄露问题由于CAT不像纸笔测验那样,安排在固定的时间、地点考试,而是一年中反复举行多次,所以已经参加过考试的考生就有可能将试题泄露

-1340-

心理科学进展

2010年

给将要参加考试的朋友,这种考生之间的题目分享行为会导致得到试题的考生分数偏高。

而更为严重的是有组织的盗题行为（organizeditemtheft）,这会对题库造成巨大的伤害。

在CAT的历史上曾经出现两次较大的盗题事件,一次是1994年Kaplan教育中心的盗题事件（张华华,程莹,2005a）,另外一次是亚洲非法网站公布GRE真题事件,这两次事件都使得ETS公司被迫暂时放弃机考,即计算机自适应考试形式,改为传统的纸笔测验形式。

而自2002年8月7日,ETS终止了在中国内地、香港、台湾地区和韩国的CAT-GRE之后,至今尚未恢复机考形式,给这些地区的考生造成了极大的不便与困扰。

CAT是一种新型的测验形式,是考试方式的一次伟大变革。

如果仅仅因为测验安全问题而被迫暂时放弃CAT考试形式是非常可惜的,但是题库的容量是有限的,而题库又必须高频地运行,测验安全控制问题就变得极为迫切。

许多研究者都已经从多个角度与思路来探讨和研究测验安全问题。

2.1.1SH条件概率法及其变式1985年,Sympson和Hetter最早提出了控制曝光率的条件概率法（简称SH法）,它是一种利用条件概率对项目曝光率进行控制的方法,其根本思想就是在项目的选择和最终抽取之间,加设一个“过滤器”。

假定某一项目已经被选择,那么要不要安排这个项目给被试则取决于该项目的曝光参数P（AiSi）,对于比较容易安排给被试的项目,其曝光控制参数可以设为一个合适的值,使这些项目的最大曝光率不能超过某一个预设值rmax,而对于那些很少被选择的项目,他们的项目曝光参数可以最高设为1,以增加这个项目的曝光率。

具体说,在SH方法中要首先定义两个事件：

2测验安全控制方法及其发展评述

2.1各种控制测验安全方法的评述在CAT测验发展过程中,研究者已提出了多种测验安全控制方法,本文将这些方法归纳概括,详细介绍其中具有代表性的四种方法：

（1）SH条件概率法及其变式;

（2）项目合格方法;（3）多重最大曝光率法;（4）a分层法及其变式。

下面分别从它们的基本思想、方法与步骤、优缺点及其发展趋势进行论述。

Si：

项目i被选择Ai：

项目i被安排给被试项目i只有先被选择才有可能安排给被试,因此对于所有的项目i来说,Si这个集合包含Ai这个集合,即Ai?

Si。

对于给定的能力值为θ的被试,项目i安排给被试的概率是：

P（Ai）=P（AiSi）P（Si）（3）

公式3中,P（Si）的值与选题策略、题库中的项目、被试总体特质水平分布有关,一旦这些因素确定,P（Si）值就是确定的,那么要使

P（Ai）≤rmax,则只需要确定P（AiSi）值即可。

在SH法中,条件概率值P（AiSi）需要经过多次模拟仿真实验得到。

如果t=1,2,……表示模拟

的次数,那么在SH方法中,随着测验的进行,其条件概率的调试遵照下面的公式：

1if?

P（t+1）（AiSi）=?

maxtt?

rP（AiSi）P（Ai）if?

SH法是最早提出的使用条件概率控制曝光率的方法,此种方法的提出具有开创性的意义,为后人研究曝光率控制方法提供了思路。

但是正如vanderLinden（2003）,Barrada,Olea和Ponsoda（2007）指出的一样,SH法作为一个先导性方法具有其一些缺点：

首先,它只关注曝光率过高项目,未关注低曝光率或零曝光率的项目,所以虽然能够降低原本曝光率过高的项目的抽取概率,却不能提高那些曝光率过低或从未被抽取的项目的

Pt（Si）≤rmaxPt（Si）>rmax

（4）

抽取概率,所以题库的利用率并未得到显著提高;其次,SH法与最大信息量法同时使用时,测量的精度不能保证;第三,确定曝光参数值时,要通过多次模拟仿真试验,测验条件稍有改变,就须重新进行模拟试验,这个模拟过程非常耗时;第四,曝光参数的模拟依赖于被试能力分布,模拟曝光参数的被试分布要与实际参加测试的被试分布相符,否则其得到的曝光参数不能保证所有项目的曝光率低于rmax,而这个条件往往难以满

第18卷第8期

计算机自适应测验中测验安全控制方法评述

-1341-

足;另外,曝光参数在模拟过程中的收敛问题也困扰着研究者。

之后的十几年间,围绕这种方法展开了大量的研究,很多专家学者提出了SH方法的一些变式,如Davey和Parshall（1995）提出的DP法,Stocking和Lewis（1995,1998）提出的非条件化多项式法（unconditionalmultinomial,简称SL法）,以及Stocking和Lewis（1998）提出条件化的多项式法（conditionalmultinomial,简称SLC法）。

这些研究中模拟曝光控制参数时,设定一定的条件,使得曝光控制参数P（AiSi）的计算更快也更有效,在一定程度上改善了SH方法。

另外,Revuelta和Ponsoda（1998）提出了限制方法（restrictedmethod,简称RT法）,此法遵循了SH法的思想,但另辟蹊径,提出在题库运行中（onthefly）自动调试曝光参数为0或1,即若项目将kj+1值设为0,反之则为1,具体公式为：

IE法）,这种方法认为项目曝光的控制不是在项目选择之后,而是在被试参加测试之前。

也就是说,不是要决定选择的项目是否安排给被试,而是在项目选择之前就决定题库中的哪些题目对于被试来说是合格的,如果项目是合格的,那它就留在子题库中（或者叫做影子题库）,否则就从子题库中移除。

这个方法实施的关键是将能力分试参加测试之前就确定了项目对能力水平θk的合格（不合格）概率,每个能力水平θk对应一个子力估计值进入不同的子题库中选题。

对照SH法来看,要实施IE法首先要定义两个事件：

为不同的水平（abilitylevel）θk,k=1,……,K,在被

题库,在测试过程中,IE法只需根据被试当前能

i在前j个被试上的曝光率大于等于rmax时,则?

1if?

k（j+1）=?

?

0if?

P（Ai）

（1……j）

Ei：

项目i是合格的Ai：

项目i被安排给被试如果项目i是合格的,它就保存在对于被试j合格的试题的子题库中,否则就移出这个题

库。

类似地：

（5）

P（Ai）=P（AiEi）P（Ei）

（6）

这种方法有它独特的贡献,为以后研究项目曝光率方法提供了新的思路。

2.1.2项目合格方法vanderLinden和Veldkamp（2004,2007）提出了项目合格方法（itemeligibilitymethod,简称

但是与SH方法不同的是,IE法不需要用多次模拟仿真实验计算控制参数,而是吸收了RT法的思想,在题库运行中（onthefly）自动控制对

j项目合格的被试的概率,这个概率是P（Ei）。

P（Eij）值在题库运行中根据以下公式调试：

P（Ai1..j）P（Eij）≤rmaxP（Ai1..j）P（Eij）>rmax

（7）

1if?

P（Eij+1）=?

maxj1..j?

rP（Ei）P（Ai）if?

其中P（Eij+1）是项目i对j+1个被试合格的概率,P（A例。

IE法的优点有：

（1）不需要迭代模拟过程去确定曝光控制参数;

（2）曝光控制参数根据每个被试调试。

但是此法也有其局限性：

对测验精度、题库安全、题库利用率等的控制效果不明显;只能降低过度曝光项目的曝光率,并不能提高低曝光率项目的曝光率。

2.1.3多重最大曝光率法Barrada,Veldkamp和Olea（2009）提出了多重最大曝光率法（multiplemaximumexposureratemethod,即为multiple-rmax,简称MRM法）,此法在测验中的每一个项目位置（itemposition,若一位被试在某次考试中作答Q个项目,那么就有

1..ji

Q个项目位置）上都设置一个最大曝光率,其方

法与原理如下：

它的主要目标与其他所有控制项目曝光率的方法一样,就是使所有项目的曝光率低于一个预设值,即为：

maxP（Ai,1……q）≤r1……q

max1……q

）是项目i安排给前j个被试的比

（8）

其中r为q位置上项目i的最大曝光率,maxP（Ai,1……q）是前q位置中项目i的曝光率。

r1……q要满足以下三个限制：

maxmaxr1……q+1>r1……q

maxr1……q≥qn

（9）（10）（11）

r

max1……Q

≤1

由式9、11可以看出,随着项目位置q增10、大,此位置所允许的最大曝光率也逐渐增大,也

-1342-

心理科学进展

2010年

就是说测验中第一个位置上的最大曝光率是最小的,第Q位置上的最大曝光率是最大的,这样就可能避免当特质水平的估计还不稳定的时候,选择高a参数、低c参数的项目,而且还预示着随着测验的进行,将有更多的项目是合格的。

在MRM法中,每一个项目位置上都设有一个最大曝光率,项目i在q位置上实际的最大曝光率到底是多少呢？

对于一个项目位置,首先需要区分两种最大曝光率：

一是前q个位置上项目maxi所能允许的最大曝光率,如上所述,是r1……q;+二是项目i在第q位置上允许的最大曝光率tij,q1。

maxmax假设出现下列的情况：

r1……q?

1等于0.24,r1……q

max0.24,r1……q等于0.25,此时,项目1在第q?

1位置

上的曝光率为0.01,那么如果项目1在第q位置上允许的最大曝光率还是0.01的话,那么项目1的曝光率就被控制在一个很小的值了,这样是对项目1的浪费,因此,此时项目1的q位置上允许的最大曝光率是0.24。

所以q位置上允许的最

+大曝光率tij,q1为：

+maxmaxmax?

1..+1?

1..tij,q1=r1..q?

p（Ai1..jq?

1）=r1..q?

min[r1..q?

1,p（Ai1..jq?

1）]

（12）

1……+其中p（Ai1……jq1）是对于第j+1个被试来说,

项目i允许的曝光率。

MRM方法与IE法一样,都是在题库运行中（onthefly）调试控制参数的,项目i对第j+1被试在第q位置上的控制参数是根据以下公式调节的：

1..jj

等于0.25,那么在第q位上允许的最大曝光率即

+tij,q1是多少呢？

不是0.25,这个值应该是0.01。

如果项目1在第q?

1位上的曝光率达到0.24,在

下一个位置上是0.25的话,那么这个项目的总曝

max光率为0.49,就超过了限度。

同样地,r1……q?

1等于

P（E

j+1i,q

+?

1ifP（Ai,q）P（Ei,q）≤tij,q1?

）=?

1..jj1..jjj+1j+1?

P（Ei,q）ti,qP（Ai,1..q）ifP（Ai,q）P（Ei,q）>ti,q?

（13）

由公式13可以看出,MRM法与IE法（公式7）类似,只是将IE法中的r

max

疑,他们认为,无限大的题库是不存在的,而根据项目最大信息量法选出来的试题都是高区分度、且难度参数接近被试能力的项目,这样对高区分度的追求造成了题库创作人员的困境,同时,进入题库的题目都是精挑细选的,虽然区分度相对较低,但是也具有优良的测验性能,这样弃之不用是资源的浪费。

另外一个方面来讲,在测验开始之初,使用高信息量标准是无效的,因为此时的被试能力水平的估计值与被试的能力真值之间有一定的差距,所以此时并不需要使用高区分度的项目,这样高区分度的项目就可以留到能力估计较稳定的阶段使用。

基于此,张华华等人从改进选题策略的角度出发,提出了a分层最大信息量选题法（a-stratifiedmaximuminformationitemselectionmethod,简称a分层法）,遵循着这种思路发展了一些方法。

换成了t

j+1i,q。

MRM法实际上是吸收了IE法的思想,在题库运行过程中调试项目的合格概率;不同的是,它考虑到了项目位置,调试项目对每一个项目位置的合格性,这个过程更精细。

模拟实验表明,MRM法使得曝光率的分布更加同质;提高了题库的利用率;测验的重叠率降低;另外对于均方误差的影响很小,几乎可以忽略不计;能够提供更大的测验信息量。

但是MRM也存在一些问题：

（1）每个位置都有一个最大曝光率,若在某一个考试中,一位被试作答Q个项目,共有n个被试参加考试,那么将设置n×Q个最大曝光率,这个过程显然过于复杂;

（2）MRM法同时考虑了项目位置和项目合格概率两个方面,并进行了调试控制,这种严格的控制已经降低了测验精度,如果在实际题库应用中再加上内容约束（contentconstraints）的话,如此严格的限制可能进一步降低测验精度,甚至导致无可选项目。

2.1.4a分层选题策略法及其变式Chang和Ying（1996,1999）对传统的最大信息量法（maximuminformationmethod）提出了质

a分层法的目的是使得题库中项目利用更加均衡,其实质就是把项目的区分度（a参数）分层,

在测验的早期阶段实施低区分度的项目,测验的后期分别实施中等区分度和高区分度的项目。

基本的步骤如下：

步骤1：

根据项目的区分度参数把题库分为

第18卷第8期

计算机自适应测验中测验安全控制方法评述

-1343-

k层,第一层和最后一层分别包括区分度最小和

最大的项目。

步骤2：

k个项目层相匹配,整个测验过程与也被分为k层。

步骤3：

在第k阶段,从第nk层中选择项目,通过被试对试题的反应对被试的能力进行估计,然后选择并安排那些与被试的能力估计值接近的难度参数的项目。

步骤4：

从k=1到k=k重复步骤3。

围的大小;怎样根据项目难度的大小确定分区的数量,以及分区的数量是否会对能力估计的平均偏差和均方误差有一定的影响等等。

2.2评价测验安全方法的指标以上论述了测验安全控制的多种方法,在对这些方法进行评价或进行对比研究时,往往会使用多种评价指标,包括均方误差与偏差、测验重叠率、题库利用率、测验信息量、卡方统计量、最大曝光率观测值、过度曝光项目量等七种指标。

（1）均方误差（meansquareerror,MSE）与偏差（bias）：

均方误差与偏差是评价测验安全控制方法的首选指标,也是CAT模拟以及各种蒙特卡洛模拟时评价的常用指标：

a分层法最大的优点便是能够使得一些低区

分度项目的曝光率增加,使得项目之间的应用更加平衡。

所以a分层法在降低测验成本、提高测验效率、平衡测验曝光率、提高题库利用率方面比传统的选题策略有着一定的优势,并且分层选题策略使得项目的补充容易实现,并使得在线题库的操作与管理更加容易实现（张华华,程莹,2005b）。

但是,Chang和Ying（1999）提出的a分层法只不过是一个雏形,最初的模拟实验考虑的情况也比较简单,所以存在一些问题：

（1）它并不能确保所有的项目的曝光率都低于某个预设值之下,特别是当题库容量与测验长度的比值（nk）较小时,这种情况更加严重;

（2）a参数与b参数有一定的正相关（Lord&Wingersky,1984;vanderLinden,Scrms,&Schnipke,1999;Chang&vanderLinden,2003）,所以,在低a参数层中,某些能力水平的被试可能选不到与自己能力匹配的项目;（3）并未提出任何加入内容约束的技术。

针对这些问题,研究者们提出了a分层法的一些变式,包括：

b模块化a分层法（Chang,Qian&Ying,2001）、层间不平衡曝光率（unequalitemexposureacrossstrata）a分层法（Deng&Chang,2001）、内容模块化a分层法（Yi,Zhang,&Chang,2001）、0-1分层策略（Chang&vanderLinden,2003）,这些方法从不同的角度改进了a分层法,并通过模拟题库和实际题库的实验证明了这些变式相对于a分层法的优势。

Chang,Qian和Ying（2001）曾提出了a分层法亟待解决的多个问题,