在线网校!

学习乐园-网校学习乐园

当前位置: 主页 > 外语类考试 > 托福 >

托福考试指导:名师解密托福加试题目

在 TOEFL 考试的阅读和听力部分中,有的考生可能会面临出现多一篇文章的情况,中国大陆将该情况称之为加试。在ETS的众多已发表文献中,我们已经可以探索出加试的目的。本文结合自1970年至今来ETS发布的研究报告和尚未解密的数据清楚的阐释加试的定义,目的,

  在TOEFL考试的阅读和听力部分中,有的考生可能会面临出现多一篇文章的情况,中国大陆将该情况称之为加试。在ETS的众多已发表文献中,我们已经可以探索出"加试"的目的。本文结合自1970年至今来ETS发布的研究报告和尚未解密的数据清楚的阐释加试的定义,目的,和实际作用。

  加试部分的官方名字叫做"Normalizing Part",其目的是为了normalize the test。TOEFL采用的是norm-referenced 而不是criterion-referenced 评分标准,GRE也是如此,也就意味着每次的考试成绩分布应该如(B)图所示,简单来说,TOEFL是典型的high-stake standardized test,多次考试的成绩应保持一致。举例来说,2013年9月1日和9月7日的中国大陆平均成绩应保持一致,因为如果没有证据显示样本能力有显著提升,短期之内总样本量的平均成绩应该没有太大变化。可是事实上,每一次考试的数据都会有所变化,成绩分布有可能出现(A)情况-即大多数考生成绩过高(并不意味着试题难度简单),也有可能出现(C)情况-即大多数考生成绩过低(并不意味着试题过于困难)。

名师解密<a class=托福加试题目" />

  TOEFL考试需要保持其Construct Reliability 需要其每一次考试都将整体考试的数据进行normalize,其采用的是item response theory (IRT) framework,每次考试的主体题目不同,只有加试部分一致,因此加试相当于一个 "Anchor block"来equating整体考试的成绩。因此,TOEFL考试你会得到一个raw score,你的这个成绩会放在整体数据图表中形成一个curve, 整个curve会slightly skewed,根据加试的anchor,所有考生会被normalize, 以得到一个最后的scaled score。A考生在9月1日的100分和9月7日的100分并不意味着做对了同等数量的题目。加试的目的只在于保证多次考试之间的reliability,并不对个人考生有所影响。

  下面是一个702个test-taker的数据,左图为raw score, 右图为normalized过的scaled score:

名师解密托福加试题目

  下图对比了加试部分对于真实成绩的影响,左图为strongly correlated, 右图为weakly correlated.

名师解密托福加试题目

  Normalization的过程主要和统计学相关,也就说加试和个人的成绩并无任何关系,即使不做也是不算分的,然而考生的个人加试成绩会影响总体的数值,对所有考生的成绩同时产生影响。最后3点启示:

  1.当你报考的考试日里大部分人都看到了命中的机经,整个成绩会negatively skewed, 你的成绩会比raw score要低,当你报考的考试日出现了没有看过的题目,大部分人的成绩可能不够好,整个成绩会positively skewed,你的成绩会比raw score要高。

  2.加试部分的特点是多次重复并已经被分析过,中国的"经典加试"就是normalizing的部分,并不存在所谓的"不知道哪一部分是加试"的说法。

  3.ETS明确表示Equating cannot adjust scores correctly for every individual test-taker,也就意味着该过程对总体负责,但对个人成绩可能有所偏差。

  NOTE:

  Angoff, W. H. (1984). Scales, norms, and equivalent scores. Princeton, NJ: Educational Testing Service.

  Holland, P. W., & Thayer, D. T. (1987). Notes on the use of log-linear models for fitting discrete probability distributions (Program Statistics Research Technical Report No. 87-79). Princeton, NJ: Educational Testing Service.

  Holland, P. W., & Thayer, D. T. (1989). The kernel method of equating score distributions (Program Statistics Research Technical Report No. 89-84). Princeton, NJ: Educational Testing Service.

  Holland, P. W., & Thayer, D. T. (2000). Univariate and bivariate loglinear models for discrete test score distributions. Journal of Educational and Behavioral Statistics, 25(2), 133-183.

  Kolen, M. J. (1991). Smoothing methods for estimating test score distributions. Journal of Educational Measurement, 28, 257-282.

  Kolen, M. J., & Brennan, R. L. (1995). Test equating. New York: Springer.

  Liou, M., & Cheng, P. E. (1995). A symptotic standard error of equipercentile equating. Journal of Educational and Behavioral Statistics, 20(3), 259-286.

  Livingston, S. A. (1993). Small-sample equating with log-linear smoothing. Journal of Educational Measurement, 30, 23-39.

  Livingston, S. A., Dorans, N. J., & Wright, N. K. (1990). What combination of sampling and equating methods works best? Applied Measurement in Education, 3(1), 73-95.

  Lord, F. M. (1980). Applications of item response theory to practical testing problems. Hillsdale, NJ: Lawrence Erlbaum Associates.

托福


 

(责任编辑:学习乐园)
------分隔线----------------------------
热点内容
高顿网校中级会计职称课程免费领