托福成绩个位数惨案调查

by xiaolai on 2008/12/10 · 26 comments

in 留学问答

自从TOEFL® iBT考试在中国大陆实施以来,我就开始注意到有不正常的考试成绩存在——有些考生的某一单项成绩出奇地低,比如,三十分满分的单项成绩却最终只得了几分,并且还是在其他科目的成绩全都超过25分的情况下。2007~2008年度,我自己的学生中就有若干起这种所谓的“托福考试成绩个位数惨案”。这两天,天津的一位老师向我反映说他的学生中,11月底参加托福考试的学生几乎全军覆没,十几个考生在几个不同城市参加考试,结果均有“单项个位数的情况”。11月底考,12月中旬拿到这样的成绩,对中国考生来讲无异于“晴天霹雳”正砸在自己的头上;而申请最后期限马上就要到了,可竟然是一个“死因不详”结局——怎一“冤”字了得!

以下是一封给ETS的公开信。请所有遭遇“托福考试成绩个位数惨案”的考生在发email向ETS申请复议的时候,附上这封公开信。这封公开信无须翻译成英文,ETS不仅看得懂,也应该看得懂,看不懂也要想办法看懂——这是他们的义务和责任

目前我已经收集了超过120例的“托福考试成绩个位数惨案”详细信息,请遭遇“托福考试成绩个位数惨案”的考生如实填写并提交附在本帖之后的调查表,以便在未来可能的诉讼中充当证据

请有心的读者四处转帖本文,以便更多的“托福考试成绩个位数惨案”受害者有机会获得复议或者赔偿。


(公开信开始)


给ETS的公开信

ETS认为TOEFL iBT考试可以(也应该)为衡量考生的听说读写四个方面的语言使用能力提供公平、客观的成绩,为成绩使用者(如,高校的录取委员会成员)提供有效可靠的信息去作出有效的决定。[1]

TOEFL iBT:

  • Measures the ability to communicate by combining all four language skills – Reading, Listening, Speaking, and Writing
  • Is 100% academically-focused, measuring the kind of English used in academic settings
  • Provides fair and objective scoring
  • Provides valid and reliable information to support score users to make effective decisions

ETS知道考试成绩的可靠性是衡量一个考试质量的重要指标。可靠性之所以重要是因为它能够代表一个考试究竟能够多么一致地衡量考生的能力。考试,与其他任何衡量活动一样,很容易受到与所衡量之能力无关之因素的影响;此类无关因素会导致最终会反过来决定考试成绩之可靠性的所谓“衡量错误”。考试成绩越可靠,考试成绩使用者(往往指那些大学录取委员会的工作人员——他们要使用考试成绩来衡量最终录取哪些申请者。)才越有信心去用考试成绩做出与考生有关决定。在教育衡量中,考分的可靠性被认为是一个量化及评价考试成绩究竟有多么一致的统计指标。在ETS官方的一份调查报告中,ETS声称TOEFL考试成绩的 “Reliability Estimate”约为0.95。[2]

An important measure of the quality of a test is how reliable the test scores are. Reliability is important because it indicates how consistently a test measures test takers’ ability. Testing, like other measurement events, is subject to the influence of many factors that are not relevant to the ability being measured. Such irrelevant factors contribute to what is called “measurement error,” which in turn determines how reliable test scores are. The more reliable the scores are, the more confidence score users have in using the scores for making important decisions about test takers. In educational measurement, score reliability is a statistical index to quantify and evaluate how consistent test scores are.

目前的TOEFL iBT成绩从听说读写四个方面衡量考生的英语能力。人们公认这些能力是相互关联的;ETS的官方一份文件中也提到“在其中某一个方面(听说读写)中相当熟练的人倾向于在其他的方面也会很熟练。在这份文件中,ETS的数据表明,听力成绩与阅读成绩之间的“关联系数”是0.69~0.71。也就是说,如果一个考生的听力成绩是20分的话,那么,按照相关系数0.7来计算,他的阅读成绩大约应该在14~28分之间——如果1) 该考试(TOEFL)被设计得足够科学、合理、精确;2) 考试成绩没有被过分意外的情况所干扰。[3]

The three sections of the TOEFL test (Listening, Structure/Writing, and Reading) are designed to measure different skills within the domain of English language proficiency. It is commonly recognized that these skills are interrelated; persons who are highly proficient in one area tend to be proficient in the other areas as well. If this relationship were perfect, there would be no need to report scores for each section. The scores would represent the same information repeated several times.

注意: 这份文件说提供的数据与说明是针对纸笔版托福考试(pBT)以及计算机版托福考试(cBT)的;目前还没有找到关于网考版(iBT)的同等说明,不过,考试设计机理应该大致相同,而改革之后的考试应该更加准确才对。所以,这份文件的数据依然应该可以用作判断托福网考版考试成绩可信度的依据。

在ETS的一份专门的的研究报告中,研究者们对2007年1月至8月之间那些重复参加托福考试,且两次考试之间相差不到30天的考生的考试成绩进行调查统计,最终得到的结论是这些考生的两次考试成绩之间相差无几。由此研究者认为这种两次考试成绩之间的相互关联是托福考试成绩可靠性的体现。[4]

Repeater Analyses for TOEFL® iBT

In this special study, the test performance of repeaters who took a second test within 30 days of having taken a first test in the period from January to August 2007 was examined and evaluated. Small changes were observed in the test scores between the repeaters’ first tests and their second tests. In addition, the effect sizes of the mean score changes of the four sections and the total score were found to be small, reinforcing the fact that the mean score changes are negligible. High to moderate correlations between the two test scores indicated a high degree of consistency in repeaters’ rank orders of their scores. In the context of the data used in the study, the correlations are reflective of the test-retest reliability of alternate forms except that the data were not collected from a controlled design.

可是,从2006年开始在中国大陆举行的托福网考(TOEFL iBT,也被称为新托福)考试成绩却似乎并没有ETS自己认为的那么可靠。自从新托福考试在中国大陆地区开考以来,频繁出现所谓的“托福成绩个位数惨案 ”。即,很多考生在听说读写四个单项成绩中竟然有一项或者两项的成绩仅为个位数(各项满分为30分),比如,7分、6分,甚至更低;而与此同时,这些考生的另外几项的成绩却可能都在20分以上。这样的成绩显然是不正常的,因为两个科目之间的相关系数远远低于ETS声称的0.69~0.71这个区间(TOEFL iBT Score Reliability Generalizability)。

这样的成绩不合理的另外一个证据是,很多学生在某项单科获得“个位数成绩”之后,往往选择马上重考而非申请复议——因为对中国学生来讲,申请过程相当繁杂,且时间限制非常紧迫。这些学生为了能够在最后期限之前寄出达到要求的成绩,只能选择马上重考,而不是耗费大量时间精力与位于海外的ETS考试中心联系申请复议。因此,他们第二次考试与第一次考试之间往往没有超过30天。可是,在第二次的考试成绩中,上次获得个位数成绩的那个科目往往会出现10分或者更多的提高。如若ETS的研究报告(Repeater Analyses for TOEFL® iBT)是正确的,那么就不应该出现三十天内的两次成绩如此相去甚远的情况。

我个人的猜想是ETS并非故意,大抵上应该是因为网络数据传输过程中出现了差错。过去的纸笔版考试中,少数考生可能因为涂答题卡时“涂串行”了而导致极低的成绩——那个时候很多考生是现在试卷上选择标记而后集中涂卡。但是,现在的网考是基本上是答一道题提交一次答案,不可能出现“批量出错”的可能性。我个人认为,如果最终证明“个位数惨案”的责任不在考生身上(那么就一定是在ETS身上,至于ETS哪儿错了,我们无需指正;考生对“ETS无责任”没有“举证责任”,相反,ETS必须对“责任并不在ETS”举证),那么ETS就应该退费给那些“个位数惨案”的受害者。尽管,中国考生至今尚无提出“赔偿”要求,并且为了求学而不得不承担更多的考试费用。

ETS的TOEFL考试是一种收费服务,原本服务出了问题就应该退费,而后还可能需要补偿——很多考生可能会因此错过出国留学的机会,而这甚至可能对他们的一生产生重大的负面影响。然而,现在的ETS对中国大陆地区考生所获得的“反常”成绩置若罔闻。很少有考生公开报告自己的“个位数成绩”最终获得了纠正。基于种种原因,中国考生并没有恰当的途径以及足够的法律援助来起诉ETS,用法律手段捍卫自己的权利。这封公开信的目的并不在于“起诉ETS”,而在于敦促ETS尽快正视这种反常现象,及早拿出相应的解决方案。中国考生已经相当宽容、质朴,几乎每个受害考生第一个想到的都不是“起诉ETS”,而是先沮丧不已,再后申诉未果,最后再缴纳1370元人民币重新参加一次托福考试。我提议ETS就算不退费给“个位数惨案”的受害者,也起码应该“尽快为该考生免费安排一次托福考试”。这种“退而求其次” 的要求,是ETS必须认真考虑的。

(公开信结束)


ETS投诉信箱

  • US: toefl@ets.org
  • BJ representative office: etan@etsasiapac.org


补充:ye同学提醒说:

相关系数的计算受到了听力和阅读总体的分布情况的影响、听力和阅读的期望和方差,以及它们在各个分数的分布情况都会影响到相关系数的结果,它是反映两个变量总体之间相关程度的指标。因此,知道了相关系数,并不能知道具体的某个听力分数,对应的阅读分数的范围。因为它受到了其他分数段的影响。”我觉得,相关系数是算出来的,于是就应该能够倒推。听力20分,阅读14分,那么它们相关系数是0.7;听力20分,阅读大约28分,那么它们相关系数还是0.7″这个地方的倒推是不正确的。http://baike.baidu.com/view/172091.htm这里有公式,您可以看看。

至于惨案学生的前后两次成绩的统计分析,我是同意您的看法的。我的意思是您可以在后续的工作中注意这一部分的统计分析,因为这个是强有力的证据。

不过,在ye同学说的确实在理的情况下,尽管不能“确定范围”,但如若两个单科成绩相差太大(或者大到一定程度)则必然可以导出“出问题了”的结论。


Footnotes:

  1. http://www.ets.org/Media/Research/pdf/TOEFL-SUM-0506-iBT.pdf, page 4 []
  2. http://www.ets.org/Media/Tests/TOEFL/pdf/TOEFL_iBT_Score_Reliability_Generalizability.pdf []
  3. http://www.ets.org/Media/Tests/TOEFL/pdf/989551.pdf, page 24~25 []
  4. http://www.ets.org/Media/Research/pdf/RM-08-05.pdf, page 10 []

{ 26 comments… read them below or add one }

Jawley December 11, 2008 at 00:43

已经发了投诉信

Reply

zec December 11, 2008 at 14:29

感谢笑来老师!作为困惑并深陷难过的双次不同项单分考生,坚决申诉到底。

Reply

Name December 11, 2008 at 20:19

谢谢老师 万分感谢…..

Reply

Name December 12, 2008 at 10:41

昨天给北京和美国总部分别发了投诉信.美国总部的回信还是那样,机器计分,不能复议.

Reply

Name December 16, 2008 at 22:34

我的听力前次考了17,继续复习,一个月后仅考3分,而阅读28.给ETS邮件,完全每一反应,感想少来老师。。。。。虽然都是一年前的事情,搞得我都放弃了。

Reply

emily December 19, 2008 at 12:48

老师,我也写信了,可是似乎没有反应。
这样不是很不公平么?
我们都是好好准备了的啊。他们也不打算给我们安排重考么?
说出去真的是太搞笑了,谁会相信是ETS的问题。
冤枉来,搞得我心情啊没有了。怎么会有这种事情的。

Reply

李笑来 December 19, 2008 at 13:21

我个人认为这几乎肯定是ETS的问题而不是考生的问题。
但,作为考生,现在最佳策略是赶紧重新报名,再次参加考试……

Reply

陈翱 December 24, 2008 at 19:10

4 2 13 17

Reply

陈翱 December 24, 2008 at 19:11

再差也不至于个位数吧 再说我是口语比较差 还指望前两门拉分呢 怎么投诉?投诉信寄到哪里?

Reply

李笑来 January 4, 2009 at 12:42

ETS投诉信箱

Reply

日月山人 January 14, 2009 at 13:56

 托福,我不留学可考否

Reply

cocokong January 15, 2009 at 21:46

强烈赞同!!非常痛苦啊,我12月21号考的,眼看很多学校就要截止了,这周二
终于出了成绩(超过了15个工作日的说)
结果是:阅读22   听力6    口语22   写作21   总分71
坚决不相信这个结果,然后在网上搜,发现原来许多人和我一样的,by the way,
当天我的听力做的挺好的,6篇有5篇绝对听懂了且有把握,最后一篇听懂了general idea         
我的第二部分确实是自动调转的 ,没有按continue,  按照网上的说法,这样便可能上传不了。
只好重新考一次了,唉,很多学校快要截止了,着急啊,东西12月初就寄送到
了,学校总催着要托福成绩,还是寄给他们了,附了份邮件说明,说我觉得listening 可能是miscalculate,,,and i’m negotiating with the ETS ,不知道这样说行不行呢?反正没上80的话学校管你出什么意外也不会考虑你的,是不?5555555
by the way ,最近在狂看笑来老师的书呢。

Reply

jolanda January 31, 2009 at 13:25

强烈鄙视ETS的这种行为,我给ETS发投诉信了,他们的回信说“unfortunately,XXXXX,XXXXXXXX”,一句unfortunately就把我打发了。。。我是1月10日考的,昨天拿到了成绩,听力单项也是6分。。。后来发现网上有这么多有着跟我一样遭遇的同胞们,心里踏实多了,我们一起加油吧。。。有实力,就不怕。。。

Reply

Samatha January 31, 2009 at 16:16

我昨天查了成绩看到听力只有8分,吓了我一跳,我怎么错也不会只有个8分!那时候我真的超级失望,还一度怀疑自己的实力,后来知道有许多人都有一样的情况,我才对自己重拾自信,我现在对ETS已经没有信心了~~我拾1月10号考的,现在已经不能报名重考了,没有位置了,因为我申请的学校DEADLINE不是过了就是2、3月份的,痛苦死了~~~555555

Reply

Ashley March 12, 2009 at 15:38

我是09年2月22号考的…虽然说我不是什么牛人,但是我的水平也不会达到那么差阿,我在做模考时,阅读最低分都有13,这次这有4分;听力最低都有16分,这次只有2分…我口语说得不是很好而且1、2题说的内容有点重复,这都有15分。写作也是12分…综合没写好…一个Llimited+fair
看到我的阅读和听力成绩,自己感觉有点蒙了…我水平再差不至于到这个地步吧…模考都有60多分…
 

Reply

lega March 17, 2009 at 12:16

今天成绩刚出来,吓我一跳:听力才7分 unbelievable! …其他各项 :21 阅读 19口语 21写作  敢问ETS :听力才7分,而口语和写作都是和听力有关的,而且考听力时状态明显比后两项好(因为听力先考,所以精力比较充沛),我的加试又是在阅读,怎么可能啊 。。。 郁闷中。。。谁能给个说法啊 。。。

Reply

lega March 17, 2009 at 12:45

我还记得有一个听力计时部分的最后一题 由于是个多选题 我想了挺久的 结果没有注意时间 点完NEXT 刚想点OK 时间到了 ,没有点到 。。。不会是因为这个吧。。。如果是那样的话,ETS的考试系统也太烂了。。。严重的BUG。。。

Reply

水魅 April 23, 2009 at 17:46

投诉信都发了,至今无果!!!气愤!

Reply

大海 May 30, 2009 at 00:35

国弱则民弱。
可怜的考托福的学子,可悲的托福考试。
而什么时候外国人来中国会需要考试呢?
什么时候我们学外语是为了知识,而不是为了去美国呢??!!

Reply

青闪 June 16, 2009 at 21:48

虽然不了解具体情况,但“相关系数”这个词指的是两者间的相关性,即它们的关联性是0.7,例如,假如听力成绩=阅读成绩*1.5,且在所有人中都是这样的关系,则它们的关联性是完全关联,即相关系数为1,假如听力成绩=阅读成绩*2.8,结果也是一样,它们的相关系数仍然是1. 相关系数为0.7仅代表两者的相关性较高而已,而且是一个正相关,即一者上升,另一者也一定上升
至于能够代表听力成绩=20分,阅读成绩即应该为14分或28分的指标,是两者间的回归系数或者偏回归系数,通常用β表示。β=0.7,则阅读成绩应为14分,β=1.4,则阅读成绩应为28分,通常β是有一个可信区间的,即可信的变化范围。
相关系数和偏回归系数完全是两个概念,补充说明一下

Reply

yuxinran July 18, 2009 at 11:20

我是6月27日考的托福,我的听力成绩只有1分,当时我就蒙了,我就是在差劲也不至于打1分,因为是第一次考试想检验一下自己的听力水平,这下可好了,花钱考试当炮灰了,惨痛的经历~~~

Reply

悉尼 July 21, 2009 at 13:39

即将准备考试。。。。
心里面惶惶阿

Reply

阿珞 July 24, 2009 at 13:13

当年我也是考了个听力9分
R29 S23 W23 L9
我看到分数差点撞墙。。。。
9分。。。。
 

Reply

Cindy August 27, 2009 at 17:21

09年3月22号考的托福,一战考出来感觉还很不错。
估计起码能上85分,平时模考也有87-95分
(平时模考听力稳定于24分,最低为18分)
结果出来,狂哭了一整天,
总分75,阅读27,听力7,口语17,写作24
虽然此事已经过去近半年,且二战在即。
但这给本人造成极大打击,至今尚难释怀。
经朋友介绍,得知笑来老师如此支持并帮助惨案学生,
特将信息提供,并表示万分感激。
来自;广州广外云山教室惨案之考生

Reply

潇潇 June 5, 2010 at 15:53

今天我也很伤心,我已经二战托福,却听力一次8分,一次7分,我不知道这是为什么啊?第一次 READING 21 L 8 S17 W
第二次 R 26 听力只有7分 S 20 W20 .
真不知道为什么
为了争口气,我们拼了 ,大家好好考 ,我就不信每次都这样

Reply

winster June 8, 2010 at 21:32

我也是,听力6分,其余三项20左右。为何大家都是听力出问题,系统设计有缺陷?一个大的程序,肯定是由很多程序员编写、调试的,比如,某一段计分程序的算法有问题?

Reply

Leave a Comment

Previous post:

Next post: