每到美国和加拿大研究生院留学申请开始启动的季节,定位评估和后面的选校总是大家关心的热门话题。这篇文章比较深入的说一下定位评估的问题,但是请注意,不是说你该如何定位评估,而是说定位评估的过程或者人的问题。
我眼中理想的定位评估的模型/过程是这样的:一个自动化的系统,用户(也就是申请人)把自己的详细背景输入,然后可以查找所有跟这个申请人背景匹配的申请记录(每条记录包括前申请人详细背景+结果);系统本身也可以在众多的申请记录中进行计算分析,根据以有的信息来预测申请人的申请结果范围。- 作data mining, machine learning的同学,听了我的这段描述,估计更明白我在说什么
这个系统当然不是必须做成软件来自动化处理,手工分析的也可以,软件只是更省时省力更不容易出错而已;预测结果肯定也不是100%准确,指望100%准确说明你的期望值有问题。
目前有些网站号称作了什么定位评估选校系统,最简陋的里面好像只有点gre分数等少数几项。感觉此类系统都没有多大参考意义。
如果想有能力做出定位评估的话,无论是人工处理,还是用史上最NB的计算机,你都需要一个不可避免的前提条件:收集到足够的申请数据作为比较分析的基础。换句话说,如果哪个网站或者系统或者个人,收集的数据太少甚至没有数据,就在那里空喊着可以评估,那纯粹是扯淡。至于根据gre, ibt成绩就能推荐学校,这个就更弱智了。
此外,如果谁喊着自己有庞大的数据库,甚至上万条数据可以拿来比较,那也应该是扯淡。原因很简单,他们没有这样大的数据,就算真的有什么地方有,数据的准确性也是大问题。原因如下:
1)申请人拿到了offer到网上汇报,无论是公开论坛,还是各个高校的bbs,经常动不动就是某人出来说我拿到了XX大学的offer,但是没有任何背景信息,有的人甚至说自己“背景一般”“背景弱”这种你看了也不知道到底“一般”或者“弱”到什么地步的话。如果你仔细研究一下各个bbs每年的 offer/ad汇总,就会发现,里面的很多条记录除了说明某人拿了某校的offer/ad,其他的信息,尤其是申请人的背景信息,少得可怜。
再考虑到每年上网来问问题的人里面,很多人就是连背景都说不清楚就问该如何定位,出现这种情况就可以理解了。
2)即使offer/ad中提供了背景信息,很多人提供的还是太少,或者是很模糊的比如gpa 3.4,到底是什么算法算出来的?按照90A,80B这种bt算法,哪怕88/89这种算是高分的百分制gpa也有可能被算成3.4;有的写着211的 cs本科,那到底是武大交大还是农大矿大油大地大?
3)即使提供了详细准确完全的分数信息,有关科研部分的描述也是很模糊的,比如说“有sci/IEEE论文两篇”,就是典型 — IEEE不少烂会,你中了这种会议跟中了本领域比较好的几个会议/期刊,完全是两回事。
4)如果哪个机构有几千客户,真的把信息详细准确完整的记录下来整体成系统,并且如实地给你评估,那这个系统本质上说明了 “你这个背景,如果用我们公司的服务,结果会是这样的”而不是说明“你这种背景,结果本来应该是这样的”。
说到这里,相信大家就明白了,光是收集数据就是大问题。如果谁说Warald在诬蔑他的定位评估系统,那很简单,请告诉我你是如何解决以上问题的?你是如何收集到详细准确完全的申请信息的?
to make it even worse,我再加上两条更狠的 :
5)申请数据,基本上是成功者的申请数据,而不是所有申请人的。申请失败者,基本都闭嘴了,所以你满眼看到的都是 gpa 3.X, 托福Y分,拿到了什么offer,至于同样是 gpa 3.X,托福Y分但是申请失败了的,你是看不到的。换句话说,“我的详细背景如下,申请某个目标,能否成功?“这个问题,offer/ad汇总是不可能告诉你的,能告诉你的,是“如果成功的话,成功申请人的背景是这样的”
6)有些申请成功者,是不出来汇报结果的,尤其是些牛人,拿了offer,觉得天经地义根本不值得叫嚷;同时,如果谁背景很弱,但是拿到了很好的结果甚至创造奇迹,激动之余出来汇报一下的可能性更高,但是很可惜,这种例子可复制性极低。
可能有人要反问我,问我如何解决上面的问题,我是如何做定位评估丶分析申请的?答案是我也没办法,无论是有些人不报成功/失败的申请记录,还是汇报的背景信息太少太模糊没有参考价值,没有人有能力解决。
申请期间跟我联系过的人,应该都明白我的数据收集过程:
a)我严格要求提交评估表格,里面把各项信息都交代清楚;
b)在汇报offer/ad结果的时候,要交代详细的背景信息,否则作用很少,大家可以参考这里
c)申请结束以后,我给跟所有提交过评估表格的人联系,询问/调查申请结果。
d)每年都很多人来跟我询问申请问题,尤其是春天出结果的时候,这些人因为问题迫在眉睫,一般也都提供特别详细的信息,甚至有人后来把跟老师面试的全过程录音都给了我,让我帮忙分析。
感觉我手里掌握的总申请数据也许不算是最多的,但是要说到“可用丶有用”的数据,还是有一定数量的。
如何吸引别人来汇报“详细准确完整”的背景是个问题,但是光是收集数据还不够。问题的关键,不光是把这些信息“要”来,而是收集了申请人的基本信息以后,后台怎么处理怎么判断。我认为目前计算机软件是做不了的,而且软件只是载体,真正的处理分析算法才是关键。留学申请不是什么惊世骇俗的大东西,但是里面包含的变量太多了,再加上数据集/training set的问题,我觉得很难用什么算法处理好。
如果要人工处理,那对个人的能力和经验就有很高要求了。
我每年的申请都是自己亲手处理的,保持对申请的敏锐和经验,客户的覆盖范围也比较广泛,从定位在牛校的offer到一般的全奖丶冲击名校的ad丶挣扎着给全奖就去丶重复读硕士学位丶海外兵团申请丶甚至本科gpa<70挣扎着要ms ad的,都包括了。关于我的能力和申请战果的问题,这个blog里的文章,加上我的历年申请总结,尤其是《美国高校offer纪念碑》和《美国高校ad纪念碑》贴出来的offer/ad样本,就是很好的说明了。
基本上,我是靠个人能力和经验,外加收集的和送上门的各种数据/信息,这就是我定位评估的基础。
话说我前几年就考虑搞个网上自动定位分析系统了,但是一直没敢动手,感觉即使做出来,也太不严格了,怕误导别人,所以还是坚持人工分析。
也要提醒大家,无论是我的人工分析,还是将来真的出现什么很NB的算法/软件,下面的几个问题,应该都是无法避免的
7)你的背景越不典型,定位分析的准确性就越低,极端的例子比如材料专业material science & engineering申请EE全奖丶你们学校跟yale老师有合作每年都有人去丶学校+GPA很牛但是g/t非常弱丶gpa爆低但是g/t爆高或者有牛论文丶你申请的专业太偏太小等等 — 有些此类问题你很难在申请之前知道结果,只能尝试着来。
8)任何分析,都只能是粗略的谈概率/可能性大小,或者用我现在常用的说法:“一般情况下”如何如何。- 别人也只能提提看法,最终要你自己做好细节工作,把无论大小的概率转化成结果。
来源网络