更新时间:2021-11-29 20:03:49
语言初创公司Duolingo使用AI和机器学习来自动创建和评估英语水平测试。论文发表于《计算语言学协会期刊》。其中,研究人员公布了Duolingo English Test的系列基础算法,这是一项每小时49美元的在家评估,已被包括哥伦比亚大学、麦吉尔大学、纽约大学、伦敦大学学院和威廉姆斯学院在内的2000多所大学课程接受。
人工智能生成的测试,如多林戈,对于那些希望在疫情期间雇佣英语作为第二语言的雇主来说,可能是天赐良机。英语作为外语考试(托福)等能力评估要求考生去有监管的地方,这在行政命令要求关闭非必要业务的国家是一个难题。多林戈发言人可能不会感到惊讶。他说,全球和中国的考试分别增长了300%和375%。自疫情开始以来,已有500个新项目开始参加多林哥英语考试。
正如本文的合著者所解释的,多林哥英语测试借鉴了心理学的项目反应理论来设计和评估测试能力的测量。它是大多数高水平现代标准化考试的基础,并假设对测试项目(即问题)的响应由代表考生能力和问题难度的离散函数建模。幸运的是,对于多林戈来说,这个例子非常适合目标是估计能力和难度等变量的任务。可以创建问题并与受试者一起测试,以产生成对的等级(对与错)(检查,问题),然后可以从这些参数中推导出潜在候选人能力的参数。
计算机自适应测试(CAT)技术通过将更难的问题分配给能力更高的考生,使Duolingo能够设计更有效的语言测试,反之亦然。迭代自适应算法在测试过程中观察考生对问题的反应,并评估他们的能力。然后,根据当前估计值的效用函数,选择下一个问题,然后重复这个过程,直到测试完成。
对于多林哥英语测试,多林哥设计了一个100分的评分系统,对应的是欧洲共同参考框架(CEFR),一个描述外语学习者阅读、写作、听力和口语能力的国际标准。随后,该公司的研究人员采用了一系列不同的测试格式,包括:
是/否,评估词汇广度(文字和音频)的词汇测试会有所不同,考生会得到文字和音频的答案,英语单词一定要和英语伪词(在词法和发音上合理的单词,但不是英语)区分开来。
C-test格式,通过提供单词被“损坏”的考生段落(通过删除对方单词的后半部分)并要求他们填写缺失的字母来衡量阅读能力。
通过让考生抄写录音来利用听力和写作技巧的听写测试。
挑剔演讲任务,要求考生大声说一句话。
为了追求一种可以根据难度对问题进行排序的词汇测试算法,使整体能力测试中的问题顺序与能力相适应,多林哥建立了一批语言学博士学位并具有英语教学经验,并根据CEFR水平(从“初学者/突破”到“精通/精通”)编制了一系列标记词表。他们把这个语料库输入人工智能模型来训练它们。他们报告说,这些模型最终了解到高级词(甚至是伪词)很少,而且大部分都有Greco-Latin词源,而基本词很常见,大部分都起源于盎格鲁-撒克逊语。
对于C测试,多林戈使用了从在线资源中收集的一系列语料库,包括英语自学网站、英语水平测试的备考资源、为Simple English重写的英语维基百科文章以及众包英语句子数据库Tatoeba——结合回归和排名技术构建了一个长格式AI模型。该模型首先在标记文本上训练,然后在具有相似语言特征的未标记文本上训练。它不仅能学会预测给定C测试的难度,还能预测听写和引用测试的难度。
事实上,Duolingo报告称,经过训练的模型在85%的较简单段落中正确地对较难的段落进行了排名,其预测与四个专家组的预测相似。研究人员利用这些预测,从语料库中的段落和专家撰写的400多段文字中自动生成C-test项目。
最后,需要创建一个CAT管理算法,自动将所有问题提供给多林哥英语水平的考生,多林哥英语水平已经经过25000多个测试项目的训练,能够智能地循环显示格式(例如,是/否词汇文本或音频、c-test、听写和触发)。在随机选择前四道题后,算法会估计考试分数,据此选择下一道题的难度进行采样,然后重复这个过程,直到测试超过25个项目(或40分钟)。
在真实的测试场景中,在每天采集的数百万个数据点上训练的AI的帮助下,人类导师在多轮中检查每个测试会话的大约75个行为,以检测违反规则的行为。此外,在测试过程中,计算机视觉算法将验证候选人的身份(通过网络摄像头),如果他们试图访问外部应用程序或插件,测试将自动取消。
本文合著者在2018年进行的21000场考试中对50多万名考生-问题对的分析表明,多林哥英语考试的排名与传统人类飞行员考试提供的排名几乎相同。此外,本次考试与英语评估(如托福和国际英语考试系统(雅思))的相关性“显著”(0.73),在信度(考试的一致性和稳定性)和考试安全性方面均达到行业标准。(多林哥发现考生平均能参加1场左右。
,000次测试,然后才能再次看到相同的测试项目。)在将来的工作中,Duolingo研究人员计划调查能力相同但不同子组(例如性别或年龄)的人在测试问题上获得成功的不平等概率的程度。此外,他们希望研究是否可以将诸如叙事性和词具体性之类的其他指标纳入Duolingo英语水平模型中,以预测文本的难度和理解力。
为此,最近发布的测试版本包含更多细腻的口语和写作练习,并且具有更高的测试分数可靠性。
“英语是在Duolingo上学习的最受欢迎的语言,许多学习者还询问我们是否可以正式认证他们的英语技能,以帮助他们获得高等教育和更好的工作机会,” Duolingo机器学习科学家Burr Settles和评估科学家Geoffrey LaFlair在今天发表的博客文章中。“ Duolingo是一家以使命为导向的公司,我们创建了Duolingo英语测验以打破高等教育的障碍。结果,我们了解到,一种在线的,个性化的测试方法不仅对于增加访问量很重要-这是一项必不可少的创新,正在重塑我们所知道的教育体系,我们很高兴能引领这一潮流。”
Duolingo在支持AI的英语测试方面的投资与在其语言学习平台核心上对AI的改进相吻合,该语言旨在通过自动针对每个语言学习者量身定制课程,从而使课程更具吸引力。统计和机器学习模型(例如半衰期回归)可以分析数百万用户的错误模式,以预测一个人长期记忆中每个单词的“半衰期”,并帮助幕后内容创作者量身定制初学者,中级,和高级材料,Settles在去年7月的一次采访中告诉VentureBeat。
“英语中有数百万个单词,也许有10,000个高频单词-您按什么顺序教它们?您如何将它们串在一起?”他说。“我们AI战略的核心部分是尽可能接近人与人的体验。”
鱼子酱展示了可以折叠两次的豪华可折叠iPhoneZ的概念
2018年Q1前十款热销手机出炉 iPhone佔半数
专访华为营运长 5G手机仍照原时程推出不会提前
专访Mate之父 谈华为Mate20系列手机的定位与设计
观点iPhone XS系列售价为什么可以卖这么贵
10月手机销量增温 XS与XR系列囊括热销半数机种
2018手机上市数量有增无减 三星与华为平均每月有新机
HMD策略转向攻线上 Nokia成为网购前五大手机品牌
从阿尔罕布拉宫的回忆谈新一代5G网路技术
Gartner预测手机出货量仍下滑 2023年5G手机市占将过半
5月手机销售量止跌 华为掉出前三大
4G用户有2925万 2019第2季行动通讯用户数微增