芥末堆芥末堆

被指录错题目却仍能解出满分答案,拿到134分的高考机器人受质疑

作者:子航 发布时间:

被指录错题目却仍能解出满分答案,拿到134分的高考机器人受质疑

作者:子航 发布时间:

摘要:高考机器人只是镜花水月?

timg.jpg

芥末堆 子航 6月15日

6 月 7 日下午,学霸君高考机器人 Aidam 公开挑战 2017 年全国卷二文科数学卷,并取得 134 分的成绩(满分 150 分)。今日,天涯社区一篇名为“这是学渣荣誉的一刻→揭秘高考机器人‘骗局’”的帖子公开质疑这一“高考成绩”。

在天涯的帖子中,首先质疑了 Aidam 解答数学卷第 17 题的答题过程,存在题目录入错误、推导结论与题干不符等问题,同时还引用了知乎上对数学卷第 18 题答题过程的质疑,如知识元公布顺序存疑、存在没有意义和逻辑关系的解题步骤等。

该帖引发了业界对于学霸君高考机器人真实能力的质疑,一度成为关注焦点的高考机器人,是否只是镜花水月?甚至有相关公司向学霸君隔空喊话,希望学霸君接受原创命题的实测。

对此,学霸君在接受芥末堆收集时表示,“不想陷入口水战中”。

Aidam 解题过程受质疑

帖子中提到,数学卷第 17 题学霸君录入的题目与真实题目不同,在学霸君录入的题干里,两个条件相互矛盾,但最终这道题机器人却拿到了满分 12 分。


屏幕快照 2017-06-15 下午7.00.17.jpg

学霸君输入的题目

屏幕快照 2017-06-15 下午7.00.41.jpg

正确的题目

此外,第 17 题的解答过程,也引起了网友质疑。网友指出,根据学霸君录入的题干,无法得出其解答过程中展示的结果。

276822177.jpg

网友认为,在第 18 题解题过程中,知识元公布顺序存疑,没有公布题意理解过程,存在没有意义和逻辑关系的解题步骤。其中最显著的问题是,在解题过程中给出的两个互相垂直平面的法向量是一样的。

微信截图_20170615192819.png

两个互相垂直平面的法向量是一样的

根据对答题过程的质疑,文中提出了学霸君是否真的没有发现问题;为什么录错题目,机器仍能答对;机器在题目尚未录入时就已经知道答案;是否有“隐形手”帮忙填写正确答案等质疑问题。

除了解题过程本身的质疑,网络上还有学霸君团队本身学术能力的质疑。

在知乎问题“如何看待学霸君的高考机器人 Aidam 高考全国文科数学卷考了 134 分?”中,排名第一的是一个超过七百个赞的答案。答案质疑了学霸君人工智能团队成员没有相关学术论文的发表记录,因此不具备相应学术能力。

学霸君如何才能自证清白?

“如果被质疑的内容是真实的,这个质疑确实是十分有力度的。”另一家研发了高考机器人的准星云学 CEO 林辉认为,学霸君现在最需要做的是公布发布会现场全流程视频,因为发布会是要展示出系统经过训练后能够自我分析、自我推理的能力,而非通过题目进行搜索匹配的能力。

林辉对学霸君目前没有公开全流程视频表示疑惑。在他看来,切断互联网和数据库,全程透明公正是特别重要的,录题和批阅过程是没有必要保密的,而没有断掉互联网也肯定会被质疑。

据悉,6 月 7 日下午,准星云学研发的“准星数学高考机器人”AI-MATHS 在成都先后解答了北京高考数学文科卷、全国卷二文科数学卷等多张试卷,并分别获得 105 分和 100 分的成绩。林辉表示,准星云学的高考机器人从录题目、解题目、到人工批阅、全都在会场上接受 863 监督单位科大讯飞的现场监督,执行了全程录制视频和断库断网。

此外,自然语言科学家、艾耕科技 CTO 曹斌则认为,除了公开视频之外,学霸君还可以通过提供 demo 或者 API 让大家测试来证明自己。

对于学霸君被质疑的“学术问题”,林辉认为,技术团队并不一定要发表论文,有时也有可能会出现一些“黑科技”。他表示,准星云学的团队也积累了很多文章,但没有很多时间去写;曹斌则认为,团队成员之前是不是发表过较高质量的 paper 确实可以成为衡量团队实力的参照,但是一个技术是否愿意发 paper,这是公司的选择

Aidam 每天训练 40-50 万道题是否靠谱?

在接受公开收集中,学霸君创始人张凯磊曾说过,高考机器人 Aidam 每天自己训练 40-50 万道题目。

“单从数量来看,40-50 万对于机器学习来说并不能算是一个很大的训练量,相反还有些偏小。”但曹斌认为,需要关注的是 40-50 万什么样的题目,是否经过人工标注以及是怎么标注的?例如,从以文字表达的题目到机器能理解的结构化信息,这样的数据就需要人去标注。而且不同类型的题目,可能需要的模型也会有区别,这里就需要大量的人工。

林辉认为,学霸君对于高考机器人的训练,只可能是在一种无监督或者半监督的状态下完成,这就代表机器可能并不知道所解题目的正确与否。“解题与下围棋的 AlphaGo 并不一样,AlphaGo 可以根据围棋的特点计算目数来验证结果,虽然要求较高的计算量但是并不复杂,但通过自动推理或者逻辑关系,系统难以判断数学题目的对错。”他解释道。

相较于学霸君公开的 40-50 万道的数据量,准星云学的高考机器人只训练了400多套卷子。但林辉告诉芥末堆,准星云学所有的系统测试均是在系统中有标注,而且完成 400 多套的数量已经是准星云学现有人力能够完成的数目。

对于网上的质疑,学霸君也在今天下午给出了回应,“作为一家技术公司,不想陷入到这种口水战中,一切看实际情况说话,以后会做出更多的成绩。”学霸君方面回应称。

1、本文是 芥末堆网原创文章,转载可点击 芥末堆内容合作 了解详情,未经授权拒绝一切形式转载,违者必究;
2、芥末堆不接受通过公关费、车马费等任何形式发布失实文章,只呈现有价值的内容给读者;
3、如果你也从事教育,并希望被芥末堆报道,请您 填写信息告诉我们。
来源: 芥末堆
芥末堆商务合作:010-5726 9867
  • 被指录错题目却仍能解出满分答案,拿到134分的高考机器人受质疑分享二维码