芥末堆芥末堆

【GET2020】作业帮罗亮:基础音视频服务和AI视觉语音是直播课技术两大核心

作者:李海颜 发布时间:

【GET2020】作业帮罗亮:基础音视频服务和AI视觉语音是直播课技术两大核心

作者:李海颜 发布时间:

摘要:教育科技就是把优质的教育资源放大、迁移、匹配的便捷管道。

WechatIMG332.jpg

作业帮副总裁罗亮在做“后疫情时代作业帮对教育科技的探索”的主题分享

芥末堆 11月26日 李海颜 报道

11月24日,在“或跃在渊:教育的信心与发展”芥末堆GET2020教育科技大会上,作业帮副总裁罗亮带来了“后疫情时代作业帮对教育科技的探索”的主题分享。

他表示,在线教育的最大价值是在于用科技的力量,把知识分发到每一个有需要的学生身边,而教育科技就是把优质的教育资源放大、迁移、匹配的便捷管道。就直播技术而言有两大核心,一是基本的音视频传输能力和互动能力,二是利用AI技术提升学生课堂中的互动效果。    

以下为罗亮的演讲实录:

尊敬的各位嘉宾大家好!我是来自作业帮的罗亮,今天分享主题是《后疫情时代作业帮在教育科技的探索》。我是在教育行业里面做技术的,其实可以看得出来,在线教育的最大价值就是用科技的力量把知识分发到每一个有需求的学生身边。

互联网是什么?互联网本质是连接,它能打破时间、空间、地域、阶层的限制,让整个社会、整个信息得以连接。教育又是最不均衡的社会资源,通过技术我们可以把教育资源均衡地分发下去,所以技术的价值就是搭建起了把优质的教育资源放大、迁移、匹配的便捷管道。

为什么我们能做一个管道呢?在我看来,作业帮在累计8亿智能设备上被激活,每月连接用户数超过1.7亿,这样的积累帮助我们在技术上持续提升。我们用科技来赋能教育,为教育普惠贡献自己的一份力量,我们有60%的直播课的学员是来自三线及三线以下的城市与乡村。

屏幕快照 2020-11-26 下午4.26.57.png疫情以来,各地纷纷转战线上,在线教育被推到了风口浪尖。作业帮也积极响应政府号召,助力各地中小学生在线学习。疫情期间,我们开设了春季免费直播课,仅五周的时间就有3300万人次的学员参与了春季免费直播课。同时,我们还开设了名师讲堂公益课和针对高考的高考真题解析直播课。

屏幕快照 2020-11-26 下午4.27.07.png疫情来临时,大量的学生突然涌入在线教育。过往我们在线直播课学员数量是百万级别,但今年已超过了3000万,整个数量级乘了10倍,这其实对于做技术的人而言是一个非常大的挑战。

这个时候怎么办?坦白的说就一个办法,多加点服务器、多加点带宽,但是加服务器和带宽并不是那么容易。首先,需要基础架构能够支撑增加服务器和带宽;其次,需要在短时间内找到供应商,并让其提供服务。这两点都不是短时间内可以做到的。

作业帮早在一年前就已经从单一的云服务商变成了五家云服务商同时提供服务,才能在短时间内增加服务器和带宽,才能比较从容地承接用户的爆发。此外,直播技术也是我们的核心技术之一。我们用了将近一年半的时间搭建了一套自己的直播体系,在今年的免费直播课中也发挥了应有的作用。

直播课的两大核心:基础音视频服务和AI视觉语音技术

后疫情时代对教育科技提出了更多要求和挑战。比如,如何满足更多形式的授课方式、如何更好地提升整个课程的互动效果、如何真正有效地提升学习的效果。经过疫情的大考我们开始进行自己的思考和探索,我们认为技术是能做非常多的事情。

屏幕快照 2020-11-26 下午4.35.49.png整个直播课我认为有两个核心要点,第一是直播技术本身,基于Web RTC的行业协议我们自研了一套直播架构体系,让分布在全国各地的师生通过直播网络稳定的连接在一起。我们的直播课类型是多样的,包括1对多的大班直播课、1对1的辅导课以及6人的小班课等等。6人小班课其实本质上是一个大班,但是每一个学生的感受是在一个6人小班当中上课。

我们的用户覆盖全国整个学生群体,这样多形式的直播课,如何通过直播网络将分布在全国各地的师生都稳定的连接在一起呢?我们用了一年时间和云服务供应商一起共建了遍布全国的节点网络,为老师和学生提供足够清晰、足够流畅、实时互动的直播音视频服务。

基础的音视频服务之外,在未来直播课中我们认为会大放异彩的是AI技术。我们用AI做什么呢?就目前的行业技术而言,我们在教学领域应用最多的是视觉技术和语音技术。

屏幕快照 2020-11-26 下午4.27.16.png以视觉技术为例,我们可以利用视觉技术对学生在课堂上的学习情况、表现情况进行感知。通过视觉技术能够帮助主讲老师收集学生在课堂上的表现情况,包括注意力是否集中、是否有家人陪同、坐姿是否端正等。这些行为的识别、分析和汇总,能够帮助主讲老师及时了解所有学生的上课状态,比如内容是否难度偏大,学生整体的接受度如何,是否需要着重讲解或者是转换讲课方式。同时也能够帮助辅导老师关注学生的学习行为。如学生状态有异常,老师直接收通知,会提醒学生更好地投入到学习中去。学生在上课过程中,如果离屏幕太近,我们也会对他进行提醒。

每节课结束后,我们会综合汇总学生当节课各种行为、注意力集中状态、答疑情况等,智能分析的学生行为数据,汇总后呈现给老师,老师基于这个完整的报告来评估自己教学情况,不断提高自己的教学水平。

屏幕快照 2020-11-26 下午4.27.40.png另外一种形式是语音技术,我们自研的AI语音技术提供了语音发弹幕的能力和服务。在小低年级,孩子最自然的交互形式是说话,学生们可以用语音发送自己的弹幕,这样极大提升了学生在课堂当中的参与感和积极性。而且在一些英语学科当中,口语的读写、听写能力都是非常重要的,我们也能通过AI技术对用户的读音的效果进行评分,汇总到老师那里,可以让老师和学生进行反馈互动,你答得好不好、你答得怎么样,这样的技术在当今的直播课里面、AI课里面大量使用。    

同时,通过语音技术还能提升交互能力。我们有一种教学类型叫集体发言,六个学生针对老师提出的问题一起来发言,这个时候我们会发现一个问题,每个学生既要听得见同学们的声音,还要不被发出来的声音回声所干扰,这需要大量噪音消除、回声消除的技术,让同组学生,也让老师能听到学生们的清晰发言。

所以其实我们可以看到直播课技术的两大核心,一是基本的音视频传输能力和互动能力,二是利用AI技术提升学生课堂中的互动效果。    

 AI技术是算法、模型和数据的结合体

其实AI是什么呢?AI是算法、模型和数据的结合体,我们在这上面的成果,源于作业帮长期的技术和数据积累,尤其是在作业帮拍照搜题这个场景下的不断探索。

作业帮APP是中国全网流量里面APP活跃度TOP30的教育类APP,我们的月活过亿。在这5年的过程里面,我们累积了20000TB的学习数据,同时也积累了超过2.5亿的行业题库。

疫情期间,对拍照搜题业务也提出了新的挑战。过去对着书本或者手写的文字,疫情期间出现了很多对着屏幕拍照的需求,增加了对识别技术的要求。比如电脑屏幕有闪烁,有摩尔纹,有反光,这些新情况,需要不断的去迭代和优化,尽可能的去提升用户搜索的准确率和召回率。

拍照搜题是作业帮积累最久的一个技术,经过5年多不断的迭代和创新以及积累,目前已经是一个结合神经网络,集群化的识别引擎。我们在5年前拍一道题得到它的答案大概可能要七八秒钟的时间,但是到了今天通过不断提升的神经网络,我们能做到在200ms内完成识别解析,然后从包含2.5亿个题目的搜索引擎里匹配到最佳的结果。 

其实在这个过程中我们经历了非常多的挑战,从最开始的准确率低到令人发指,到今天我们能应对模糊、倾斜、干扰各种低像素的相机,很多用户的设备是拿着家长淘汰下来的旧手机、老手机,像素低、内存小,拍出来的质量参差不齐。

长期面对这种低像素、模糊、倾斜、干扰等等的输入,倒逼我们去不断的提升识别的效果,也帮助我们积累了大量的宝贵数据,提升了模型的能力,形成一个正向循环。通过不断的积累在AI方面的技术能力,我们也把这些能力应用到了更多的场景中去,提供更好的产品,比如整页拍搜、自动批改,自动答题等功能。

我们在这个过程中能看到技术对在线教育起非常大的促进作用,在疫情的冲击下,各行各业都起了很多的变化。在线教育在后疫情时代被推上了历史的舞台,中央也在“十四五”的规划里面提出要建设高质量的教育体系。在线教育不仅可以促进教育普惠,推动教育均衡发展,还可以激发优质教育新供给,推动中国教育迈向数字化、智能化、个性化的新台阶。

1、本文是 芥末堆网原创文章,转载可点击 芥末堆内容合作 了解详情,未经授权拒绝一切形式转载,违者必究;
2、芥末堆不接受通过公关费、车马费等任何形式发布失实文章,只呈现有价值的内容给读者;
3、如果你也从事教育,并希望被芥末堆报道,请您 填写信息告诉我们。
来源: 芥末堆
芥末堆商务合作:王老师 18710003484
  • 【GET2020】作业帮罗亮:基础音视频服务和AI视觉语音是直播课技术两大核心分享二维码