这家估值10亿美元的独角兽，这样看待AI语言学习的未来

2024年12月，AI语言学习领域杀出新的独角兽，凭借着7800万美元C轮融资，Speak的投后估值飙升至10亿美元。

2016年，90后天才少年Connor Zwick和Andrew Hsu看到AI在语言学习领域的变革潜力，于是创办了Speak。

Speak成立的初衷是击碎哑巴英语痛点，其slogan是“让你轻松‘说’英文的APP”，愿景是为每一位用户打造一位个性化的“AI tutor”。这也是为什么Speak用掌握英文的句子数量来体现自己能让人开口的优势，比如其官网显示，在第一周的学习中，Speak用户便掌握了1100句英文。

Speak的机构投资者包括OpenAI Startup Fund、Founders Fund、Khosla Ventures和Buckley Ventures。其中，OpenAI曾四次押注Speak。

Speak的主要市场是非英语母语地区。2018年，Speak正式在韩国上线应用商店，目前已经成为韩国地区排名领先的英语学习应用，之后韩国市场的成功经验被带到其他市场。如今，Speak在日本、中国台湾及其他地区也展现了强劲的增长势头。

目前，Speak正在快速接近5000万美元的年经常性收入（ARR），年增长率超过100%。Andrew Hsu曾透露，截至2024年12月，Speak应用的下载量已超过1000万次，每位用户每天的使用时间约为10-20分钟。在B2B业务方面，有超过200家企业客户。

Connor和Andrew分别毕业于哈佛大学和斯坦福大学，虽然年轻，但他们在教育领域已经积累了丰富的经验，比如Connor高二时开发的一款语言学习应用Flashcard+被上市教育企业Chegg收购。

近期，OpenAI与Speak首席执行官Connor进行了一次交谈，探讨AI如何重塑语言学习，如何让AI老师更加自然，以及在瞬息万变的技术大环境中，扩大一家AI初创公司会面临哪些挑战。

Q：你什么时候与AI进行了第一次有意义且重要的接触？这对Speak的规划有何影响？

Connor：回顾过去10多年，我会想起很多给我留下深刻印象并改变了我对AI看法的时刻。比如，2012年AlexNet论文发布，在当时用深度神经网络进行图像识别就已经非常非常厉害了。另一个重要时刻是AlphaGo的出现。

但就我个人而言，我在2015年才真正与AI有了近距离的接触。我和我的联合创始人当时正在进行独立的AI研究，我们尽可能多地汲取知识，阅读相关的论文，应用各种功能。

我们还从YouTube收集大量数据，把这些数据都输入到模型中，当时并不知道最终会有什么结果。在第一次训练后，我们几个小时后又回来测试，我们创建了一个比当时最先进的口音检测模型还要好的模型。

我们意识到深度学习将会变得无比强大。只要有足够多的数据，它就能做出令人惊叹的事情，在很多情况下，甚至能超越当时最先进的技术……

Q：开始打造AI语言老师时，你们如何以一种让语言学习者感觉更自然的方式将AI融入平台？

Connor：对我们来说，关键在于如何将深度学习融入语言学习体验。Speak最初几年专注于打造真正优质的口语体验。在我们之前，语言学习应用并没有真正地将口语要素融入其中。即使有，他们也没有模型来稳定地理解说话人的各种口音。

语音识别模型对于口音的语音识别非常不准确，但由于我们能够快速构建出比当时主流模型都要好的语音识别模型，我们看到了将其融入基础产品体验的机会，现在已经取得了一些成果。

Q：AI发展非常迅速，你认为该如何有效地规划未来的产品路线图？

Connor：我要回答的或许并非是所有人都想听到的答案，但我相信，如果你想成为AI产品的领导者，你需要对技术和模型的运作方式有深刻的技术直觉。否则，你就无法清晰地意识到，哪些问题可以在下个月或12个月内得到解决，哪些问题则需要很长时间才能解决。

具备了这种直觉，你就能为未来而创造。比如，我们有时候会做一些看起来成本过高的东西，这是因为我们知道一年后这个成本会下降。又或者，我们现在会围绕模型的弱点进行设计，因为我们知道这些弱点之后会得到改善。

重要的是了解90%、98%、99%和99.9%准确率之间的区别，以及这些区别如何影响产品体验，要知道90%和99.9%是截然不同的。想要做出合理的产品决策，还需要具备预测曲线何时会上升的能力。

Q：最近AI领域实现的哪些技术突破改变了你对Speak所具备的可能性的看法？

Connor：OpenAI的实时API和音频多模态功能。就我们的用例来说，我们正在构建一个能够帮助学习者达到流利水平的“超人类AI口语老师”（superhuman AI speaking tutor），它能充分理解学习者想要表达的内容，而不仅仅是转录他们说的话。

AI辅导的终极目标是实现即时理解语调、发音和意图，然后立即以符合学习者语调的方式提供开放式且自然的反馈。

Q：AI领域中还有哪些其他进展看起来与Speak无关，但实际上却令你感到兴奋？

Connor：人们都说推理是下一个前沿，我也同意这一点。对Speak来说，最优秀的人类教师之所以优秀，是因为他们能够设计出优秀的学习计划和课程，深入思考学生的进步，并相应地做出调整。

拥有超级智能体推理能力的AI将成为语言学习的一大突破。虽然这并不是我们领域最显著的AI进步，但它将对AI老师的教学质量产生巨大影响，使其与最优秀的人类教师一样高效。

Q：在AI驱动的大环境下，你如何看待语言教师角色的演变？

Connor：数十亿人正在尝试学习英语和其他语言，但优质真人教师的数量不足以满足这一需求。大多数人不得不依赖书本或在线视频，而这些与真实的对话截然不同。归根结底，人们学习语言是为了与他人建立联系，而不是为了与AI建立联系。即使AI达到超人类的水平，与真人进行练习的需求也会一直存在。

我们并不是要取代人类教师，而是为了让全世界的人都能接触到更优质的语言辅导。

Q：随着Speak团队规模扩大，你们如何培养团队对AI的熟练度？

Connor：最重要的是找到合适的人，好奇心是我们团队重要的文化基石。我们需要的是自驱力强、渴望探索AI如何扩大影响力的团队成员。

ChatGPT存在“blank canvas”的问题，通俗地讲就是直到人们偶然想到一个应用场景时才会意识到如何使用它。AI用途极其广泛，我们鼓励团队不断思考：“我能用AI来做这件事吗？”，并进行测试、验证。

Q：接下来，哪些AI趋势将对语言学习产生最显著的影响？

Connor：一切都可以改进，但目前的关键在于利用现有资源打造尽可能优秀的产品。有效应用AI，仍面临巨大的技术挑战，我们称之为“机器学习脚手架”（ML scaffolding），这是赋能整体产品体验的技术。

我们在这方面已经努力了一段时间，有了先发优势，但还有很长的路要走。即使今天AI停止前进，我们未来数年还有令人兴奋的工作要做。

这些模型特别擅长语言、与人互动、使用语言。在其他许多行业，在真正产生变革效果之前，可能还需要一些突破，但我认为我们现在已经拥有了所需的一切。