【涨姿势】题目知识点标签自动挖掘技术（上）

【芥末堆注】本篇是专题#教育技术#的第一篇，芥末堆邀请到了一起作业网大数据部的负责人李连华来为介绍优质题库建设中题目知识点标签自动挖掘技术。因为篇幅关系，我们将优质题库建设中的题目知识点标签挖掘分为两部分。这一篇是上半部分，将重点阐述在线教育中优质题库建设的重要性，并分析在不同产品应用的需求中，我们需要什么样的知识点标签；并进一步对知识的标签自动挖掘的问题做出明确定义，基于此，我们给题目知识点标签自动挖掘做出技术分解，并对每一个任务给出技术关键点。

1. 在线教育与题库建设的背景

大数据和数据挖掘对于互联网教育是至关重要的，我们今天集中在一个具体的点上来展开和揭示这一点，这个点就是题库建设中的知识点标签挖掘。

在整个教育的实施过程，尤其是备、讲、练、测各个环节，今天都已经有互联网教育产品在尝试，而其中练和测，都是以题库建设为最重要的基石。题库整体设计的合理性，以及质量，是这一类互联网教育产品成败的关键。而业内的同学都知道，题库建设，又是最耗费人力物力财力的，既是苦活累活又是对教育的理解、技术能力的把握有极高要求的活。

具体而言，在题库建设过程中，并不是简单的数量的堆积，如果不考虑地区差异、应试要求不同和实效性等因素，K12阶段一个学科一个学段以千规模知识点、一个知识点以几十道题目为例进行估计，那么一个学科优质题库的规模为十万规模，而有同学似乎说应该很容易可以凑齐这么多、甚至百万规模——但是，优质题库除了题目质量，以及对教育内容（教材）的匹配度之外，还有两个根本性问题，其一是解析书写，其二是知识体系构建和知识点标签标注。若没有对这些核心因素的优化，题库很容易构建成一个普通或垃圾题库，对于教育产品应用和用户而言没有任何价值，甚至是有害的。而就是对于这些因素的优化，导致了优质题库的建设门槛，以及极高的成本。

所以，对题目的知识点标签的标注，以及知识体系的构建，是优质题库建设过程中最为核心的问题之一。

2. 题目需要什么样的知识点

在考虑这个问题的解决方案的时候，我们首先要考虑的是，我们需要什么样的知识体系和知识点标签。这个问题并不是很容易回答。

首先在教材和教学大纲中，以及各种教辅中，会有各种对“知识点”的描述，例如英语中的语法，以及词汇等，例如数学中的知识点，如函数、定义域、值域或解析式等，有直接的概念，也有方法的应用，有专题的抽象，也有相似解法的巧妙汇总，等等——总而言之，这并没有一种标准的体系，就其名称、内涵、粒度、层级，乃至所谓知识点之间的关系或联系，出自各种来源可能是千差万别的。这里既需要教育专家的高屋建瓴，也需要一线教师的灵活经验。

其次，作为数据挖掘的任务而言，我们会关心——就标签集合而言，这是一个封闭集还是一个开放集，同时，我们会关心一个“知识点”标签，是一个分类概念还是一个关键词（或者是关键词的组合，短语搭配）。这个定义的明确，对于数据挖掘的问题定义十分关键，也基本决定了后面的方案的选择。但这个明确，不仅要考虑教学意义，同时需要考虑产品对于知识点标签的使用方式，尤其是后者，可能是更加重要的因素。

举例而言：

1.如果题库用于老师或者教研员辅助组卷，知识点标签作为导航或过滤使用，最好是通用的、概念明确的分类概念标签，加之以自由query来组合使用，这种场景需要一个精准明确的大粒度分类体系和标签集合，层级不需要很多。

2.如果用于学生的自学推题，并显性化分析报告，那么知识点的标签应该要能够描述题目测验的核心知识点、方法或思路，要能够区分对于学生的能力要求点，这样才能构建更为强大的用户模型和推荐引擎，同时报告也方便针对性分析和理解——这个时候需要采取的分类体系和标签集合，其知识点的粒度要足够精细，而知识体系的层级就会大很多，同时，“知识点”即使不是标准体系，也需要大多数的老师和学生认可或一定的使用度。

3.但如果这个知识体系和知识点标签，仅仅是作为系统内部匹配使用，对于用户而言是不可见的，那么使用关键词标签，使用一个开放的（或标准模糊的）标签集合，也是没有任何问题的。

就这三种例子而言，可能都是适合某种教育产品需要的；但对于知识点标签的挖掘而言，其技术的选择则是差异极大的。所以这不是一个简单可以决定的问题，需要和教育内容团队、产品团队仔细的分析确定。

3. 对问题的定义

在本文的介绍中，我们选择其中之一的应用方式作为应用场景，也就是说，我们假设要挖掘的知识点标签，是用于题目的推荐和分析报告。这个时候是最为复杂的一种，一个知识体系大概有四到七级，千规模的知识点数量，对于教研团队和技术团队，都有较大的挑战。

对于数据挖掘而言，这是一个分类任务，具体一点而言，主要是依据题目短文本信息进行层次化分类的任务。在这个任务中，我们需要使用到最基础的技术是自然语言处理和机器学习，通俗一点说，就是我们通过对大量人工标注好的题目文本和知识点标签结果（也称为训练语料）的学习——通过自然语言处理的技术获取题目文本的特征，通过机器学习来得到分类模型——从而使得我们的系统具有了自动做知识点分类的能力。一般的分类问题的基本定义如下：

图1 分类问题的定义

通过对问题的定义，我们基本可以对这个任务做出拆解，得到类似于如下的子任务：

通过这样一个任务的拆解和说明，大家可以看出我们对于整个项目的安排，以及其中的技术关键点。这些关键点是在大量实践经验基础上总结出来的，分享出来也期望能够对技术类读者推动自己的工作有所帮助。