文档摘要综述(到2017年6月)
仅作为参考。
- 评价指标
- ROUGE(类似BLEU)
- BE
- 摘要方法
- 抽取式:从文档中抽取句子、压缩句子
- 生成式:生成新的句子
- 抽取式摘要关键技术
- 单文档摘要:重要信息评估
- 多文档摘要:重要信息评估、冗余信息过滤、碎片信息聚合、多源信息的篇章组织
- 抽取式摘要方法
- baseline(直接抽取文档的前几句作为摘要)
- 基于启发式方法(句子的各个词重要性、句子位置、句子与首句相似度等)
- 基于图排序的方法
- Pagerank:每个句子为一个顶点,两个句子的相似度为边的权重,可以学习到每个顶点的score(重要性得分)
- 加入语义角色信息(顶点可以为句子、词、语义角色,边为某个关系,边权重为该关系的强烈程度)
- 机器学习方法
- 二分类:是不是文档摘要句子
- 序列标注(每个点为一个句子,结合上文信息)
- 回归:每个句子的score
- 神经网络的方法
- encoder:句子的encoder->文档的encoder
- decoder(输出长度和文档句子数一样,输出0/1,表示对应句子是否作为摘要句)
- 抽取式摘要冗余去除
- 文本蕴含识别技术
- 文本相似度方法
- 整数线性规划(ILP)方法:将去冗余和摘要抽取合在一起,变成一个优化问题(可参考ICSI系统)
- 基于次模函数的方法(回报递减效应,即已有的摘要越多,那么新增加的摘要句子对于摘要的贡献越小)
- 摘要句子排序
- 单文档排序:直接按照句子在文档中出现的顺序排序
- 多文档排序:先用机器学习/深度学习确定每个句子对的顺序,然后用贪心算法确定所有句子的顺序
- 句子连贯性评估
- 生成式文档摘要方法
- 基于形式化语义的方法(语义图->选择语义子图->摘要生成),目前是做了词/短语的选择,而没有组成完整的句子。
- 基于短语选择与拼凑
- 基于深度学习的序列转换模型:可以用于语句压缩和单文档摘要,在多文档上没有较好的应用
- 模型输出
- 输出可以是0/1,表示是否选择对应输入的词
- 输出可以直接是词
- 标题生成/句子压缩
- 直接用首句生成,需要首句与标题重合度高
- 从文章(由于是句子压缩/标题生成,每个句子是一个样本)中生成,可以利用传统摘要方法得到多个摘要,然后利用深度学习模型从这多个摘要中学习到一个摘要(From neural sentence summarization to headline generation)
- 进一步生成多个句子组成的摘要
- 层次式编码
- 拷贝机制
- 特殊的attention机制(abstractive document summarization with a graph-based attentional neural model)
- 模型输出