文档摘要综述（到2017年6月）

仅作为参考。

评价指标
- ROUGE（类似BLEU）
- BE
摘要方法
- 抽取式：从文档中抽取句子、压缩句子
- 生成式：生成新的句子
抽取式摘要关键技术
- 单文档摘要：重要信息评估
- 多文档摘要：重要信息评估、冗余信息过滤、碎片信息聚合、多源信息的篇章组织
抽取式摘要方法
- baseline（直接抽取文档的前几句作为摘要）
- 基于启发式方法（句子的各个词重要性、句子位置、句子与首句相似度等）
- 基于图排序的方法
  - Pagerank：每个句子为一个顶点，两个句子的相似度为边的权重，可以学习到每个顶点的score（重要性得分）
  - 加入语义角色信息（顶点可以为句子、词、语义角色，边为某个关系，边权重为该关系的强烈程度）
- 机器学习方法
  - 二分类：是不是文档摘要句子
  - 序列标注（每个点为一个句子，结合上文信息）
  - 回归：每个句子的score
- 神经网络的方法
  - encoder：句子的encoder->文档的encoder
  - decoder（输出长度和文档句子数一样，输出0/1，表示对应句子是否作为摘要句）
抽取式摘要冗余去除
- 文本蕴含识别技术
- 文本相似度方法
- 整数线性规划（ILP）方法：将去冗余和摘要抽取合在一起，变成一个优化问题（可参考ICSI系统）
- 基于次模函数的方法（回报递减效应，即已有的摘要越多，那么新增加的摘要句子对于摘要的贡献越小）
摘要句子排序
- 单文档排序：直接按照句子在文档中出现的顺序排序
- 多文档排序：先用机器学习/深度学习确定每个句子对的顺序，然后用贪心算法确定所有句子的顺序
- 句子连贯性评估
生成式文档摘要方法
- 基于形式化语义的方法（语义图->选择语义子图->摘要生成），目前是做了词/短语的选择，而没有组成完整的句子。
- 基于短语选择与拼凑
- 基于深度学习的序列转换模型：可以用于语句压缩和单文档摘要，在多文档上没有较好的应用
  - 模型输出
    - 输出可以是0/1，表示是否选择对应输入的词
    - 输出可以直接是词
  - 标题生成/句子压缩
    - 直接用首句生成，需要首句与标题重合度高
    - 从文章（由于是句子压缩/标题生成，每个句子是一个样本）中生成，可以利用传统摘要方法得到多个摘要，然后利用深度学习模型从这多个摘要中学习到一个摘要（From neural sentence summarization to headline generation）
  - 进一步生成多个句子组成的摘要
    - 层次式编码
    - 拷贝机制
    - 特殊的attention机制（abstractive document summarization with a graph-based attentional neural model）