文档摘要综述

Posted by SkyHigh on July 20, 2017

文档摘要综述(到2017年6月)

仅作为参考。


  1. 评价指标
    • ROUGE(类似BLEU)
    • BE
  2. 摘要方法
    • 抽取式:从文档中抽取句子、压缩句子
    • 生成式:生成新的句子
  3. 抽取式摘要关键技术
    • 单文档摘要:重要信息评估
    • 多文档摘要:重要信息评估、冗余信息过滤、碎片信息聚合、多源信息的篇章组织
  4. 抽取式摘要方法
    • baseline(直接抽取文档的前几句作为摘要)
    • 基于启发式方法(句子的各个词重要性、句子位置、句子与首句相似度等)
    • 基于图排序的方法
      • Pagerank:每个句子为一个顶点,两个句子的相似度为边的权重,可以学习到每个顶点的score(重要性得分)
      • 加入语义角色信息(顶点可以为句子、词、语义角色,边为某个关系,边权重为该关系的强烈程度)
    • 机器学习方法
      • 二分类:是不是文档摘要句子
      • 序列标注(每个点为一个句子,结合上文信息)
      • 回归:每个句子的score
    • 神经网络的方法
      • encoder:句子的encoder->文档的encoder
      • decoder(输出长度和文档句子数一样,输出0/1,表示对应句子是否作为摘要句)
  5. 抽取式摘要冗余去除
    • 文本蕴含识别技术
    • 文本相似度方法
    • 整数线性规划(ILP)方法:将去冗余和摘要抽取合在一起,变成一个优化问题(可参考ICSI系统)
    • 基于次模函数的方法(回报递减效应,即已有的摘要越多,那么新增加的摘要句子对于摘要的贡献越小)
  6. 摘要句子排序
    • 单文档排序:直接按照句子在文档中出现的顺序排序
    • 多文档排序:先用机器学习/深度学习确定每个句子对的顺序,然后用贪心算法确定所有句子的顺序
    • 句子连贯性评估
  7. 生成式文档摘要方法
    • 基于形式化语义的方法(语义图->选择语义子图->摘要生成),目前是做了词/短语的选择,而没有组成完整的句子。
    • 基于短语选择与拼凑
    • 基于深度学习的序列转换模型:可以用于语句压缩和单文档摘要,在多文档上没有较好的应用
      • 模型输出
        • 输出可以是0/1,表示是否选择对应输入的词
        • 输出可以直接是词
      • 标题生成/句子压缩
        • 直接用首句生成,需要首句与标题重合度高
        • 从文章(由于是句子压缩/标题生成,每个句子是一个样本)中生成,可以利用传统摘要方法得到多个摘要,然后利用深度学习模型从这多个摘要中学习到一个摘要(From neural sentence summarization to headline generation)
      • 进一步生成多个句子组成的摘要
        • 层次式编码
        • 拷贝机制
        • 特殊的attention机制(abstractive document summarization with a graph-based attentional neural model)