NLP

自然语言处理——词法分析与词性标注

Posted by SkyHigh on March 21, 2017

Previous

自然语言处理——语言模型

自然语言处理——词法分析与词性标注

英语的词法分析(形态分析)

  1. 单词识别:词缩写的恢复,如I’ll -> I will
  2. 形态还原(分析):还原词的初始形态。如果在词典中,则直接识别;如果不在,则用规则对词进行还原;如果无法匹配出,则为未登录词

注:词素是不可独立使用的,需要和前后文结合使用,而词是可以独立使用的。

分词

问题

切分歧义(包括交集型歧义、组合型歧义)。

方法

  1. 基于词典的方法(机械方法):正向最大匹配、逆向最大匹配(对汉语来说,稍比正向的效果好一点)、双向最大匹配、最短路径法(优点为切分原则符合汉语规则,即长词更加可能;但是对许多歧义字段难以区分,最短路径有多条时无法区分,对长串的效果不好)、全切分方法(依赖于语言模型的精度)
  2. 基于非词典的方法:给每个字标注B(词首)、M(词中)、E(词尾)、S(单独成词),之后用训练的模型来预测每个字的标签
    • 好处:可以识别未登录词
    • 坏处:没有考虑词汇之间以及词内的字的联系
  3. 基于统计的方法
  4. 基于规则的方法
  5. 基于语言模型的方法:
    • 直接采用最大似然:
      1. 公式:P(W|S) = argmaxP(W)*P(S|W) = argmaxP(W)S为字序列,W为切分的词序列
    • 使用类标注:
      1. 公式:P(C|S) = argmaxP(C)*P(S|C)S为切分的词序列,C为类标注(如某个词是词表词、派生词还是专有名词、实体名词等)
      2. 过程: (1)先用基本的分词工具对语料进行分词; (2)利用词表、派生词表、专有名词模块以及实体名词模块对分词进行词类标记; (3)用ML方法估计语言模型参数,即上面的公式; (4)通过得到的语言模型对训练语料进行重新切分和类标注; (5)重复(3)、(4),直到模型收敛。

未登录词识别

命名实体(人名、机构名、地名等识别)、新词等。

词性标注

主要是为了消除词性兼类歧义,词性兼类包括:

  • 形同音不同;
  • 同形同音不同意;
  • 具有典型意义的兼类词,如“典型”;
  • 上述情况的组合。