Previous
自然语言处理——词法分析与词性标注
英语的词法分析(形态分析)
- 单词识别:词缩写的恢复,如
I’ll -> I will
- 形态还原(分析):还原词的初始形态。如果在词典中,则直接识别;如果不在,则用规则对词进行还原;如果无法匹配出,则为未登录词
注:词素是不可独立使用的,需要和前后文结合使用,而词是可以独立使用的。
分词
问题
切分歧义(包括交集型歧义、组合型歧义)。
方法
- 基于词典的方法(机械方法):正向最大匹配、逆向最大匹配(对汉语来说,稍比正向的效果好一点)、双向最大匹配、最短路径法(优点为切分原则符合汉语规则,即长词更加可能;但是对许多歧义字段难以区分,最短路径有多条时无法区分,对长串的效果不好)、全切分方法(依赖于语言模型的精度)
- 基于非词典的方法:给每个字标注B(词首)、M(词中)、E(词尾)、S(单独成词),之后用训练的模型来预测每个字的标签
- 好处:可以识别未登录词
- 坏处:没有考虑词汇之间以及词内的字的联系
- 基于统计的方法
- 基于规则的方法
- 基于语言模型的方法:
- 直接采用最大似然:
- 公式:
P(W|S) = argmaxP(W)*P(S|W) = argmaxP(W)
,S
为字序列,W
为切分的词序列
- 公式:
- 使用类标注:
- 公式:
P(C|S) = argmaxP(C)*P(S|C)
,S
为切分的词序列,C
为类标注(如某个词是词表词、派生词还是专有名词、实体名词等) - 过程: (1)先用基本的分词工具对语料进行分词; (2)利用词表、派生词表、专有名词模块以及实体名词模块对分词进行词类标记; (3)用ML方法估计语言模型参数,即上面的公式; (4)通过得到的语言模型对训练语料进行重新切分和类标注; (5)重复(3)、(4),直到模型收敛。
- 公式:
- 直接采用最大似然:
未登录词识别
命名实体(人名、机构名、地名等识别)、新词等。
词性标注
主要是为了消除词性兼类歧义,词性兼类包括:
- 形同音不同;
- 同形同音不同意;
- 具有典型意义的兼类词,如“典型”;
- 上述情况的组合。