自然语言处理——词法分析与词性标注

注：词素是不可独立使用的，需要和前后文结合使用，而词是可以独立使用的。

切分歧义(包括交集型歧义、组合型歧义)。

基于词典的方法（机械方法）：正向最大匹配、逆向最大匹配（对汉语来说，稍比正向的效果好一点）、双向最大匹配、最短路径法（优点为切分原则符合汉语规则，即长词更加可能；但是对许多歧义字段难以区分，最短路径有多条时无法区分，对长串的效果不好）、全切分方法（依赖于语言模型的精度）
基于非词典的方法：给每个字标注B（词首）、M（词中）、E（词尾）、S（单独成词），之后用训练的模型来预测每个字的标签
- 好处：可以识别未登录词
- 坏处：没有考虑词汇之间以及词内的字的联系
基于统计的方法
基于规则的方法
基于语言模型的方法：
- 直接采用最大似然：
  1. 公式：P(W|S) = argmaxP(W)*P(S|W) = argmaxP(W)，S为字序列，W为切分的词序列
- 使用类标注：
  1. 公式：P(C|S) = argmaxP(C)*P(S|C)，S为切分的词序列，C为类标注（如某个词是词表词、派生词还是专有名词、实体名词等）
  2. 过程：（1）先用基本的分词工具对语料进行分词；（2）利用词表、派生词表、专有名词模块以及实体名词模块对分词进行词类标记；（3）用ML方法估计语言模型参数，即上面的公式；（4）通过得到的语言模型对训练语料进行重新切分和类标注；（5）重复（3）、（4），直到模型收敛。

命名实体（人名、机构名、地名等识别）、新词等。

主要是为了消除词性兼类歧义，词性兼类包括：

Previous