标签:: 统计自然语言处理基础

0

词性标注

词性标注10.1标记中的信息源 观察感兴趣词的邻近上下文的其它词的词性 利用词本身提供的信息,有人做了一个词性标注起dumb,这个标注器只是将所有词最常用的词性标注给这个词,就取得了90%的准确率。 因此词之间用法及其不平均,因此用统计的方法会更甚一筹。 10.2马尔可夫模型标注器10.2.1概率模型马尔可夫链的两个特性 有限视野(limited horizon)$P(X_{i+1}=t^j|

0

马尔可夫模型

马尔可夫模型9.3 隐马尔可夫模型的三个基本问题 给出一个模型$\mu=(A,B,\pi)$,怎样有效地计算某个观测序列发生的概率,即$P(O|\mu)$? 给出观测序列$O$和模型$\mu$,我们怎样选择一个状态序列$(X_{1},...,X_{T+1})$,以便能够最好地解释观测序列? 给定观测序列$O$,以及通过改变模型$\mu=(A,B,\pi)$的参数而得到的模型空间,我们怎样才能找到一

0

机器翻译

第十三章 机器翻译存在问题 词的歧义 词序 句法歧义 几种常见的翻译模式 直接翻译法:词对词的对齐翻译方式。从源语言的表层句子出发,将词或固定词组直接置换成目标语言的对应成分,这种方式的最大缺陷就在于语言和语言之间可能不存在一一对应关系。同时词的歧义也是一个问题。这个需要参照上下文才能确定这个词改如何翻译。词序也有问题,句法转换可以解决这个问题,将其用手工定义的规则转换成一颗树,然后在这棵树上