标签:: 词性标注

0

词性标注

词性标注10.1标记中的信息源 观察感兴趣词的邻近上下文的其它词的词性 利用词本身提供的信息,有人做了一个词性标注起dumb,这个标注器只是将所有词最常用的词性标注给这个词,就取得了90%的准确率。 因此词之间用法及其不平均,因此用统计的方法会更甚一筹。 10.2马尔可夫模型标注器10.2.1概率模型马尔可夫链的两个特性 有限视野(limited horizon)$P(X_{i+1}=t^j|

0

NAACL-2013-Socher-Manning-DeepLearning

Introduction本来是在看一些关于NLP的一本老教材,但是鉴于现在组里RNN、CNN满天飞,忍不住先来窥探一下Deep Learning在NLP一些传统问题上有什么魔法。 The neural word embedding approach的优势相比于LSA方法,neural word embeddings 可以变得更有意义,通过对一个或多个任务增加监督。 无监督的词向量学习主要思想:一个

0

论文笔记:A Practical Part-of-Speech Tagger

摘要实现了基于隐马尔可夫模型的词性标注器。这个方法只用很少的资源就可以实现鲁棒的准确的词性标注。只需要一个词表和未标注的文本。准确率超过96%。 必要条件自动化的文本标注是在更大的语料库中发现语言结果的重要的第一步。词性标注为更高层次的分析提供基础。例如识别名词和其他文本中的模式。 一个标注器得具备的几个特性: Robust鲁棒性 Efficient高效性 Accurate 准确性 Tunabl