分类:: Papers

0

Vector-space topic models for detecting Alzheimers's disease

Abstract本文主要是想检测老年痴呆症,因为语义的缺失是一大症状。获得了96.8%的召回率。通过训练随机森林的分类器获得了0.74的F值(二元分类)。并且仅用了12个特征。 IntroductionAD在病情发展的过程中会出现语言的转变,并且这是可以检测得到的。这些变化包括句法复杂度的下降、找词困难和语义内容缺失,信息密度低(有语义的词在所有词中的比例),效率低。 结合上lexicosynta

0

Efficient Estimation of Word Representations in Vector Space

Abstract提出两个创新的模型架构,用于在非常大的数据集上计算连续型的词向量表示。这些表示的好坏的用词相似性任务来测量。计算复杂度下降了,同时在准确度上还有巨大的提升。在当时是state-of-the-art的做法。 1 Introduction许多现在的系统将词表示在词库中的索引,并不包含词的相似性的概念。这个选择的原因是:简单、鲁棒以及一个观察到的现象:在大量数据上训练出来的简单模型要比在

0

论文笔记:A Practical Part-of-Speech Tagger

摘要实现了基于隐马尔可夫模型的词性标注器。这个方法只用很少的资源就可以实现鲁棒的准确的词性标注。只需要一个词表和未标注的文本。准确率超过96%。 必要条件自动化的文本标注是在更大的语料库中发现语言结果的重要的第一步。词性标注为更高层次的分析提供基础。例如识别名词和其他文本中的模式。 一个标注器得具备的几个特性: Robust鲁棒性 Efficient高效性 Accurate 准确性 Tunabl