归档: 2017/3

0

Evaluation of Word Vector Representations by Subspace Alignment

Abstract无监督学习的词向量的评价通常与下游应用没有很大的关联,本文将提出QVEC的评价方法。 Introduction缺乏标准化的对比方式是因为词向量的每个维度依然是无法解释的,如何去给一个无法解释的表示打分依然是不明确的。 本文通过将distribution word vector和人工标注的word vector对其,然后计算每一维的相关度,相加之后就得到了distribution w

0

Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank

Abstract语义词空间很有用,但是没有办法表达长词组的意思。提出了Recursive Neural Tensor Network,这个模型可以捕捉到否定词的影响。 Introduction现有的模型难以学习组合词语,这是由于缺乏标注好的组合词词库。Stanford Sentiment Treebank是第一个在语法树上带标注的语料库。 Related Work涉及到了五个方面的工作 Sema

0

LSTM

参考资料DeepLearning Bengio Chapter 10 Sequence Modeling: Recurrent and Recursive Nets从multi-layer networks到recurrent network需要用到早期在机器学习中发现的想法:共享参数。共享参数使得网络可以运用到多种形式的数据上,并且在它们之间产生泛化。卷积网络也是一个共享参数的网络,只是它的共享

0

matplotlib教程

散点图我有两组数据,需要不同颜色的点将他们表示在一个二维空间中。12345678910111213#plot trainning curvef1=plt.figure(1)#plot real training datap1=plt.scatter(x_train[:,0]*x_max,y_train*y_max,marker='.',color='b',label='real price')#p

0

Hadoop IO

Hadoop IOhadoop提供了多种的解压缩方式,但是由于license的问题,得单独下载。 hadoop同时也对文件读写有校验,一旦出现文件错误,就会报告给namenode,namenode则不会再给别的任务派送这个文件块,同时调度其他的replica来恢复。 每个datanode会定期地检查自己的数据。 使用本地的库来进行压缩或解压可以节省很多时间,相对于通过Java实现的来说。几乎所有的

0

Vector-space topic models for detecting Alzheimers's disease

Abstract本文主要是想检测老年痴呆症,因为语义的缺失是一大症状。获得了96.8%的召回率。通过训练随机森林的分类器获得了0.74的F值(二元分类)。并且仅用了12个特征。 IntroductionAD在病情发展的过程中会出现语言的转变,并且这是可以检测得到的。这些变化包括句法复杂度的下降、找词困难和语义内容缺失,信息密度低(有语义的词在所有词中的比例),效率低。 结合上lexicosynta