主页

0

pyspider爬虫框架源码阅读

pyspider爬虫框架源码阅读主要使用的组件tornado一个异步可并发的网络库 有4个部分组成 Web Framework,RequestHandler HTTP的客户端和服务端 HTTPServer AsyncHTTPClient 一个异步的网络库 IOLoop IOStream 一个协程库 tornado.gen flask用于搭建web server phantomjs用于爬取js页

0

YARN

YARN简介YARN在hadoop 2中被引入,用于改善MapReduce,但是它也被用于支持别的计算框架。YARN提供API用于请求和使用集群资源,但这些不是直接被用户的代码使用的。 如何工作的YARN通过两种守护进程来提供它的核心服务,一个是resource manager,另一个是node managers。后者会启动和监控containers。一个container会执行一个特定程序的进程

0

HDFS

HDFS 学习HDFS文件系统具有高容错率,每个block的size为128MB,为的是减少寻址时间。整个hadoop集群中分为了Namenode和Datanode,其中Namenode保存着metadata,也就是整个HDFS文件系统的树和块信息。而Datanode则负责具体block的存取,并且周期性地向Namenode报告它所拥有的数据块。 datanode自身因为会把block复制几遍,所

0

最大熵模型

最大熵模型解决的两个问题 What exactly is meant by “uniform”, and how can we measure the uniformity of a model Having determined a suitable answer to these questions, how do we go about finding the most uniform mo

0

Support Vector Machine

第七章 支持向量机7.1线性可分支持向量机与硬间隔最大化7.1.1线性可分支持向量机一般的,当训练数据集线性可分时,存在无穷个分离超平面可将两类数据正确分开。感知机利用误分类最小的策略,求得分离超平面,不过这时的解有无穷多个,线性可分支持向量机利用间隔最大化求最优分离超平面,这时,解时唯一的。 定义7.1(线性可分支持向量机) 超平面 $w^{*} \cdot x+b^{*}=0$ 决策函数 $

0

第五章-神经网络学习

神经网络5.1 神经元模型M-P神经元模型:$y=f(\sum_{i=1}^{n}w_i x_i - \theta)$ 最后还需要一个激活函数来处理并产生神经元的输出。因为以阶跃函数作为激活函数的话,其具有不连续、不光滑等不太好的性质,因此通常使用Sigmoid函数作为激活函数。它把可能在较大范围内变化的输入值挤压到(0,1)输出值范围内,因此有时也称为挤压函数(squashing functio

0

普通linux用户如何安装程序

安装screen因为最早是使用screen的,所以想要一个screen来代替tmux。 12wget http://ftp.gnu.org/gnu/screen/screen-4.3.1.tar.gztar -xvf screen-4.3.1.tar.gz 运行 1./configure --prefix=$HOME 之后报错了,大概是ncurses找不到。于是我们需要先安装一下ncurses。

0

词性标注

词性标注10.1标记中的信息源 观察感兴趣词的邻近上下文的其它词的词性 利用词本身提供的信息,有人做了一个词性标注起dumb,这个标注器只是将所有词最常用的词性标注给这个词,就取得了90%的准确率。 因此词之间用法及其不平均,因此用统计的方法会更甚一筹。 10.2马尔可夫模型标注器10.2.1概率模型马尔可夫链的两个特性 有限视野(limited horizon)$P(X_{i+1}=t^j|

0

NAACL-2013-Socher-Manning-DeepLearning

Introduction本来是在看一些关于NLP的一本老教材,但是鉴于现在组里RNN、CNN满天飞,忍不住先来窥探一下Deep Learning在NLP一些传统问题上有什么魔法。 The neural word embedding approach的优势相比于LSA方法,neural word embeddings 可以变得更有意义,通过对一个或多个任务增加监督。 无监督的词向量学习主要思想:一个

0

论文笔记:A Practical Part-of-Speech Tagger

摘要实现了基于隐马尔可夫模型的词性标注器。这个方法只用很少的资源就可以实现鲁棒的准确的词性标注。只需要一个词表和未标注的文本。准确率超过96%。 必要条件自动化的文本标注是在更大的语料库中发现语言结果的重要的第一步。词性标注为更高层次的分析提供基础。例如识别名词和其他文本中的模式。 一个标注器得具备的几个特性: Robust鲁棒性 Efficient高效性 Accurate 准确性 Tunabl