分类:: Learning

0

Logistics Regression and Softmax

Softmax and Log-Softmax机器学习中为了求导和计算方便,会对probability做取对数的操作,比如softmax和log-softmax的关系。log-softmax看似等价于先做一个softmax的操作,然后再做一个log的操作。可是如果有些prob在做了softmax之后无限接近于0,那么就会导致计算机出现log(0)的问题。在Deep Learning书中的第四章,这

0

matplotlib教程

散点图我有两组数据,需要不同颜色的点将他们表示在一个二维空间中。12345678910111213#plot trainning curvef1=plt.figure(1)#plot real training datap1=plt.scatter(x_train[:,0]*x_max,y_train*y_max,marker='.',color='b',label='real price')#p

0

Hadoop IO

Hadoop IOhadoop提供了多种的解压缩方式,但是由于license的问题,得单独下载。 hadoop同时也对文件读写有校验,一旦出现文件错误,就会报告给namenode,namenode则不会再给别的任务派送这个文件块,同时调度其他的replica来恢复。 每个datanode会定期地检查自己的数据。 使用本地的库来进行压缩或解压可以节省很多时间,相对于通过Java实现的来说。几乎所有的

0

Chapter 15 Database System Concepts

15.1 基于锁的协议确保隔离性的方法之一是要求对数据项以互斥的方式进行访问。实现该需求的最常用的方法是只允许事务访问当前该事务持有锁的数据项。 15.1.1 锁共享型锁和排他型锁 过早释放数据项可能会导致别的事务看到一个不一致的状态。还可能会导致事务的死锁和饿死状态。 我们如果不使用封锁,或者我们对数据项进行读写之后立即解锁,那么我们可能会进入不一致的状态。另一方面,如果在申请对另一数据项加锁之

0

Chapter 14 Database System Concepts

14.1 事务概念构成单一逻辑工作单元的操作集合称作事务。 数据库系统必须以一种能够避免引入不一致性的方式来管理实务的并发执行。 因为事务是不可分割的,所以要么执行其全部内容,要么就根本不执行。这个称作原子性(Atomicity)。 数据库必须采取特殊处理来确保事务正常执行而不被来自并发执行的数据库语句所干扰。这种特性称为隔离性(Isolation)。尽管多个事务可能并发执行,但系统保证,对于任何

0

numpy常用语句

numpy常用语句矩阵以及向量操作初始化一个向量或者矩阵12import numpy as nptheta=np.array([[1,1,1],[1,1,1]]) 上面的代码初始化了一个2x3的矩阵。 1np.ones((3,4),dtype=int16) 上面的代码初始化了一个3x4的全一矩阵,同时指定了它的类型是int16 转置numpy.transpose() 矩阵乘法12A.dot(B)n

0

pyspider爬虫框架源码阅读

pyspider爬虫框架源码阅读主要使用的组件tornado一个异步可并发的网络库 有4个部分组成 Web Framework,RequestHandler HTTP的客户端和服务端 HTTPServer AsyncHTTPClient 一个异步的网络库 IOLoop IOStream 一个协程库 tornado.gen flask用于搭建web server phantomjs用于爬取js页

0

YARN

YARN简介YARN在hadoop 2中被引入,用于改善MapReduce,但是它也被用于支持别的计算框架。YARN提供API用于请求和使用集群资源,但这些不是直接被用户的代码使用的。 如何工作的YARN通过两种守护进程来提供它的核心服务,一个是resource manager,另一个是node managers。后者会启动和监控containers。一个container会执行一个特定程序的进程

0

HDFS

HDFS 学习HDFS文件系统具有高容错率,每个block的size为128MB,为的是减少寻址时间。整个hadoop集群中分为了Namenode和Datanode,其中Namenode保存着metadata,也就是整个HDFS文件系统的树和块信息。而Datanode则负责具体block的存取,并且周期性地向Namenode报告它所拥有的数据块。 datanode自身因为会把block复制几遍,所

0

spawn-fcgi源码阅读

spawn-fcgi源码阅读收获可以解除到socket编程,在unix系统下的一些特性,比如一切皆文件。连socket也是一个文件描述符,这也是为什么在提升服务器并发性的时候需要增加文件描述符的数量,因为有些系统的文件描述符的上限只有1024个,大大限制了可以接收的请求数量。而且其实我的本意是要看一下并发模型的,结果发现这个spawn-fcgi根本没有实现任何的并发代码,感觉只是用了内核自带的并发