归档: 2016
NAACL-2013-Socher-Manning-DeepLearning
Introduction本来是在看一些关于NLP的一本老教材,但是鉴于现在组里RNN、CNN满天飞,忍不住先来窥探一下Deep Learning在NLP一些传统问题上有什么魔法。 The neural word embedding approach的优势相比于LSA方法,neural word embeddings 可以变得更有意义,通过对一个或多个任务增加监督。 无监督的词向量学习主要思想:一个
论文笔记:A Practical Part-of-Speech Tagger
摘要实现了基于隐马尔可夫模型的词性标注器。这个方法只用很少的资源就可以实现鲁棒的准确的词性标注。只需要一个词表和未标注的文本。准确率超过96%。 必要条件自动化的文本标注是在更大的语料库中发现语言结果的重要的第一步。词性标注为更高层次的分析提供基础。例如识别名词和其他文本中的模式。 一个标注器得具备的几个特性: Robust鲁棒性 Efficient高效性 Accurate 准确性 Tunabl
socket编程的一些问题
多个进程监听一个socket对于监听一个socket来说,多个进程同时在accept处阻塞,当有一个连接进入,多个进程同时被唤醒,但之间只有一个进程能成功accept,而不会同时有多个进程能拿到该连接对象,操作系统保证了进程操作这个连接的安全性。 扩展:上述过程,多个进程同时被唤醒,去抢占accept到的资源,这个现象叫“惊群”,而根据网上资料,Linux 内核2.6以下,accept响应时只有一
spawn-fcgi源码阅读
spawn-fcgi源码阅读收获可以解除到socket编程,在unix系统下的一些特性,比如一切皆文件。连socket也是一个文件描述符,这也是为什么在提升服务器并发性的时候需要增加文件描述符的数量,因为有些系统的文件描述符的上限只有1024个,大大限制了可以接收的请求数量。而且其实我的本意是要看一下并发模型的,结果发现这个spawn-fcgi根本没有实现任何的并发代码,感觉只是用了内核自带的并发
Minimal Height Tree
Minimal Height Tree尝试了用暴力解法,无奈超时了,于是用了比较巧妙的解法。题目中提示答案的顶点数是有范围的,可以通过不断地删除度为1的点,调整每个节点的度,来求最后的答案。
如何在python中使用正则表达式
.匹配除了换行符以外的任意字符。 *表示前面的内容可以连续重复任意次。 .*就表示匹配前面任意个除换行符外的字符组成的字符串。 简介略过。讲讲我的心路历程吧 正则表达式这个我真的是拖了很久才开始接触的东西,现在终于避不过去了,现在有个要探测字符串中是否含有QQ表情和emoji表情的任务。目标语言是python 简单模式2.1 匹配字符必须要掌握的是元符号metacharacter。这里有一个完
HTTP学习以及push机制
什么是长连接当客户端用TCP/IP协议从服务器上获取数据的时候,都需要一个连通客户端和服务器的连接,连接通过三次握手建立,通过四次握手释放。如果每次获取数据都创建一个独占的连接,并在数据传输完毕后释放,这种连接叫做短连接。而一个能够供多个请求多次传输数据,并在数据传输后保活一段时间的连接,我们称之为长连接。(转载自http://www.chanpin100.com/archives/58040)。