归档: 2016

0

词性标注

词性标注10.1标记中的信息源 观察感兴趣词的邻近上下文的其它词的词性 利用词本身提供的信息,有人做了一个词性标注起dumb,这个标注器只是将所有词最常用的词性标注给这个词,就取得了90%的准确率。 因此词之间用法及其不平均,因此用统计的方法会更甚一筹。 10.2马尔可夫模型标注器10.2.1概率模型马尔可夫链的两个特性 有限视野(limited horizon)$P(X_{i+1}=t^j|

0

NAACL-2013-Socher-Manning-DeepLearning

Introduction本来是在看一些关于NLP的一本老教材,但是鉴于现在组里RNN、CNN满天飞,忍不住先来窥探一下Deep Learning在NLP一些传统问题上有什么魔法。 The neural word embedding approach的优势相比于LSA方法,neural word embeddings 可以变得更有意义,通过对一个或多个任务增加监督。 无监督的词向量学习主要思想:一个

0

论文笔记:A Practical Part-of-Speech Tagger

摘要实现了基于隐马尔可夫模型的词性标注器。这个方法只用很少的资源就可以实现鲁棒的准确的词性标注。只需要一个词表和未标注的文本。准确率超过96%。 必要条件自动化的文本标注是在更大的语料库中发现语言结果的重要的第一步。词性标注为更高层次的分析提供基础。例如识别名词和其他文本中的模式。 一个标注器得具备的几个特性: Robust鲁棒性 Efficient高效性 Accurate 准确性 Tunabl

0

socket编程的一些问题

多个进程监听一个socket对于监听一个socket来说,多个进程同时在accept处阻塞,当有一个连接进入,多个进程同时被唤醒,但之间只有一个进程能成功accept,而不会同时有多个进程能拿到该连接对象,操作系统保证了进程操作这个连接的安全性。 扩展:上述过程,多个进程同时被唤醒,去抢占accept到的资源,这个现象叫“惊群”,而根据网上资料,Linux 内核2.6以下,accept响应时只有一

0

spawn-fcgi源码阅读

spawn-fcgi源码阅读收获可以解除到socket编程,在unix系统下的一些特性,比如一切皆文件。连socket也是一个文件描述符,这也是为什么在提升服务器并发性的时候需要增加文件描述符的数量,因为有些系统的文件描述符的上限只有1024个,大大限制了可以接收的请求数量。而且其实我的本意是要看一下并发模型的,结果发现这个spawn-fcgi根本没有实现任何的并发代码,感觉只是用了内核自带的并发

0

flask学习笔记

Flask安装flask依赖两个外部库,一个是Werkzeug,一个提供WSGI支持,还有一个是Jinja2负责解析模版。 virtualenv它提供了分离运行环境的功能。 123makdir my projectcd myprojectvirtualenv venv 1. venv/bin/activate 最简单的应用1234567from flask import Flask app = F

0

Minimal Height Tree

Minimal Height Tree尝试了用暴力解法,无奈超时了,于是用了比较巧妙的解法。题目中提示答案的顶点数是有范围的,可以通过不断地删除度为1的点,调整每个节点的度,来求最后的答案。

0

如何在python中使用正则表达式

.匹配除了换行符以外的任意字符。 *表示前面的内容可以连续重复任意次。 .*就表示匹配前面任意个除换行符外的字符组成的字符串。 简介略过。讲讲我的心路历程吧 正则表达式这个我真的是拖了很久才开始接触的东西,现在终于避不过去了,现在有个要探测字符串中是否含有QQ表情和emoji表情的任务。目标语言是python 简单模式2.1 匹配字符必须要掌握的是元符号metacharacter。这里有一个完

0

HTTP学习以及push机制

什么是长连接当客户端用TCP/IP协议从服务器上获取数据的时候,都需要一个连通客户端和服务器的连接,连接通过三次握手建立,通过四次握手释放。如果每次获取数据都创建一个独占的连接,并在数据传输完毕后释放,这种连接叫做短连接。而一个能够供多个请求多次传输数据,并在数据传输后保活一段时间的连接,我们称之为长连接。(转载自http://www.chanpin100.com/archives/58040)。

0

马尔可夫模型

马尔可夫模型9.3 隐马尔可夫模型的三个基本问题 给出一个模型$\mu=(A,B,\pi)$,怎样有效地计算某个观测序列发生的概率,即$P(O|\mu)$? 给出观测序列$O$和模型$\mu$,我们怎样选择一个状态序列$(X_{1},...,X_{T+1})$,以便能够最好地解释观测序列? 给定观测序列$O$,以及通过改变模型$\mu=(A,B,\pi)$的参数而得到的模型空间,我们怎样才能找到一