归档: 2018/7

0

How NOT To Evaluate Your Dialogue System An Empirical Study of Unsupervised Evaluation Metrics for Dialogue Response Generation

如何评价对话生成的质量而不使用人工标注是一个还未解决的问题。这篇文章将证明现在已有的这些评测指标和Twitter domain的人工评测质量只有一点点的相关性,而在Ubuntu domain上则是毫不相关。这些评测值通常来自于机器翻译、文本摘要,比如BLEU、METEOR和ROUGE。这些指标都假设了合法的回复都有明显特殊的词是和ground truth的回复有重复的。这是一个在对话领域中相当强的

0

Logistics Regression and Softmax

Softmax and Log-Softmax机器学习中为了求导和计算方便,会对probability做取对数的操作,比如softmax和log-softmax的关系。log-softmax看似等价于先做一个softmax的操作,然后再做一个log的操作。可是如果有些prob在做了softmax之后无限接近于0,那么就会导致计算机出现log(0)的问题。在Deep Learning书中的第四章,这