- 思想
- 论文利用local attention mechanism基于input sentence建模生成摘要的每一个词。
- 该摘要类型: Abstractive 而非 extractive。
- 模型score函数 \(s(x, y) \approx \sum_{i=0}^{N-1}g(y_{i+1}, x, y_c)\)
N是Output length,论文假定是固定的,且预先设定的。 \(y_c\)是大小的\(C\)的词窗口,计算如下:
\[y_c = [y_{i-C+1}, ...y_{i}]\]g函数常用conditional log probability,因此\(s(x,y)\)可用以下表示:
\[s(X, Y) = log(Y|X; \theta) \approx \sum_{i=0}^{N-1}log(Y_{i+1}, X, y_c)\]- 语言模型
\(log(Y|X; \theta)\)是条件语言模型,核心任务是计算下一个词的概率分布。
- NNLM
经典NNLM模型如下图
Beigio提出的经典神经网络语言模型如下:
\[p(y_{i+1}|y_c,X;\theta) \quad \infty \quad exp(Vh + W_{enc(X,y_c)})\] \[\hat y_c = [Ey_{i-C+1},....Ey_{i}]\] \[h = tanh(U \hat y_c)\]\(E\)是词嵌套矩阵
\(U,V,W\)是权重矩阵
\(h\)是隐藏层网络
\(enc\)是上下文编码器,对input和当前context的表征。
- 论文讨论的重点是Encoder使用上,分别介绍了三种Encoder网络结构:
- Bag of Words Encoder
- Convolutional Encoder
- Attention Encoder
本文提出的基于Attention mechanism的Encoder网络结构如下图
- Attention Encoder
\(P\)是input embedding matrix与context matrix间映射形成的新的权重矩阵
\(F\)是word embedding矩阵
\(G\)是\(context \quad embedding\)
该算法取得了不错准确率效果,生成的摘要句子语法有待进一步改善。