- 思想
- 论文利用local attention mechanism基于input sentence建模生成摘要的每一个词。
- 该摘要类型: Abstractive 而非 extractive。
- 模型score函数 s(x,y)≈∑N−1i=0g(yi+1,x,yc)
N是Output length,论文假定是固定的,且预先设定的。 yc是大小的C的词窗口,计算如下:
yc=[yi−C+1,...yi]g函数常用conditional log probability,因此s(x,y)可用以下表示:
s(X,Y)=log(Y|X;θ)≈N−1∑i=0log(Yi+1,X,yc)- 语言模型
log(Y|X;θ)是条件语言模型,核心任务是计算下一个词的概率分布。
- NNLM
经典NNLM模型如下图
Beigio提出的经典神经网络语言模型如下:
p(yi+1|yc,X;θ)∞exp(Vh+Wenc(X,yc))
ˆyc=[Eyi−C+1,....Eyi]
h=tanh(Uˆyc)
E是词嵌套矩阵
U,V,W是权重矩阵
h是隐藏层网络
enc是上下文编码器,对input和当前context的表征。
- 论文讨论的重点是Encoder使用上,分别介绍了三种Encoder网络结构:
- Bag of Words Encoder
- Convolutional Encoder
- Attention Encoder
本文提出的基于Attention mechanism的Encoder网络结构如下图
- Attention Encoder
p∞exp(ˆxPˆy′c)
ˆx=[Fx1,...,FxM]
y′c=[Gyi−C+1,...,Gyi]
x−i=i+Q∑q=i−Qˆxi/Q
P是input embedding matrix与context matrix间映射形成的新的权重矩阵
F是word embedding矩阵
G是contextembedding
该算法取得了不错准确率效果,生成的摘要句子语法有待进一步改善。