A Neural Attention Model for Sentence Summarization

思想
- 论文利用local attention mechanism基于input sentence建模生成摘要的每一个词。
该摘要类型: Abstractive 而非 extractive。
模型score函数 \(s(x, y) \approx \sum_{i=0}^{N-1}g(y_{i+1}, x, y_c)\)

N是Output length，论文假定是固定的，且预先设定的。 \(y_c\)是大小的\(C\)的词窗口，计算如下:

\[y_c = [y_{i-C+1}, ...y_{i}]\]

g函数常用conditional log probability，因此\(s(x,y)\)可用以下表示:

\[s(X, Y) = log(Y|X; \theta) \approx \sum_{i=0}^{N-1}log(Y_{i+1}, X, y_c)\]

语言模型

\(log(Y|X; \theta)\)是条件语言模型，核心任务是计算下一个词的概率分布。

NNLM

经典NNLM模型如下图

Beigio提出的经典神经网络语言模型如下:

\[p(y_{i+1}|y_c,X;\theta) \quad \infty \quad exp(Vh + W_{enc(X,y_c)})\] \[\hat y_c = [Ey_{i-C+1},....Ey_{i}]\] \[h = tanh(U \hat y_c)\]

\(E\)是词嵌套矩阵

\(U,V,W\)是权重矩阵

\(h\)是隐藏层网络

\(enc\)是上下文编码器，对input和当前context的表征。

论文讨论的重点是Encoder使用上，分别介绍了三种Encoder网络结构:
- Bag of Words Encoder
- Convolutional Encoder
- Attention Encoder

本文提出的基于Attention mechanism的Encoder网络结构如下图

Attention Encoder

\[enc(X,y_c) = p^{T}x^{-}\] \[p \quad \infty \quad exp(\hat x P \hat y_c')\] \[\hat x = [Fx_1,...,Fx_M]\] \[y_c' = [G_{y_{i-C+1}},...,G_{y_i}]\] \[x^{-}_{i} = \sum_{q=i-Q}^{i+Q} \hat x_i / Q\]

\(P\)是input embedding matrix与context matrix间映射形成的新的权重矩阵

\(F\)是word embedding矩阵

\(G\)是\(context \quad embedding\)

该算法取得了不错准确率效果，生成的摘要句子语法有待进一步改善。

A Neural Attention Model for Sentence Summarization

December 31, 2017

毕昇bisheng平台工作流注册为工具设计

MCP Server工具调研

Deepseek大模型原理学习及部署推理