A Neural Attention Model for Sentence Summarization

Reading time ~6 minute

  • 思想
    • 论文利用local attention mechanism基于input sentence建模生成摘要的每一个词。
  • 该摘要类型: Abstractive 而非 extractive
  • 模型score函数 \(s(x, y) \approx \sum_{i=0}^{N-1}g(y_{i+1}, x, y_c)\)

N是Output length,论文假定是固定的,且预先设定的。 \(y_c\)是大小的\(C\)的词窗口,计算如下:

\[y_c = [y_{i-C+1}, ...y_{i}]\]

g函数常用conditional log probability,因此\(s(x,y)\)可用以下表示:

\[s(X, Y) = log(Y|X; \theta) \approx \sum_{i=0}^{N-1}log(Y_{i+1}, X, y_c)\]
  • 语言模型

\(log(Y|X; \theta)\)是条件语言模型,核心任务是计算下一个词的概率分布。

  • NNLM

经典NNLM模型如下图

image

Beigio提出的经典神经网络语言模型如下:

\[p(y_{i+1}|y_c,X;\theta) \quad \infty \quad exp(Vh + W_{enc(X,y_c)})\] \[\hat y_c = [Ey_{i-C+1},....Ey_{i}]\] \[h = tanh(U \hat y_c)\]

\(E\)是词嵌套矩阵

\(U,V,W\)是权重矩阵

\(h\)是隐藏层网络

\(enc\)是上下文编码器,对input和当前context的表征。

  • 论文讨论的重点是Encoder使用上,分别介绍了三种Encoder网络结构:
    • Bag of Words Encoder
    • Convolutional Encoder
    • Attention Encoder

本文提出的基于Attention mechanism的Encoder网络结构如下图

image

  • Attention Encoder
\[enc(X,y_c) = p^{T}x^{-}\] \[p \quad \infty \quad exp(\hat x P \hat y_c')\] \[\hat x = [Fx_1,...,Fx_M]\] \[y_c' = [G_{y_{i-C+1}},...,G_{y_i}]\] \[x^{-}_{i} = \sum_{q=i-Q}^{i+Q} \hat x_i / Q\]

\(P\)是input embedding matrixcontext matrix间映射形成的新的权重矩阵

\(F\)是word embedding矩阵

\(G\)是\(context \quad embedding\)

该算法取得了不错准确率效果,生成的摘要句子语法有待进一步改善。

毕昇bisheng平台工作流注册为工具设计

毕昇bisheng平台工作流注册为工具设计 Continue reading

MCP Server工具调研

Published on May 10, 2025

Deepseek大模型原理学习及部署推理

Published on February 26, 2025