A Neural Attention Model for Sentence Summarization

Reading time ~6 minute

  • 思想
    • 论文利用local attention mechanism基于input sentence建模生成摘要的每一个词。
  • 该摘要类型: Abstractive 而非 extractive
  • 模型score函数 \(s(x, y) \approx \sum_{i=0}^{N-1}g(y_{i+1}, x, y_c)\)

N是Output length,论文假定是固定的,且预先设定的。 \(y_c\)是大小的\(C\)的词窗口,计算如下:

\[y_c = [y_{i-C+1}, ...y_{i}]\]

g函数常用conditional log probability,因此\(s(x,y)\)可用以下表示:

\[s(X, Y) = log(Y|X; \theta) \approx \sum_{i=0}^{N-1}log(Y_{i+1}, X, y_c)\]
  • 语言模型

\(log(Y|X; \theta)\)是条件语言模型,核心任务是计算下一个词的概率分布。

  • NNLM

经典NNLM模型如下图

image

Beigio提出的经典神经网络语言模型如下:

\[p(y_{i+1}|y_c,X;\theta) \quad \infty \quad exp(Vh + W_{enc(X,y_c)})\] \[\hat y_c = [Ey_{i-C+1},....Ey_{i}]\] \[h = tanh(U \hat y_c)\]

\(E\)是词嵌套矩阵

\(U,V,W\)是权重矩阵

\(h\)是隐藏层网络

\(enc\)是上下文编码器,对input和当前context的表征。

  • 论文讨论的重点是Encoder使用上,分别介绍了三种Encoder网络结构:
    • Bag of Words Encoder
    • Convolutional Encoder
    • Attention Encoder

本文提出的基于Attention mechanism的Encoder网络结构如下图

image

  • Attention Encoder
\[enc(X,y_c) = p^{T}x^{-}\] \[p \quad \infty \quad exp(\hat x P \hat y_c')\] \[\hat x = [Fx_1,...,Fx_M]\] \[y_c' = [G_{y_{i-C+1}},...,G_{y_i}]\] \[x^{-}_{i} = \sum_{q=i-Q}^{i+Q} \hat x_i / Q\]

\(P\)是input embedding matrixcontext matrix间映射形成的新的权重矩阵

\(F\)是word embedding矩阵

\(G\)是\(context \quad embedding\)

该算法取得了不错准确率效果,生成的摘要句子语法有待进一步改善。

Query Rewrite重写技术

Query rewriting 是将 queries 和系统中存储的文档的语义空间进行对齐(aligning the semantics of queries and documents)的关键技术。 Continue reading

GraphRAG介绍

Published on July 02, 2024

RAG系统优化

Published on June 26, 2024