A Neural Attention Model for Sentence Summarization

Reading time ~6 minute

  • 思想
    • 论文利用local attention mechanism基于input sentence建模生成摘要的每一个词。
  • 该摘要类型: Abstractive 而非 extractive
  • 模型score函数 s(x,y)N1i=0g(yi+1,x,yc)

N是Output length,论文假定是固定的,且预先设定的。 yc是大小的C的词窗口,计算如下:

yc=[yiC+1,...yi]

g函数常用conditional log probability,因此s(x,y)可用以下表示:

s(X,Y)=log(Y|X;θ)N1i=0log(Yi+1,X,yc)
  • 语言模型

log(Y|X;θ)是条件语言模型,核心任务是计算下一个词的概率分布。

  • NNLM

经典NNLM模型如下图

image

Beigio提出的经典神经网络语言模型如下:

p(yi+1|yc,X;θ)exp(Vh+Wenc(X,yc))
ˆyc=[EyiC+1,....Eyi]
h=tanh(Uˆyc)

E是词嵌套矩阵

U,V,W是权重矩阵

h是隐藏层网络

enc是上下文编码器,对input和当前context的表征。

  • 论文讨论的重点是Encoder使用上,分别介绍了三种Encoder网络结构:
    • Bag of Words Encoder
    • Convolutional Encoder
    • Attention Encoder

本文提出的基于Attention mechanism的Encoder网络结构如下图

image

  • Attention Encoder
enc(X,yc)=pTx
pexp(ˆxPˆyc)
ˆx=[Fx1,...,FxM]
yc=[GyiC+1,...,Gyi]
xi=i+Qq=iQˆxi/Q

Pinput embedding matrixcontext matrix间映射形成的新的权重矩阵

Fword embedding矩阵

Gcontextembedding

该算法取得了不错准确率效果,生成的摘要句子语法有待进一步改善。

Deepseek大模型原理学习及部署推理

DeepSeek-R1 的训练过程分为4个阶段,包括使用数千高质量CoT示例进行SFT的冷启动,面向推理的强化学习,通过拒绝抽样的SFT,面向全场景任务的强化学习与对齐。 Continue reading

Query Rewrite重写技术

Published on July 06, 2024