数据分析师

手机号

验证码

30天自动登录

数据分析师

机器理解的双向注意力流模型?

来源:CPDA数据分析师网 / 时间:2020-09-24

首先通过使用字符级嵌入层

词级嵌入来完成模型中的文本表示。,将两个表示连接在一起以获得终表示。为了简单起见,我们只能在代码中使用单词级的手套嵌入,一旦我们获得了文本序列中每个单词的矢量表示,我们就会将该序列馈入双向长短期记忆层,以获取精细的上下文表示。公路网是图中未显示的一项重要内容。由于在我以前的任何博客中都没有提到该术语,因此在进入实现部分之前我们将对其进行简要讨论。

 

想象一下一个网络非常深的结构,其中包括多个层堆栈

较早的实验表明,对于梯度大于19的深度,优化模型难度较大,同样如果使用多个堆栈,则由于过多的值小于1的变量相乘而导致信息丢失,因此,将模型的深度增加到某个点以上不会使结果更早受益,公路网络被提出,其中使用门控机制将信息直接传播到下一层因此称为高速公路

 

相似度矩阵

通常,注意力机制用于汇总查询的上下文向量。但是在这里,使用上下文和查询表示来计算共享的相似矩阵。代替计算查询的单个注意,而是计算两个方向上的“注意”,以化信息增益。类似地,矩阵的形状为TxJ,其中T是上下文的序列长度,J是查询的序列长度。可以通过共享的相似度矩阵来计算这两个注意事项。

 

模型各个部分的技术方面和实现

两个问题的注意力矩阵可视化,矩阵的每一列表示段落中的上下文词,而每一行则表示问题向量中的词,区块越大,其关注权重就越大。

 客服热线:400-050-6600

商业联合会数据分析专业委员会


返回列表