论文笔记 : Show, Attend and Tell: Neural Image Caption Generation with Visual Attention
首先先贴一下论文链接,在上一篇笔记中介绍了NIC,它使用的是encoder-decoder框架,使用CNN作为encoder提取特征,将softmax的前一层的vector作为encoder端的输出,然后将其输入进使用LSTM的decoder中进行解码并生成句子。总体来讲模型还是很直观的,而且相对于
...