简析LSTM()函数的输入参数和输出结果(pytorch)

caid 2021-08-30 14:45:16

分类：人工智能、学习笔记 2778 2

LSTM()函数

参数有input_size, hidden_size, num_layers, bias, batch_first, dropout, bidrectional.

常用的就是Input_size就是输入的大小，一般就是多维度的最后一个维度的值。

hidden_size 是输出的维度，也是指输出数据的维度的最后一个维度的大小。

bidrectional表示是否为双向lstm。这可能影响输出维度，后面讲。

e.p.

lstm_bi=torch.nn.LSTM(input_size=10,hidden_size=20,num_layers=1,bias=True,batch_first=False,dropout=0.5,bidirectional=True)

上面就定义了一个双向LSTM，输入的最后一个维度为10，比如说(50,64,10),其中50为每个序列的长度，64为批量大小，10就是50个元素中每个元素对应的向量长度。

举个例子：对于自然语言处理，(50, 64, 10) 一次处理的数据有：64句话，每句话有50个字，每个字用10个数字表示。

包含两个值：维度为前面定义大小的张量和一个元组。

元祖包含(h_0, c_0)，

h_0的维度是(num_layers*num_directions,batch_size,hidden_size)，表示隐藏层的出事状态，c_0的维度和h_0 的一样表示初始细胞状态。

结果包含：output, (h_n, c_n)

output的维度：除了最后一个维度外前面的维度和输入的唯独相同，大小为（序列长度，批量大小，方向数 * 隐藏层大小）

h_n和c_n包含的是句子的最后一个时间步的隐藏状态和细胞状态，维度也相同，是：（隐藏层数 * 方向数，批量大小，隐藏层大小）

e.p.

比如上面的例子中，输出的output大小为(50,64,2*10)

h_n, c_n表示每个句子的最后一个词对应的隐藏状态和细胞状态。

大小为(1*2, 64, 10).

输出的output的最后一个维度上乘了方向数，而h_n, c_n的第一个维度上乘了方向数；

对于单向LSTM而言，h_n是output的最后层的值，即output[-1] = h_n