注意力机制在softmax时需要除以一个根号8的作用
生活随笔
收集整理的這篇文章主要介紹了
注意力机制在softmax时需要除以一个根号8的作用
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
推斷:從數(shù)學(xué)公式來看,起到一個縮放的效果,那么體現(xiàn)到注意力值上,我個人的理解是可以分散注意力而不至于過于集中某個token
實驗:
描述:兩組數(shù)據(jù),原始得分?jǐn)?shù)據(jù)為【8,16,32】,縮放后的數(shù)據(jù)【1,2,3】,最終看計算出來的值的差別
import numpy as npdef softmax(x, axis=1):# 計算每行的最大值row_max = x.max(axis=axis)# 每行元素都需要減去對應(yīng)的最大值,否則求exp(x)會溢出,導(dǎo)致inf情況row_max=row_max.reshape(-1, 1)x = x - row_max# 計算e的指數(shù)次冪x_exp = np.exp(x)x_sum = np.sum(x_exp, axis=axis, keepdims=True)s = x_exp / x_sumreturn s?
x = np.array([[8,16,24],[1,2,3]]) np.round(softmax(x),3)array([[0. , 0. , 1. ],[0.09 , 0.245, 0.665]])結(jié)論證明:縮放具備分散注意力的作用;原始注意力值均聚集在得分最高的那個值即24,獲得了權(quán)重為1;而縮放后,注意力值就分散些
?
總結(jié)
以上是生活随笔為你收集整理的注意力机制在softmax时需要除以一个根号8的作用的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 内存的字符与打印出来的字符集的区别
- 下一篇: 正则表达式的深入理解