如何進行特征向量的歸一化?
1.定義數據的歸一化,即將數據統一映射到[0,1]區間。
2.方法1)最小-最大歸一化這種歸一化方法也稱為偏差歸一化,將結果值映射到[0,1],轉換函數如下:應用場景:當涉及距離測量、協方差計算和數據不符合正交正態分布時,可以使用第一種方法或其他歸一化方法(不包括Z-score方法)。例如,在圖像處理中,RGB圖像被轉換成灰度圖像,并且它們的值被限制在[0,255]的范圍內。2)Z-Score標準化法的數據經過處理后符合標準正態分布,即平均值為0,標準差為1,其轉換函數為:其中μ為所有樣本數據的平均值,σ為所有樣本數據的標準差。應用場景:在分類和聚類算法中,當需要距離來度量相似度,或者使用PCA技術降維時,Z-scor:log10(x),即以10為底的對數轉換函數,對應的歸一化方法為:xlog10(x)/log10(max),其中max代表樣本數據的最大值。并且所有樣本數據應大于或等于反正切函數變換法。反正切函數可以用來歸一化數據,即xatan(x)*(2/pi)。需要注意的是,如果要映射的區間是[0,1],那么數據應該大于等于0,小于0的數據將被映射到[-1,0]區間。L2范數歸一化方法L2范數歸一化是指特征向量中的每個元素除以向量。
3.角色那么我們為什么要標準化數據呢?舉個例子:假設是預測房價的例子,自變量是面積,房間數是兩個,因變量是房價。那么我們可以得到公式如下:YYθ1xθ2xθ_1x_1xθ_2x_2θ。我們給出兩個圖來表示尋找數據是否均勻化的最優解的過程:非歸一化:歸一化后:我們在尋找最優解,也就是在使損失函數值最小的θ1和θ2中。上面兩個圖代表了損失函數的等高線。可以看出,數據歸一化后,最優解的優化過程會明顯變得平滑,更容易正確收斂到最優解。
4.總結簡而言之,歸一化的目的是將預處理后的數據限制在一定的范圍內(如[0,1]或[-1,1]),從而消除奇異樣本數據帶來的不利影響。當然,如果沒有奇異樣本數據,則可能不執行歸一化。
數據處理方法?
常用數據處理方法
有時候更多的數據處理是從語言的角度調用不同的API來處理數據。但是從商業的角度來說,我很少去想。最近從業務角度了解了常用的數據處理方法,總結如下:
標準化:標準化是數據預處理的一種,目的是去除維度或方差對分析結果的影響。功能:1。消除樣本尺寸的影響;2.消除樣本方差的影響。主要用于數據預處理。
歸一化:對每個獨立樣本進行縮放,使樣本具有一個單位LP范數。