統計建模和機器學習建模,有什么區別?
相同點:
不同點1、不同的學派:
機器學習(MachineLearning,ML)是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算法復雜度理論等多門學科。
統計建模(Statisticalmodeling)則完全是數學的分支,以概率論為基礎,采用數學統計方法建立模型。
機器學習更多地強調優化和性能,而統計學則更注重推導。
2、不同的數據量:
機器學習應用廣泛。在線學習工具可飛速處理數據。這些機器學習工具可學習數以億計的觀測樣本,預測和學習同步進行。一些算法如隨機森林和梯度助推在處理大數據時速度很快。機器學習處理數據的廣度和深度很大。
統計模型一般應用在較小的數據量和較窄的數據屬性上。
3、不同的數據分析
機器學習本質上是一種算法,這種算法由數據分析習得,而且不依賴于規則導向的程序設計;
統計建模則是以數據為基礎,利用數學方程式來探究變量變化規律的一套規范化流程。
總結來說,機器學習的關鍵詞是預測、監督學習和非監督學習等。而數理統計是關于抽樣、統計和假設檢驗的科學。
4、不同的數據使用
機器學習并不需要對有關變量之間的潛在關系提出先驗假設。研究人員只需要將所有的可用數據導入模型,等待算法的分析并輸出其中的潛在規律,然后將這一規律應用于新數據進行預測就可以了。對于研究人員來說,機器學習就像一個黑盒子,你只需要會用,但并不清楚其中的具體實現。機器學習通常應用于高維度的數據集,你的可用數據越多,預測通常就越準確。
相比之下,統計學則必須了解數據的收集,估計量(包括p值和無偏估計)的統計特征,被研究人群的潛在分布規律,以及多次試驗的期望參數的類型。研究人員需要非常清楚自己在做什么,并提出具有預測能力的參數。而且統計建模通常用于較低維度的數據集。
5、不同的著重點:
機器學習著重于探索數據所展現的關系和結構,更關心模型的預測能力,即更注重模型的優化和性能。
統計建模著重于評估小樣本數據中所體現的關系和結構在總體中推廣,更關心模型的可解釋性,即更注重模型的推導。
關于這一點,我們或許可以從下面這兩段分別來自統計學家和機器學習研究人員針對同一數據模型的描述上得到更深的體會。
機器學習研究人員:在給定a、b和c的前提下,該模型準確預測出結果Y的概率達到了85%。
統計學家:在給定a、b和c的前提下,該模型準確預測出結果