如何上手使用科學計算庫Numpy?
當我們使用Python進行數(shù)據(jù)分析時,有時我們可能需要根據(jù)數(shù)據(jù)幀中其他列的值向Pandas數(shù)據(jù)幀中添加一列。
雖然這聽起來很簡單,但是如果我們嘗試使用if-else條件語句,可能會變得有點復雜。幸運的是,有一個簡單而好的方法可以用numpy做到這一點!
要學習如何使用它,讓讓我們來看一個具體的數(shù)據(jù)分析問題。我們有超過4000條AAA教育推文的數(shù)據(jù)集。帶有圖片的推文會獲得更多的贊和轉(zhuǎn)發(fā)嗎?讓讓我們做一些分析來找出答案!
我們將從導入pandas和numpy并加載數(shù)據(jù)集開始,看看它是什么樣子的。
我們可以看到,我們的數(shù)據(jù)集包含了每條推文的一些信息,包括:
1)日期——推文發(fā)布的日期。
2)時間——推文發(fā)出的時間。
3)tweet-tweet的實際文本
4)提及——推文中提到的任何其他Twitter用戶。
5)照片——推文中包含的任何圖片的URL。
6)replies_count——推文上的回復數(shù)量
77)retweets_count-轉(zhuǎn)發(fā)的推文數(shù)量
8)likes_count——推文上的贊數(shù)。
我們還可以看到照片數(shù)據(jù)的格式有點奇怪。
使用np.wh
numpy和pandas區(qū)別?
區(qū)別在于兩者含義不同,具體區(qū)別如下。
Numpy,中文意思是(數(shù)值Python),是Python的開源數(shù)值計算擴展。
熊貓的意思是基于中文的數(shù)字Py的一個工具,是為了解決數(shù)據(jù)分析的任務而創(chuàng)建的。Pandas包括大量的庫和一些標準數(shù)據(jù)模型,提供了高效操作大型數(shù)據(jù)集所需的工具。Pandas提供了大量的功能和方法,使我們能夠快速方便地處理數(shù)據(jù)。