
文章插圖
累積曲線:使用Matplotlib對身高這一定量變量繪制累積曲線的代碼如下:
#繪制累積曲線def drawCumulativaHist(heights): #創(chuàng)建累積曲線 #第一個參數(shù)為待繪制的定量數(shù)據(jù) #第二個參數(shù)為劃分的區(qū)間個數(shù) #normal參數(shù)為是否無量綱化 #histtype參數(shù)為‘step’,繪制階梯狀的曲線 #cumulative參數(shù)為是否累積 pyplot.hist(heights,20,normed=True,histtype='step',cumulative=True) pyplot.xlabel('Heights') pyplot.ylabel('Frequency') pyplot.title('Heights of Students') pyplot.show()drawCumulativaHist(heights)

文章插圖
(3)關(guān)系分析
散點圖 。在散點圖中,分別以自變量和因變量作為橫坐標 。當自變量與因變量線性相關(guān)時,散點圖中的點近似分布在一條直線上 。我們以身高作為自變量,體重作為因變量,討論身高對體重的影響 。使用Matplotlib繪制散點圖的代碼如下:
#繪制散點圖def drawScatter(heights,weights): #創(chuàng)建散點圖 #第一個參數(shù)為點的橫坐標 #第二個參數(shù)為點的縱坐標 pyplot.scatter(heights,weights) pyplot.xlabel('Heights') pyplot.ylabel('Weight') pyplot.title('Heights & Weight of Students') pyplot.show()drawScatter(heights,weights)

文章插圖
(4)探索分析
箱型圖 。在不明確數(shù)據(jù)分析的目標時,我們對數(shù)據(jù)進行一些探索性的分析,可以知道數(shù)據(jù)的中心位置、發(fā)散程度及偏差程度 。使用Matplotlib繪制關(guān)于身高的箱型圖代碼如下:
#繪制箱型圖def drawBox(heights): #創(chuàng)建箱型圖 #第一個參數(shù)為待繪制的定量數(shù)據(jù) #第二個參數(shù)為數(shù)據(jù)的文字說明 pyplot.boxplot([heights],labels=['Heights']) pyplot.title('Heights of Students') pyplot.show()drawBox(heights)

文章插圖
注:
① 上四分位數(shù)與下四分位數(shù)的差叫四分位差,它是衡量數(shù)據(jù)發(fā)散程度的指標之一
② 上界線和下界線是距離中位數(shù)1.5倍四分位差的線,高于上界線或者低于下界線的數(shù)據(jù)為異常值
描述性統(tǒng)計是容易操作、直觀簡潔的數(shù)據(jù)分析手段 。但是由于簡單,對于多元變量的關(guān)系難以描述 。現(xiàn)實生活中,自變量通常是多元的:決定體重的不僅有身高,還有飲食習(xí)慣、肥胖基因等因素 。通過一些高級的數(shù)據(jù)處理手段,我們可以對多元變量進行處理,例如,特征工程中,可以使用互信息方法來選擇多個對因變量有較強相關(guān)性的自變量作為特征,還可以使用主成分分析法來消除一些冗余的自變量來降低運算復(fù)雜度 。
參考書目:《數(shù)據(jù)館員的python簡明手冊》
【python-繪圖與可視化】
經(jīng)驗總結(jié)擴展閱讀
- 柔紗簾與百葉窗哪個好
- 農(nóng)夫與蛇文章講了什么
- 毛巾用幾天變一塊塊黃
- 總裁與ceo有什么區(qū)別
- 孫堅孫策孫權(quán)是什么關(guān)系
- 創(chuàng)造與魔法10月26日禮包兌換碼是什么
- 設(shè)計與制造之間有怎樣的聯(lián)系
- 皂莢樹與皂角樹哪個是洗衣服
- 灑脫的近義詞與反義詞
- 如何找到騎馬與砍殺的存檔
