python-繪圖與可視化( 五 ) _生活百科

文章插圖
累積曲線：使用Matplotlib對身高這一定量變量繪制累積曲線的代碼如下：
#繪制累積曲線def drawCumulativaHist(heights): #創(chuàng)建累積曲線 #第一個參數(shù)為待繪制的定量數(shù)據(jù) #第二個參數(shù)為劃分的區(qū)間個數(shù) #normal參數(shù)為是否無量綱化 #histtype參數(shù)為‘step’，繪制階梯狀的曲線 #cumulative參數(shù)為是否累積 pyplot.hist(heights,20,normed=True,histtype='step',cumulative=True) pyplot.xlabel('Heights') pyplot.ylabel('Frequency') pyplot.title('Heights of Students') pyplot.show()drawCumulativaHist(heights)

文章插圖
（3）關(guān)系分析
散點圖。在散點圖中，分別以自變量和因變量作為橫坐標。當自變量與因變量線性相關(guān)時，散點圖中的點近似分布在一條直線上。我們以身高作為自變量，體重作為因變量，討論身高對體重的影響。使用Matplotlib繪制散點圖的代碼如下：
#繪制散點圖def drawScatter(heights,weights): #創(chuàng)建散點圖 #第一個參數(shù)為點的橫坐標 #第二個參數(shù)為點的縱坐標 pyplot.scatter(heights,weights) pyplot.xlabel('Heights') pyplot.ylabel('Weight') pyplot.title('Heights & Weight of Students') pyplot.show()drawScatter(heights,weights)

文章插圖
(4)探索分析
箱型圖。在不明確數(shù)據(jù)分析的目標時，我們對數(shù)據(jù)進行一些探索性的分析，可以知道數(shù)據(jù)的中心位置、發(fā)散程度及偏差程度。使用Matplotlib繪制關(guān)于身高的箱型圖代碼如下：
#繪制箱型圖def drawBox(heights): #創(chuàng)建箱型圖 #第一個參數(shù)為待繪制的定量數(shù)據(jù) #第二個參數(shù)為數(shù)據(jù)的文字說明 pyplot.boxplot([heights],labels=['Heights']) pyplot.title('Heights of Students') pyplot.show()drawBox(heights)

文章插圖
注：
① 上四分位數(shù)與下四分位數(shù)的差叫四分位差，它是衡量數(shù)據(jù)發(fā)散程度的指標之一
② 上界線和下界線是距離中位數(shù)1.5倍四分位差的線，高于上界線或者低于下界線的數(shù)據(jù)為異常值
描述性統(tǒng)計是容易操作、直觀簡潔的數(shù)據(jù)分析手段。但是由于簡單，對于多元變量的關(guān)系難以描述。現(xiàn)實生活中，自變量通常是多元的：決定體重的不僅有身高，還有飲食習(xí)慣、肥胖基因等因素。通過一些高級的數(shù)據(jù)處理手段，我們可以對多元變量進行處理，例如，特征工程中，可以使用互信息方法來選擇多個對因變量有較強相關(guān)性的自變量作為特征，還可以使用主成分分析法來消除一些冗余的自變量來降低運算復(fù)雜度。
參考書目：《數(shù)據(jù)館員的python簡明手冊》
【python-繪圖與可視化】