免费A级毛片无码专区网站-成人国产精品视频一区二区-啊 日出水了 用力乖乖在线-国产黑色丝袜在线观看下-天天操美女夜夜操美女-日韩网站在线观看中文字幕-AV高清hd片XXX国产-亚洲av中文字字幕乱码综合-搬开女人下面使劲插视频

python-繪圖與可視化( 五 )


python-繪圖與可視化

文章插圖
累積曲線:使用Matplotlib對身高這一定量變量繪制累積曲線的代碼如下:
#繪制累積曲線def drawCumulativaHist(heights):    #創(chuàng)建累積曲線    #第一個參數(shù)為待繪制的定量數(shù)據(jù)    #第二個參數(shù)為劃分的區(qū)間個數(shù)    #normal參數(shù)為是否無量綱化    #histtype參數(shù)為‘step’,繪制階梯狀的曲線    #cumulative參數(shù)為是否累積    pyplot.hist(heights,20,normed=True,histtype='step',cumulative=True)    pyplot.xlabel('Heights')    pyplot.ylabel('Frequency')    pyplot.title('Heights of Students')    pyplot.show()drawCumulativaHist(heights)
python-繪圖與可視化

文章插圖
(3)關(guān)系分析
散點圖 。在散點圖中,分別以自變量和因變量作為橫坐標 。當自變量與因變量線性相關(guān)時,散點圖中的點近似分布在一條直線上 。我們以身高作為自變量,體重作為因變量,討論身高對體重的影響 。使用Matplotlib繪制散點圖的代碼如下:
#繪制散點圖def drawScatter(heights,weights):    #創(chuàng)建散點圖    #第一個參數(shù)為點的橫坐標    #第二個參數(shù)為點的縱坐標    pyplot.scatter(heights,weights)    pyplot.xlabel('Heights')    pyplot.ylabel('Weight')    pyplot.title('Heights & Weight of Students')    pyplot.show()drawScatter(heights,weights)
python-繪圖與可視化

文章插圖
(4)探索分析
箱型圖 。在不明確數(shù)據(jù)分析的目標時,我們對數(shù)據(jù)進行一些探索性的分析,可以知道數(shù)據(jù)的中心位置、發(fā)散程度及偏差程度 。使用Matplotlib繪制關(guān)于身高的箱型圖代碼如下:
#繪制箱型圖def drawBox(heights):    #創(chuàng)建箱型圖    #第一個參數(shù)為待繪制的定量數(shù)據(jù)    #第二個參數(shù)為數(shù)據(jù)的文字說明    pyplot.boxplot([heights],labels=['Heights'])    pyplot.title('Heights of Students')    pyplot.show()drawBox(heights)
python-繪圖與可視化

文章插圖
注:
① 上四分位數(shù)與下四分位數(shù)的差叫四分位差,它是衡量數(shù)據(jù)發(fā)散程度的指標之一
② 上界線和下界線是距離中位數(shù)1.5倍四分位差的線,高于上界線或者低于下界線的數(shù)據(jù)為異常值
描述性統(tǒng)計是容易操作、直觀簡潔的數(shù)據(jù)分析手段 。但是由于簡單,對于多元變量的關(guān)系難以描述 。現(xiàn)實生活中,自變量通常是多元的:決定體重的不僅有身高,還有飲食習(xí)慣、肥胖基因等因素 。通過一些高級的數(shù)據(jù)處理手段,我們可以對多元變量進行處理,例如,特征工程中,可以使用互信息方法來選擇多個對因變量有較強相關(guān)性的自變量作為特征,還可以使用主成分分析法來消除一些冗余的自變量來降低運算復(fù)雜度 。
參考書目:《數(shù)據(jù)館員的python簡明手冊》
【python-繪圖與可視化】

經(jīng)驗總結(jié)擴展閱讀