基本概念
各組頻率之和的值為1,在頻率分布直方圖中表現為所有矩形的面積之和等于1。各組的平均頻率密度是指組頻率與組距的比值,是指該組内單位距離上的頻率。以平均頻率密度為縱坐标,取代頻率分布直方圖中的頻率,所作的統計圖稱為平均頻率密度直方圖。平均頻率密度直方圖中所有矩形的面積之和等于1。也就是平均頻率密度直方圖中所有矩形的頂邊與直方圖兩邊界邊及橫軸圍成的圖形的面積等于1。當樣本量不斷增加而組距不斷減小,每一組的平均頻率密度就非常接近組中值處的頻率密度,此時頻率密度直方圖的矩形頂邊就非常接近一光滑曲線,該曲線就是頻率密度函數曲線。簡單來說:就是利用直方圖反映樣本的頻率分布規律,這樣的直方圖稱為頻率分布直方圖,簡稱頻率直方圖。
運用
頻率分布直方圖能清楚顯示各組頻數分布情況又易于顯示各組之間頻數的差别。它主要是為了将我們獲取的數據直觀、形象地表示出來,讓我們能夠更好了解數據的分布情況,因此其中組距、組數起關鍵作用。分組過少,數據就非常集中;分組過多,數據就非常分散,這就掩蓋了分布的特征。當數據在100以内時,一般分5~12組為宜。
從頻率分布直方圖可以估計出的幾個數據:
衆數:頻率分布直方圖中最高矩形的底邊中點的橫坐标 。
算術平均數:頻率分布直方圖每組數值的中間值乘以頻率後相加。
加權平均數:加權平均數就是所有的頻率乘以數值後的和相加。
中位數:把頻率分布直方圖分成兩個面積相等部分的平行于Y軸的直線橫坐标。
畫直方圖的步驟
1.找出所有數據中的最大值和最小值,并算出它們的差(極差)。
2.決定組距和組數。
3.确定分點。
4.将數據以表格的形式列出來。(列出頻率分布)
5.畫頻數分布直方圖(橫坐标為樣本資料、縱坐标是樣本頻率除以組距)。
與頻率分布直方圖相關的一種圖為折線圖。我們可以在直方圖的基礎上來畫,先取直方圖各矩形上邊的中點,然後在橫軸上取兩個頻數為0的點,這兩點分别與直方圖左右兩端的兩個長方形的組中值相距一個組距,将這些點用線段依次聯結起來,就得到了頻數分布折線直方圖。
科技期刊論文中頻率分布直方圖的編輯加工
在編輯工作中,經常會碰到帶有頻數(或頻率)分布直方圖(以下簡稱“直方圖”)的稿件。由于作者提供的圖自明性不好,需要編輯加工時修改補充,于是希望通過學習其他期刊對這種圖的加工方法來指導自己的工作實踐;因此,筆者收集了一些期刊上發表的直方圖。在整理這些直方圖的過程中,發現其中出現了不少條形圖,而且直方圖的表達形式也比較混亂,不便于讀者閱讀理解。為了使直方圖的編輯加工有規範可循,學習了GB/T3358.1—2009《統計學詞彙及符号第1部分:一般統計術語與用于概率的術語》中的有關内容,指出了科技期刊論文中頻數(或頻率)分布直方圖表現形式存在的問題,給出了解決辦法,并用實例作了具體說明。
直方圖和條形圖比較
GB/T3358.1—2009對“直方圖”的定義是:頻數分布的一種圖形表示,由一些相鄰的長方形組成,每個長方形的底寬等于組距,面積與組的頻數成比例。對“條形圖”的定義是:由一組寬度相同、高度與頻數成比例的長方形組成的,表示名義特性頻數分布的圖形(注:條形圖中的長方形并不需要相鄰)。
根據GB/T3358.1—2009的定義的内容,對直方圖與條形圖進行了對比,結果如下:
1)直方圖橫軸上的數據是連續的,是一個範圍。條形圖橫軸上的數據是孤立的,是具體的數據。
2)直方圖用長方形的面積表示頻數,長方形的面積越大,表示這組數據的頻數越大;隻有當長方形的底寬都相等即組距相等時,才可以用長方形的高表示頻數的大小。條形圖用條形的高度表示頻數的大小。
3)直方圖中各長方形對應的是一個範圍,由于每2個相鄰範圍之間不重疊、不遺漏,因此直方圖中的長方形之間沒有空隙;而條形圖中各個數據之間是相對獨立的,各個條形之間是有空隙的,并不需要相鄰。
直方圖表達形式存在的問題
通過對收集的科技期刊論文中的頻數(或頻率)分布直方圖進行分析,發現它們主要存在以下問題。
1)将直方圖畫成了條形圖。
2)直方圖橫軸的坐标标值線不能明确地界定分組區間,有的分組區間不是半開區間。
3)直方圖縱軸坐标的名稱(即标目)形式多樣,如分布頻率/%,頻率/%,頻率,頻數,頻數/%,頻數/個,樣品/個,樣品數/塊,樣品數(個),百分比/%,百分數(%),含量(%),數量(%),油氣單元(個數)。頻率與頻數用法混亂,如該用“頻數”的用成了“頻率”,該用“頻率”的用成了“頻數”。
4)圖題籠統,如“……均一化溫度直方圖”“……孔隙度-滲透率頻率直方圖”“……儲集層物性分布直方圖”“……孔隙度頻數分布”“……包裹體測溫統計圖”“……孔隙度滲透率統計直方圖”“沙山迎風坡不同粒級含量”“……油氣水平運移距離統計”“……有機碳分布直方圖”“……碳同位素對比”“……同位素分布直方圖”“……孔隙類型特征”。
規範化編輯加工方法
1)橫軸坐标
直方圖橫軸坐标反映考察對象的類别,從橫軸坐标的名稱(即标目)可以了解統計的是考察對象的定性特征還是定量特征,如果統計的是定量特征還需給出對應的量和單位。
如果統計的是定性特征,那麼要求橫軸坐标的标值線應能清楚地反映統計對象的分組情況:分組的組數(把全體樣本分成的組的數量稱為組數),每個分組的特征名稱。
如果統計的是定量特征,那麼要求橫軸坐标的标值線應能清楚地反映統計對象的分組情況:分組的組數,每組的組距,分組區間的開閉情況(分組區間必須是半開區間,這樣才能保證每個數據都能落入且隻能落入某一個區間)。
2)縱軸坐标
直方圖的縱軸坐标反映的是考察對象的頻率與組距之比,隻有當組距相同時,才可以用長方形的高即縱坐标的數值(即标值)表示頻率(頻數)的大小。由于科技期刊論文中的直方圖多數都采用相同的組距,所以研究僅讨論等組距的情況。
縱軸坐标名稱采用頻數(落在不同小組中的數據數量稱為該組的頻數)或頻率(頻數與樣本總數的比稱為該考察對象的頻率)來表示。各分組的頻數之和等于這組數據的樣本總數。0
如果是頻率分布直方圖,縱軸坐标标目采用“頻率/%”,如果是頻數分布直方圖,則采用“頻數”。
縱軸坐标标目是“頻率/%”,那麼∑fi=100。如果是“頻數”,那麼各統計對象的頻數之和(∑ni=n)必須等于樣本數據總數n。通過這種方法來初步判定作者給出的是頻率還是頻數分布直方圖。
3)圖的形狀
從對直方圖的定義中知道,直方圖是由相鄰的長方形組成的圖形。
利用Excel繪制直方圖時,要先通過繪制柱形圖,将各柱形圖之間的分類間距設置為0後得到,具體步驟是:選中某一個數據系列,單擊右鍵,在彈出的浮動選單中選擇“數據系列格式”,單擊“選項”選項卡,将“分類間距”設置為“0”,同時勾選“依據數據點分色(V)”複選框,按“确定”鍵後,柱形圖之間的間隔即被取消,成為長方形相連的符合标準要求的直方圖。
4)圖題
圖題應能反映考察對象的類别名稱及圖形的樣式名稱,而不是用籠統的圖題表示。建議增加明确指示圖形類型的“頻數(或頻率)分布直方圖”的字樣,這樣可以與條形圖明确區别開來,也便于讀者檢索。例如可将第2章4)中示例的圖題改為“……均一化溫度頻數分布直方圖”“……孔隙度、滲透率頻率分布直方圖”“……儲集層孔隙度、滲透率頻數分布直方圖”“……孔隙度頻率分布直方圖”等。
5)其他
由于頻數(或頻率)分布直方圖是一種統計圖,所以要求圖中應給出樣本總數。當考察對象不止1個時,即橫向指标反映的是多個對象的特征時,須用圖例指明。
研究結論
對于直方圖和條形圖,應注意區分二者的不同。根據直方圖編輯加工規範,可以要求作者按規範修改圖件,補充必要的信息,然後編輯再作加工。如此得到的圖具有自明性,方便讀者閱讀理解。