性能測試:系統的各項性能指标的測試-中文百科頻道

内容

一、概述

性能測試在軟件的質量保證中起着重要的作用，它包括的測試内容豐富多樣。中國軟件評測中心将性能測試概括為三個方面：應用在客戶端性能的測試、應用在網絡上性能的測試和應用在服務器端性能的測試。通常情況下，三方面有效、合理的結合，可以達到對系統性能全面的分析和瓶頸的預測。

應用在客戶端性能的測試

應用在客戶端性能測試的目的是考察客戶端應用的性能，測試的入口是客戶端。它主要包括并發性能測試、疲勞強度測試、大數據量測試和速度測試等，其中并發性能測試是重點。

并發性能測試是重點

并發性能測試的過程是一個負載測試和壓力測試的過程，即逐漸增加負載，直到系統的瓶頸或者不能接收的性能點，通過綜合分析交易執行指标和資源監控指标來确定系統并發性能的過程。負載測試（Load Testing）是确定在各種工作負載下系統的性能，目标是測試當負載逐漸增加時，系統組成部分的相應輸出項，例如通過量、響應時間、CPU負載、内存使用等來決定系統的性能。負載測試是一個分析軟件應用程序和支撐架構、模拟真實環境的使用，從而來确定能夠接收的性能過程。壓力測試（Stress Testing）是通過确定一個系統的瓶頸或者不能接收的性能點，來獲得系統能提供的最大服務級别的測試。

并發性能測試的目的主要體現在三個方面：以真實的業務為依據，選擇有代表性的、關鍵的業務操作設計測試案例，以評價系統的當前性能；當擴展應用程序的功能或者新的應用程序将要被部署時，負載測試會幫助确定系統是否還能夠處理期望的用戶負載，以預測系統的未來性能；通過模拟成百上千個用戶，重複執行和運行測試，可以确認性能瓶頸并優化和調整應用，目的在于尋找到瓶頸問題。

當一家企業自己組織力量或委托軟件公司代為開發一套應用系統的時候,尤其是以後在生産環境中實際使用起來,用戶往往會産生疑問,這套系統能不能承受大量的并發用戶同時訪問?這類問題最常見于采用聯機事務處理(OLTP)方式數據庫應用、Web浏覽和視頻點播等系統。這種問題的解決要借助于科學的軟件測試手段和先進的測試工具。

舉例說明：電信計費軟件

衆所周知,每月20日左右是市話交費的高峰期，全市幾千個收費網點同時啟動。收費過程一般分為兩步,首先要根據用戶提出的電話号碼來查詢出其當月産生費用,然後收取現金并将此用戶修改為已交費狀态。一個用戶看起來簡單的兩個步驟,但當成百上千的終端，同時執行這樣的操作時，情況就大不一樣了,如此衆多的交易同時發生,對應用程序本身、操作系統、中心數據庫服務器、中間件服務器、網絡設備的承受力都是一個嚴峻的考驗。決策者不可能在發生問題後才考慮系統的承受力,預見軟件的并發承受力,這是在軟件測試階段就應該解決的問題。

目前，大多數公司企業需要支持成百上千名用戶，各類應用環境以及由不同供應商提供的元件組裝起來的複雜産品，難以預知的用戶負載和愈來愈複雜的應用程序，使公司擔憂會發生投放性能差、用戶遭受反應慢、系統失靈等問題。其結果就是導緻公司收益的損失。

如何模拟實際情況呢?找若幹台電腦和同樣數目的操作人員在同一時刻進行操作,然後拿秒表記錄下反應時間？這樣的手工作坊式的測試方法不切實際，且無法捕捉程序内部變化情況,這樣就需要壓力測試工具的輔助。

測試的基本策略是自動負載測試，通過在一台或幾台PC機上模拟成百或上千的虛拟用戶同時執行業務的情景，對應用程序進行測試，同時記錄下每一事務處理的時間、中間件服務器峰值數據、數據庫狀态等。通過可重複的、真實的測試能夠徹底地度量應用的可擴展性和性能，确定問題所在以及優化系統性能。預先知道了系統的承受力,就為最終用戶規劃整個運行環境的配置提供了有力的依據。

并發性能測試前的準備工作

測試環境：配置測試環境是測試實施的一個重要階段，測試環境的适合與否會嚴重影響測試結果的真實性和正确性。測試環境包括硬件環境和軟件環境，硬件環境指測試必需的服務器、客戶端、網絡連接設備以及打印機/掃描儀等輔助硬件設備所構成的環境；軟件環境指被測軟件運行時的操作系統、數據庫及其他應用軟件構成的環境。

一個充分準備好的測試環境有三個優點：一個穩定、可重複的測試環境，能夠保證測試結果的正确；保證達到測試執行的技術需求；保證得到正确的、可重複的以及易理解的測試結果。

測試工具：并發性能測試是在客戶端執行的黑盒測試，一般不采用手工方式，而是利用工具采用自動化方式進行。目前，成熟的并發性能測試工具有很多，選擇的依據主要是測試需求和性能價格比。著名的并發性能測試工具有QALoad、LoadRunner、Benchmark Factory和Webstress等。這些測試工具都是自動化負載測試工具，通過可重複的、真實的測試，能夠徹底地度量應用的可擴展性和性能，可以在整個開發生命周期、跨越多種平台、自動執行測試任務，可以模拟成百上千的用戶并發執行關鍵業務而完成對應用程序的測試。

測試數據：在初始的測試環境中需要輸入一些适當的測試數據，目的是識别數據狀态并且驗證用于測試的測試案例，在正式的測試開始以前對測試案例進行調試，将正式測試開始時的錯誤降到最低。在測試進行到關鍵過程環節時，非常有必要進行數據狀态的備份。制造初始數據意味着将合适的數據存儲下來，需要的時候恢複它，初始數據提供了一個基線用來評估測試執行的結果。

在測試正式執行時，還需要準備業務測試數據，比如測試并發查詢業務，那麼要求對應的數據庫和表中有相當的數據量以及數據的種類應能覆蓋全部業務。

模拟真實環境測試，有些軟件，特别是面向大衆的商品化軟件，在測試時常常需要考察在真實環境中的表現。如測試殺毒軟件的掃描速度時，硬盤上布置的不同類型文件的比例要盡量接近真實環境，這樣測試出來的數據才有實際意義。

并發性能測試的種類與指标

并發性能測試的種類取決于并發性能測試工具監控的對象，以QALoad自動化負載測試工具為例。軟件針對各種測試目标提供了DB2、DCOM、ODBC、ORACLE、NETLoad、Corba、QARun、SAP、SQLServer、Sybase、Telnet、TUXEDO、UNIFACE、WinSock、WWW、Java Script等不同的監控對象，支持Windows和UNIX測試環境。

最關鍵的仍然是測試過程中對監控對象的靈活應用，例如目前三層結構的運行模式廣泛使用，對中間件的并發性能測試作為問題被提到議事日程上來，許多系統都采用了國産中間件，選擇Java Script監控對象，手工編寫腳本，可以達到測試目的。

采用自動化負載測試工具執行的并發性能測試，基本遵循的測試過程有：測試需求與測試内容，測試案例制定，測試環境準備，測試腳本錄制、編寫與調試，腳本分配、回放配置與加載策略，測試執行跟蹤，結果分析與定位問題所在，測試報告與測試評估。

并發性能測試監控的對象不同，測試的主要指标也不相同，主要的測試指标包括交易處理性能指标和UNIX資源監控。其中，交易處理性能指标包括交易結果、每分鐘交易數、交易響應時間（Min：最小服務器響應時間；Mean：平均服務器響應時間；Max：最大服務器響應時間；stddev：事務處理服務器響應的偏差，值越大，偏差越大；Median：中值響應時間；90％：90％事務處理的服務器響應時間）、虛拟并發用戶數。

應用實例：“新華社多媒體數據庫 V1.0”性能測試

中國軟件評測中心（CSTC）根據新華社技術局提出的《多媒體數據庫（一期）性能測試需求》和GB/T 17544《軟件包質量要求和測試》的國家标準，使用工業标準級負載測試工具對新華社使用的“新華社多媒體數據庫 V1.0”進行了性能測試。

性能測試的目的是模拟多用戶并發訪問新華社多媒體數據庫，執行關鍵檢索業務，分析系統性能。

性能測試的重點是針對系統并發壓力負載較大的主要檢索業務，進行并發測試和疲勞測試，系統采用B/S運行模式。并發測試設計了特定時間段内分别在中文庫、英文庫、圖片庫中進行單檢索詞、多檢索詞以及變檢索式、混合檢索業務等并發測試案例。疲勞測試案例為在中文庫中并發用戶數200，進行測試周期約8小時的單檢索詞檢索。在進行并發和疲勞測試的同時，監測的測試指标包括交易處理性能以及UNIX（Linux）、Oracle、Apache資源等。

測試結論：在新華社機房測試環境和内網測試環境中，100M帶寬情況下，針對??為200的負載壓力，最大交易

數/分鐘達到78.73，運行基本穩定，但随着負載壓力增大，系統性能有所衰減。

系統能夠承受200并發用戶數持續周期約8小時的疲勞壓力，基本能夠穩定運行。

通過對系統UNIX（Linux）、Oracle和Apache資源的監控，系統資源能夠滿足上述并發和疲勞性能需求，且系統硬件資源尚有較大利用餘地。

當并發用戶數超過200時，監控到HTTP 500、connect和超時錯誤，且Web服務器報内存溢出錯誤，系統應進一步提高性能，以支持更大并發用戶數。

建議進一步優化軟件系統，充分利用硬件資源，縮短交易響應時間。

疲勞強度與大數據量測試

疲勞測試是采用系統穩定運行情況下能夠支持的最大并發用戶數，持續執行一段時間業務，通過綜合分析交易執行指标和資源監控指标來确定系統處理最大工作量強度性能的過程。

疲勞強度測試可以采用工具自動化的方式進行測試，也可以手工編寫程序測試，其中後者占的比例較大。

一般情況下以服務器能夠正常穩定響應請求的最大并發用戶數進行一定時間的疲勞測試，獲取交易執行指标數據和系統資源監控數據。如出現錯誤導緻測試不能成功執行，則及時調整測試指标，例如降低用戶數、縮短測試周期等。還有一種情況的疲勞測試是對當前系統性能的評估，用系統正常業務情況下并發用戶數為基礎，進行一定時間的疲勞測試。

大數據量測試可以分為兩種類型：針對某些系統存儲、傳輸、統計、查詢等業務進行大數據量的獨立數據量測試；與壓力性能測試、負載性能測試、疲勞性能測試相結合的綜合數據量測試方案。大數據量測試的關鍵是測試數據的準備，可以依靠工具準備測試數據。

速度測試目前主要是針對關鍵有速度要求的業務進行手工測速度，可以在多次測試的基礎上求平均值，可以和工具測得的響應時間等指标做對比分析。

應用在網絡上性能的測試

應用在網絡上性能的測試重點是利用成熟先進的自動化技術進行網絡應用性能監控、網絡應用性能分析和網絡預測。

網絡應用性能分析

網絡應用性能分析的目的是準确展示網絡帶寬、延遲、負載和TCP端口的變化是如何影響用戶的響應時間的。利用網絡應用性能分析工具，例如Application Expert，能夠發現應用的瓶頸，我們可知應用在網絡上運行時在每個階段發生的應用行為，在應用線程級分析應用的問題。可以解決多種問題：客戶端是否對數據庫服務器運行了不必要的請求？當服務器從客戶端接受了一個查詢，應用服務器是否花費了不可接受的時間聯系數據庫服務器？在投産前預測應用的響應時間；利用Application Expert調整應用在廣域網上的性能；Application Expert能夠讓你快速、容易地仿真應用性能，根據最終用戶在不同網絡配置環境下的響應時間，用戶可以根據自己的條件決定應用投産的網絡環境。

網絡應用性能監控

在系統試運行之後，需要及時準确地了解網絡上正在發生什麼事情；什麼應用在運行，如何運行；多少PC正在訪問LAN或WAN；哪些應用程序導緻系統瓶頸或資源競争，這時網絡應用性能監控以及網絡資源管理對系統的正常穩定運行是非常關鍵的。利用網絡應用性能監控工具，可以達到事半功倍的效果，在這方面我們可以提供的工具是Network Vantage。通俗地講，它主要用來分析關鍵應用程序的性能，定位問題的根源是在客戶端、服務器、應用程序還是網絡。在大多數情況下用戶較關心的問題還有哪些應用程序占用大量帶寬，哪些用戶産生了最大的網絡流量，這個工具同樣能滿足要求。

網絡預測

考慮到系統未來發展的擴展性，預測網絡流量的變化、網絡結構的變化對用戶系統的影響非常重要。根據規劃數據進行預測并及時提供網絡性能預測數據。我們利用網絡預測分析容量規劃工具PREDICTOR可以作到：設置服務水平、完成日網絡容量規劃、離線測試網絡、網絡失效和容量極限分析、完成日常故障診斷、預測網絡設備遷移和網絡設備升級對整個網絡的影響。

從網絡管理軟件獲取網絡拓撲結構、從現有的流量監控軟件獲取流量信息（若沒有這類軟件可人工生成流量數據），這樣可以得到現有網絡的基本結構。在基本結構的基礎上，可根據網絡結構的變化、網絡流量的變化生成報告和圖表，說明這些變化是如何影響網絡性能的。PREDICTOR提供如下信息：根據預測的結果幫助用戶及時升級網絡，避免因關鍵設備超過利用閥值導緻系統性能下降；哪個網絡設備需要升級，這樣可減少網絡延遲、避免網絡瓶頸；根據預測的結果避免不必要的網絡升級。

應用在服務器上性能的測試

對于應用在服務器上性能的測試，可以采用工具監控，也可以使用系統本身的監控命令，例如Tuxedo中可以使用Top命令監控資源使用情況。實施測試的目的是實現服務器設備

服務器操作系統、數據庫系統、應用在服務器上性能的全面監控，測試原理如下圖。

UNIX資源監控指标和描述

監控指标描述

平均負載系統正常狀态下，最後60秒同步進程的平均個數

沖突率在以太網上監測到的每秒沖突數

進程/線程交換率進程和線程之間每秒交換次數

CPU利用率CPU占用率（％）

磁盤交換率磁盤交換速率

接收包錯誤率接收以太網數據包時每秒錯誤數

包輸入率每秒輸入的以太網數據包數目

中斷速率CPU每秒處理的中斷數

輸出包錯誤率發送以太網數據包時每秒錯誤數

包輸入率每秒輸出的以太網數據包數目

讀入内存頁速率物理内存中每秒讀入内存頁的數目

寫出内存頁速率每秒從物理内存中寫到頁文件中的内存頁數

目或者從物理内存中删掉的内存頁數目

内存頁交換速率每秒寫入内存頁和從物理内存中讀出頁的個數

進程入交換率交換區輸入的進程數目

進程出交換率交換區輸出的進程數目

系統CPU利用率系統的CPU占用率（％）

用戶CPU利用率用戶模式下的CPU占用率（％）

磁盤阻塞磁盤每秒阻塞的字節數

目的

目的是驗證軟件系統是否能夠達到用戶提出的性能指标，同時發現軟件系統中存在的性能瓶頸，優化軟件，最後起到優化系統的目的。

包括的能力，測試中得到的負荷和響應時間數據可以被用于驗證所計劃的模型的能力，并幫助作出決策。

識别體系中的弱點：受控的負荷可以被增加到一個極端的水平，并突破它，從而修複體系的瓶頸或薄弱的地方。

系統調優：重複運行測試，驗證調整系統的活動得到了預期的結果，從而改進性能。

檢測軟件中的問題：長時間的測試執行可導緻程序發生由于内存洩露引起的失敗，揭示程序中的隐含的問題或沖突。

驗證穩定性（resilience）可靠性（reliability）：在一個生産負荷下執行測試一定的時間是評估系統穩定性和可靠性是否滿足要求的唯一方法。

分類

性能測試類型包括負載測試，強度測試，容量測試等

負載測試：負載測試是一種性能測試指數據在超負荷環境中運行，程序是否能夠承擔。

強度測試：強度測試是一種性能測試，他在系統資源特别低的情況下軟件系統運行情況。

容量測試：确定系統可處理同時在線的最大用戶數

觀察指标

性能測試主要是通過自動化的測試工具模拟多種正常、峰值以及異常負載條件來對系統的各項性能指标進行測試。負載測試和壓力測試都屬于性能測試，兩者可以結合進行。通過負載測試，确定在各種工作負載下系統的性能，目标是測試當負載逐漸增加時，系統各項性能指标的變化情況。壓力測試是通過确定一個系統的瓶頸或者不能接收的性能點，來獲得系統能提供的最大服務級别的測試。

在實際中作中我們經常會對兩種類型軟件進行測試：bs和cs，這兩方面的性能指标一般需要哪些内容呢？

Bs結構程序一般會關注的通用指标如下（簡）：

Web服務器指标指标：

*Avg Rps: 平均每秒鐘響應次數＝總請求時間 / 秒數；

*Avg time to last byte per terstion （mstes）:平均每秒業務角本的叠代次數,有人會把這兩者混淆；

*Successful Rounds：成功的請求；

*Failed Rounds：失敗的請求；

*Successful Hits：成功的點擊次數；

*Failed Hits：失敗的點擊次數；

*Hits Per Second：每秒點擊次數；

*Successful Hits Per Second：每秒成功的點擊次數；

*Failed Hits Per Second：每秒失敗的點擊次數；

*Attempted Connections：嘗試鍊接數；

CS結構程序，由于一般軟件後台通常為數據庫，所以我們更注重數據庫的測試指标：

*User 0 Connections：用戶連接數，也就是數據庫的連接數量；

*Number of deadlocks：數據庫死鎖；

*Butter Cache hit：數據庫Cache的命中情況

當然，在實際中我們還會察看多用戶測試情況下的内存，CPU，系統資源調用情況。這些指标其實是引申出來性能測試中的一種：競争測試。什麼是競争測試，軟件競争使用各種資源（數據紀錄，内存等），看他與其他相關系統對資源的争奪能力。

我們知道軟件架構在實際測試中制約着測試策略和工具的選擇。如何選擇性能測試策略是我們在實際工作中需要了解的。一般軟件可以按照系統架構分成幾種類型：

c/s

client/Server客戶端/服務器架構

基于客戶端/服務器的三層架構

基于客戶端/服務器的分布式架構

b/s

基于浏覽器/Web服務器的三層架構

基于中間件應用服務器的三層架構l

基于Web服務器和中間件的多層架構l

步驟

在每種不同的系統架構的實施中，開發人員可能選擇不同的實現方式，造成實際情況紛繁複雜。我們不可能對每種技術都詳細解說，這裡隻是介紹一種方法提供給你如何選擇測試策略，從而幫助分析軟件不同部分的性能指标，進而分析出整體架構的性能指标和性能瓶頸。

由于工程和項目的不同，所選用的度量,評估方法也有不同之處。不過仍然有一些通用的步驟幫助我們完成一個性能測試項目。步驟如下

1．制定目标和分析系統

2．選擇測試度量的方法

3．學習的相關技術和工具

4．制定評估标準

5．設計測試用例

6．運行測試用例

7．分析測試結果

制定目标和分析系統

每一個性能測試計劃中第一步都會制??構成才會澄清測試範圍，知道在測試中要掌握什麼樣的技術。

目标：

1．确定客戶需求和期望

2．實際業務需求

3．系統需求

系統組成

系統組成這裡包含幾方面含義：系統類别，系統構成，系統功能等。了解這些内容的本質其實是幫助我們明确測試的範圍，選者适當的測試方法來進行測試。

系統類别：分清系統類别是我們掌握什麼樣的技術的前提，掌握相應技術做性能測試才可能成功。例如：系統類别是bs結構,需要掌握http協議，java，html等技術。或者是cs結構，可能要了解操作系統，winsock，com等。所以甄别系統類别對于我們來說很重要。

系統構成：硬件設置，操作系統設置是性能測試的制約條件，一般性能測試都是利用測試工具模仿大量的實際用戶操作，系統在超負荷情形下運作。不同的系統構成性能測試就會得到不同的結果。

系統功能：系統功能指系統提供的不同子系統，辦公管理系統中的公文子系統，會議子系統等，系統工能是性能測試中要模拟的環節，了解這些是必要的。

選擇測試度量的方法

經過第一步，将會對系統有清醒的認識。接下來我們将把精力放在軟件度量上，收集系統相關的數據。

度量的相關方面：

制定規範

制定相關流程,角色，職責

制定改進策略

制定結果對比标準

學習的相關技術和工具

性能測試是通過工具，模拟大量用戶操作，對系統增加負載。所以需要掌握一定的工具知識才能進行性能測試。大家都知道性能測試工具一般通過winsock,http等協議紀錄用戶操作。而協議選擇是基于軟件的系統架構實現（web一般選擇http協議,cs選擇winsock協議），不同的性能測試工具，腳本語言也不同，比如rational robot中vu腳本用類c語言實現。

開展性能測試需要對各種性能測試工具進行評估，因為每一種性能測試工具都有自身的特點，隻有經過工具評估，才能選擇符合現有軟件架構的性能測試工具。确定測試工具後，需要組織測試人員進行工具的學習，培訓相關技術。

制定評估标準

任何測試的目的都是确保軟件符合預先規定的目标和要求。性能測試也不例外。所以必須制定一套标準。

通常性能測試有四種模型技術可用于評估：

*線性投射：用大量的過去的，擴展的或者将來可能發生的數據組成散布圖，利用這個圖表不斷和系統的當前狀況對比。

*分析模型：用排隊論公式和算法預測響應時間，利用描述工作量的數據和系統本質關聯起來

*模仿：模仿實際用戶的使用方法測試你的系統

*基準：定義測試和你最初的測試作為标準，利用它和所有後來進行的測試結果進行對比

設計測試用例

設計測試用例是在了解軟件業務流程的基礎上。設計測試用例的原則是受最小的影響提供最多的測試信息，設計測試用例的目标是一次盡可能的包含多個測試要素。這些測試用例必須是測試工具可以實現的，不同的測試場景将測試不同的功能。因為性能測試不同于平時的測試用例，盡可能把性能測試用例設計的複雜，才有可能發現軟件的性能瓶頸。

運行測試用例

通過性能測試工具運行測試用例。同一環境下作的性能測試得到的測試結果是不準确的，所以在運行這些測試用例的時候，需要用不同的測試環境，不同的機器配置上運行。

分析測試結果

運行測試用例後，收集相關信息，進行數據統計分析，找到性能瓶頸。通過排除誤差和其他因素，讓測試結果體現接近真實情況。不同的體系結構分析測試結果的方法也不同，bs結構我們會分析網絡帶寬，流量對用戶操作響應的影響，而cs結構我們可能更關心會系統整體配置對用戶操作的影響。

方法

對于企業應用程序，有許多進行性能測試的方法，其中一些方法實行起來要比其他方法困難。所要進行的性能測試的類型取決于想要達到的結果。例如，對于可再現性，基準測試是最好的方法。而要從當前用戶負載的角度測試系統的上限，則應該使用容量規劃測試。本文将介紹幾種設置和運行性能測試的方法，并讨論這些方法的區别。

如果不進行合理的規劃，對J2EE應用程序進行性能測試将會是一項令人望而生畏且有些混亂的任務。因為對于任何的軟件開發流程，都必須收集需求、理解業務需要，并在??的需求由業務需要驅動，并由一組用例闡明。這些用例可以基于曆史數據（例如，服務器一周的負載模式）或預測的近似值。弄清楚需要測試的内容之後，就需要知道如何進行測試了。

在開發階段前期，應該使用基準測試來确定應用程序中是否出現性能倒退。基準測試可以在一個相對短的時間内收集可重複的結果。進行基準測試的最好方法是，每次測試改變一個且隻改變一個參數。例如，如果想知道增加JVM内存是否會影響應用程序的性能，就逐次遞增JVM内存（例如，從1024 MB增至1224 MB，然後是1524 MB，最後是2024 MB），在每個階段收集結果和環境數據，記錄信息，然後轉到下一階段。這樣在分析測試結果時就有迹可循。下一小節我将介紹什麼是基準測試，以及運行基準測試的最佳參數。

開發階段後期，在應用程序中的bug已經被解決，應用程序達到一種穩定狀态之後，可以運行更為複雜的測試，确定系統在不同的負載模式下的表現。這些測試被稱為容量規劃測試、滲入測試(soak test)、峰谷測試(peak-rest test)，它們旨在通過測試應用程序的可靠性、健壯性和可伸縮性來測試接近于現實世界的場景。對于下面的描述應該從抽象的意義上理解，因為每個應用程序的使用模式都是不同的。例如，容量規劃測試通常都使用較緩慢的ramp-up（下文有定義），但是如果應用程序在一天之中的某個時段中有快速突發的流量，那麼自然應該修改測試以反映這種情況。但是，要記住，因為更改了測試參數（比如ramp-up周期或用戶的考慮時間(think-time)），測試的結果肯定也會改變。

一個不錯的方法是，運行一系列的基準測試，确立一個已知的可控環境，然後再對變化進行比較。

基準測試

基準測試的關鍵是要獲得一緻的、可再現的結果。可再現的結果有兩個好處：減少重新運行測試的次數；對測試的産品和産生的數字更為确信。使用的性能測試工具可能會對測試結果産生很大影響。假定測試的兩個指标是服務器的響應時間和吞吐量，它們會受到服務器上的負載的影響。服務器上的負載受兩個因素影響：同時與服務器通信的連接（或虛拟用戶）的數目，以及每個虛拟用戶請求之間的考慮時間的長短。很明顯，與服務器通信的用戶越多，負載就越大。同樣，請求之間的考慮時間越短，負載也越大。這兩個因素的不同組合會産生不同的服務器負載等級。記住，随着服務器上負載的增加，吞吐量會不斷攀升，直到到達一個點。

随着負載的增加，系統吞吐量的曲線（單位：頁面/秒）

注意，吞吐量以穩定的速度增長，然後在某一個點上穩定下來。

在某一點上，執行隊列開始增長，因為服務器上所有的線程都已投入使用，傳入的請求不再被立即處理，而是放入隊列中，當線程空閑時再處理。

随着負載的增加，系統執行隊列長度的曲線

注意，最初的一段時間，執行隊列的長度為零，然後就開始以穩定的速度增長。這是因為系統中的負載在穩定增長，雖然最初系統有足夠的空閑線程去處理增加的負載，最終它還是不能承受，而必須将其排入隊列。

當系統達到飽和點，服務器吞吐量保持穩定後，就達到了給定條件下的系統上限。但是，随着服務器負載的繼續增長，系統的響應時間也随之延長，雖然吞吐量保持穩定。

随着負載的增加，系統中兩個事務的響應時間曲線

注意，在執行隊列（圖2）開始增長的同時，響應時間也開始以遞增的速度增長。這是因為請求不能被及時處理。

為了獲得真正可再現的結果，應該将系統置于相同的高負載下。為此，與服務器通信的虛拟用戶應該将請求之間的考慮時間設為零。這樣服務器會立即超載，并開始構建執行隊列。如果請求（虛拟用戶）數保持一緻，基準測試的結果應該會非常精确，完全可以再現。

您可能要問的一個問題是：“如何度量結果？”對于一次給定的測試，應該取響應時間和吞吐量的平均值。精确地獲得這些值的唯一方法是一次加載所有的用戶，然後在預定的時間段内持續運行。這稱為“flat”測試。

flat測試的情況（所有的用戶都是同時加載的）

與此相對應的是“ramp-up”測試。

ramp-up測試的情況（在測試期間，用戶以穩定速度（每秒x個）增加）

ramp-up測試中的用戶是交錯上升的（每幾秒增加一些新用戶）。ramp-up測試不能産生精确和可重現的平均值，這是因為由于用戶的增加是每次一部分，系統的負載在不斷地變化。因此，flat運行是獲得基準測試數據的理想模式。

這不是在貶低ramp-up測試的價值。實際上，ramp-up測試對找出以後要運行的flat測試的範圍非常有用。ramp-up測試的優點是，可以看出随着系統負載的改變，測量值是如何改變的。然後可以據此選擇以後要運行的flat測試的範圍。

Flat測試的問題是系統會遇到“波動”效果。

一次flat測試中所測得的系統吞吐量的曲線（單位：頁面/秒）

注意波動的出現，吞吐量不再是平滑的。

這在系統的各個方面都有所體現，包括CPU的使用量。

一次flat測試中所測得的系統CPU使用量随時間變化的曲線

注意，每隔一段時間就會出現一個波形。CPU使用量不再是平滑的，而是有了像吞吐量圖那樣的尖峰。

此外，執行隊列也承受着不穩定的負載，因此可以看到，随着系統負載的增加和減少，執行隊列也在增長和縮減。

一次flat測試中所測得的系統執行隊列的曲線

注意，每隔一段時間就會出現一個波形。執行隊列曲線與上面的CPU使用量圖非常相似。

最後，系統中事務的響應時間也遵循着這個波動模式。

一次flat測試中所測得的系統事務的響應時間

注意，每隔一段時間就會出現一個波形。事務的響應時間也與上面的圖類似，隻不過其效果随着時間的推移逐漸減弱。

當測試中所有的用戶都同時執行幾乎相同的操作時，就會發生這種現象。這将會産生非常不可靠和不精确的結果，所以必須采取一些措施防止這種情況的出現。有兩種方法可以從這種類型的結果中獲得精确的測量值。如果測試可以運行相當長的時間（有時是幾個小時，取決于用戶的操作持續的時間），最後由于随機事件的本性使然，服務器的吞吐量會被“拉平”。或者，可以隻選取波形中兩個平息點之間的測量值。該方法的缺點是可以捕獲數據的時間非常短。

性能規劃測試

對于性能規劃類型的測試來說，其目标是找出，在特定的環境下，給定應用程序的性能可以達到何種程度。此時可重現性就不如在基準測試中那麼重要了，因為測試中通常都會有随機因子。引入随機因子的目的是為了盡量模拟具有真實用戶負載的現實世界應用程序。通常，具體的目标是找出系統在特定的服務器響應時間下支持的當前用戶的最大數。例如，您可能想知道：如果要以5秒或更少的響應時間支持8,000個當前用戶，需要多少個服務器？要回答這個問題，需要知道系統的更多信息。

要确定系統的容量，需要考慮幾個因素。通常，服務器的用戶總數非常大（以十萬計），但是實際上，這個數字并不能說明什麼。真正需要知道的是，這些用戶中有多少是并發與服務器通信的。其次要知道的是，每個用戶的“考慮時間”即請求間時間是多少。這非常重要，因為考慮時間越短，系統所能支持的并發用戶越少。例如，如果用戶的考慮時間是1秒，那麼系統可能隻能支持數百個這樣的并發用戶。但是，如果用戶的考慮時間是30秒，那麼系統則可能支持數萬個這樣的并發用戶（假定硬件和應用程序都是相同的）。在現實世界中，通常難以确定用戶的确切考慮時間。還要注意，在現實世界中，用戶不會精确地按照間隔時間發出請求。

于是就引入了随機性。如果知道普通用戶的考慮時間是5秒，誤差為20%，那麼在設計負載測試時，就要确保請求間的時間為5×（1 +/- 20%）秒。此外，可以利用“調步”的理念向負載場景中引入更多的随機性。它是這樣的：在一個虛拟用戶完成一整套的請求後，該用戶暫停一個設定的時間段，或者一個小的随機時間段（例如，2×（1 +/- 25%）秒），然後再繼續執行下一套請求。将這兩種随機化方法運用到測試中，可以提供更接近于現實世界的場景。

現在該進行實際的容量規劃測試了。接下來的問題是：如何加載用戶以模拟負載狀态？最好的方法是模拟高峰時間用戶與服務器通信的狀況。這種用戶負載狀态是在一段時間内逐步達到的嗎？如果是，應該使用ramp-up類型的測試，每隔幾秒增加x個用戶。或者，所有用戶是在一個非常短的時間内同時與系統通信？如果是這樣，就應該使用flat類型的測試，将所有的用戶同時加載到服務器。兩種不同類型的測試會産生沒有可比性的不同測試。例如，如果進行ramp-up類型的測試，系統可以以4秒或更短的響應時間支持5,000個用戶。

而執行flat測試，您會發現，對于5,000個用戶，系統的平均響應時間要大于4秒。這是由于ramp-up測試固有的不準确性使其不能顯示系統可以支持的并發用戶的精确數字。以門戶應用程序為例，随着門戶規模的擴大和集群規模的擴大，這種不确定性就會随之顯現。

這不是說不應該使用ramp-up測試。對于系統負載在一段比較長的時間内緩慢增加的情況，ramp-up測試效果還是不錯的。這是因為系統能夠随着時間不斷調整。如果使用快速ramp-up測試，系統就會滞後，從而報告一個較相同用戶負載的flat測試低的響應時間。那麼，什麼是确定容量的最好方法？結合兩種負載類型的優點，并運行一系列的測試，就會産生最好的結果。例如，首先使用ramp-up測試确定系統可以支持的用戶範圍。确定了範圍之後，以該範圍内不同的并發用戶負載進行一系列的flat測試，更精确地确定系統的容量。

滲入測試

滲入測試是一種比較簡單的性能測試。滲入測試所需時間較長，它使用固定數目的并發用戶測試系統的總體健壯性。這些測試将會通過内存洩漏、增加的垃圾收集(GC)或系統的其他問題，顯示因長時間運行而出現的任何性能降低。測試運行的時間越久，您對系統就越了解。運行兩次測試是一個好主意——一次使用較低的用戶負載（要在系統容量之下，以便不會出現執行隊列），一次使用較高的負載（以便出現積極的執行隊列）。

測試應該運行幾天的時間，以便真正了解應用程序的長期健康狀況。要确保測試的應用程序盡可能接近現實世界的情況，用戶場景也要逼真（虛拟用戶通過應用程序導航的方式要與現實世界一緻），從而測試應用程序的全部特性。确保運行了所有必需的監控工具，以便精确地監測并跟蹤問題。

峰谷測試

峰谷測試兼有容量規劃ramp-up類型測試和滲入測試的特征。其目标是确定從高負載（例如系統高峰時間的負載）恢複、轉為幾乎空閑、然後再攀升到高負載、再降低的能力。

實現這種測試的最好方法就是，進行一系列的快速ramp-up測試，繼之以一段時間的平穩狀态（取決于業務需求），然後急劇降低負載，此時可以令系統平息一下，然後再進行快速的ramp-up；反複重複這個過程。這樣可以确定以下事項：第二次高峰是否重現第一次的峰值？其後的每次高峰是等于還是大于第一次的峰值？在測試過程中，系統是否顯示了内存或GC性能降低的有關迹象？測試運行（不停地重複“峰值/空閑”周期）的時間越長，您對系統的長期健康狀況就越了解。

工具

自動化測試工具介紹LR篇

HPLoadRunner是一種預測系統行為和性能的負載測試工具。通過以模拟上千萬用戶實施并發負載及實時性能監測的方式來确認和查找問題，LoadRunner能夠對整個企業架構進行測試。通過使用LoadRunner，企業能最大限度地縮短測試時間，優化性能和加速應用系統的發布周期。

目前企業的網絡應用環境都必須支持大量用戶，網絡體系架構中含各類應用環境且由不同供應商提供軟件和硬件産品。難以預知的用戶負載和愈來愈複雜的應用環境使公司時時擔心會發生用戶響應速度過慢，系統崩潰等問題。這些都不可避免地導緻公司收益的損失。LoadRunner能讓企業保護自己的收入來源，無需購置額外硬件而最大限度地利用現有的IT資源，并确保終端用戶在應用系統的各個環節中對其測試應用的質量，可靠性和可擴展性都有良好的評價。

輕松創建虛拟用戶

使用LoadRunner 的Virtual User Generator，您能很簡便地創立起系統負載。該引擎能夠生成虛拟用戶，以虛拟用戶的方式模拟真實用戶的業務操作行為。它先記錄下業務流程（如下訂單或機票預定），然後将其轉化為測試腳本。利用虛拟用戶，您可以在Windows，UNIX或Linux機器上同時産生成千上萬個用戶訪問。所以LoadRunner能極大的減少負載測試所需的硬件和人力資源。另外，LoadRunner 的TurboLoad 專利技術能。

提供很高的适應性。TurboLoad使您可以産生每天幾十萬名在線用戶和數以百萬計的點擊數的負載。

用Virtual User Generator建立測試腳本後，您可以對其進行參數化操作，這一操作能讓您利用幾套不同的實際發生數據來測試您的應用程序，從而反映出本系統的負載能力。以一個訂單輸入過程為例，參數化操作可将記錄中的固定數據，如訂單号和客戶名稱，由可變值來代替。在這些變量内随意輸入可能的訂單号和客戶名，來匹配多個實際用戶的操作行為。

LoadRunner通過它的Data Wizard來自動實現其測試數據的參數化。Data Wizard直接連于數據庫服務器，從中您可以獲取所需的數據（如定單号和用戶名）并直接将其輸入到測試腳本。這樣避免了人工處理數據的需要，Data Wizard 為您節省了大量的時間。

為了進一步确定您的Virtual user能夠模拟真實用戶，您可利用LoadRunner控制某些行為特性。例如，隻需要點擊一下鼠标，您就能輕易控制交易的數量，交易頻率，用戶的思考時間和連接速度等。

創建真實的負載

Virtual users建立起後，您需要設定您的負載方案，業務流程組合和虛拟用戶數量。用LoadRunner 的Controller，您能很快組織起多用戶的測試方案。Controller 的Rendezvous功能提供一個互動的環境，在其中您既能建立起持續且循環的負載，又能管理和驅動負載測試方案。

而且，您可以利用它的日程計劃服務來定義用戶在什麼時候訪問系統以産生負載。這樣，您就能将測試過程自動化。同樣您還可以用Controller來限定您的負載方案，在這個方案中所有的用戶同時執行一個動作---如登陸到一個庫存應用程序——---來模拟峰值負載的情況。另外，您還能監測系統架構中各個組件的性能——包括服務器，數據庫，網絡設備等——---來幫助客戶決定系統的配置。

LoadRunner 通過它的AutoLoad技術，為您提供更多的測試靈活性。使用AutoLoad，您可以根據目前的用戶人數事先設定測試目标，優化測試流程。例如，您的目标可以是确定您的應用系統承受的每秒點擊數或每秒的交易量。

最大化投資回報

所有Mercury Interactive的産品和服務都是集成設計的，能完全相容地一起運作。由于它們具有相同的核心技術，來自于LoadRunner和ActiveTest TM 的測試腳本，在Mercury Interactive的負載測試服務項目中，可以被重複用于性能監測。借助Mercury Interactive的監測功能－Topaz TM 和ActiveWatch TM，測試腳本可重複使用從而平衡投資收益。更重要的是，您能為測試的前期部署和生産系統的監測提供一個完整的應用性能管理解決方案。

支持無線應用協議

随着無線設備數量和種類的增多，您的測試計劃需要同時滿足傳統的基于浏覽器的用戶和無線互聯網設備，如手機和PDA。LoadRunner支持2項最廣泛使用的協議：WAP和I-mode。此外，通過負載測試系統整體架構，LoadRunner能讓您隻需要通過記錄一次腳本，就可完全檢測上述這些無線互聯網系統。

支持Media Stream應用

LoadRunner還能支持Media Stream應用。為了保證終端用戶得到良好的操作體驗和高質量Media Stream，您需要檢測您的Media Stream應用程序。使用LoadRunner，您可以記錄和重放任何流行的多媒體數據流格式來診斷系統的性能問題，查找原由，分析數據的質量。

完整的企業應用環境的支持。

LoadRunner支持廣泛的協議，可以測試各種IT基礎架構。

性能測試工具PerformanceRunner

PerformanceRunner（簡稱PR）是性能測試軟件，通過模拟高并發的客戶端，通過協議和報文産生并發壓力給服務器，測試整個系統的負載和壓力承受能力，實現壓力測試、性能測試、配置測試、峰值測試等。

功能如下：

錄制測試腳本

PR通過兼聽應用程序的協議和端口，錄制應用程序的協議和報文，創建測試腳本。PR采用java作為标準測試腳本，支持參數化、檢查點等功能。

關聯與session

對于應用程序，特别是B/S架構程序中的session，通過“關聯”來實現。用戶隻需要點擊“關聯”的按鈕，PR會自動掃描測試腳本，設置關聯，實現有session的測試。

集合點

PR支持集合點，通過函數可以設置集合點。設置集合點能夠保證在一個時間點上的并發壓力達到預期的指标，使性能并發更真實可信。

産生并發壓力

性能腳本創建之後，通過創建項目，設置壓力模型，就可以産生壓力。PR能夠在單台機器上産生多大5000個并發的壓力。

應用場景支持

通過設置多項目腳本的壓力曲線，可以實現應用場景測試。

執行監控

在啟動性能測試之後，系統會按照設定的場景産生壓力。在執行過程中，需要觀察腳本執行的情況，被測試系統的性能指标情況。PR通過執行監控來查看這些信息。

性能分析報表

一次性能測試執行完成，會創建各種性能分析報表，包括cpu相關、吞吐率、并發數等。

系統要求：windows(32位/64位)2000/xp/vista/2003/7/2008

結束語

本文介紹了進行性能測試的幾種方法。取決于業務需求、開發周期和應用程序的生命周期，對于特定的企業，某些測試會比其他的更适合。但是，對于任何情況，在決定進行某一種測試前，都應該問自己一些基本問題。這些問題的答案将會決定哪種測試方法是最好的。

這些問題包括：

結果的可重複性需要有多高？

測試需要運行和重新運行幾次？

您處于開發周期的哪個階段？

您的業務需求是什麼？

您的用戶需求是什麼？

您希望生産中的系統在維護停機時間中可以持續多久？

在一個正常的業務日，預期的用戶負載是多少？

将這些問題的答案與上述性能測試類型相對照，應該就可以制定出測試應用程序的總體性能的完美計劃。

性能測試是為描述測試對象與性能相關的特征并對其進行評價，而實施和執行的一類測試，如描述和評價計時配置文件、執行流、響應時間以及操作的可靠性和限制等特征。不同類型的性能測試側重于不同的測試目标，這些性能測試的實施貫穿于整個軟件開發生命周期(Software Development Life Cycle,SDLC)。起初，在構架叠代中，性能測試側重于确定和消除與構架有關的性能瓶頸。在構建叠代中還将實施和執行其他類型的性能測試，以調整軟件和環境（優化響應時間和資源），并核實應用程序和系統是否能夠處理高負載和高強度的情況，如有大量事務、客戶機和/或數據的情況。

測試類型

性能測試中包含以下測試類型：

基準測試-比較新的或未知測試對象與已知參照标準（如現有軟件或評測标準）的性能。

争用測試-核實測試對象對于多個主角對相同資源（數據記錄、内存等）的請求的處理是否可以接受。

性能配置-核實在操作條件保持不變的情況下，測試對象在使用不同配置時其性能行為的可接受性。

負載測試-核實在保持配置不變的情況下，測試對象在不同操作條件（如不同用戶數、事務數等）下性能行為的可接受性。

強度測試-核實測試對象性能行為在異常或極端條件（如資源減少或用戶數過多）之下的可接受性。

容量測試-核實測試用戶同時使用軟件程序的最大數量。

性能評價通常是和用戶代表一起協作并且以多級方法執行的。

性能分析的第一級涉及單一主角/用例實例的結果評價和多個測試執行的結果比較。例如，在測試對象上沒有其他活動的情況下，記錄單一主角執行單一用例的性能行為，并将結果與相同主角/用例的其他幾個測試執行進行比較。第一級分析有助于确定可以表明系統資源中存在争用的趨勢，該趨勢将影響從其他性能測試結果所得出的結論的有效性。

分析的第二級檢查特定主角/用例執行的摘要統計信息和實際數據值，以及測試對象的性能行為。摘要統計信息包括響應時間的标準偏差和百分位分布，這些信息顯示了系統響應的變動情況，正如每個主角所見到的一樣。

分析的第三級有助于理解性能問題的起因和加權值。該詳細分析采用低級數據并且使用統計方法，幫助測試員從數據中得出正确的結論。詳細分析為決策提供客觀和定量的标準，但是它耗時較長，并且要求對統計學有基本的理解。

當性能行為差異确實存在，或是由于某些與測試數據收集相關的随機事件引起時，詳細分析使用統計加權值的概念來幫助理解。即認為在基本級上，任何事件都具有随機性。統計測試确定是否存在無法用随機事件解釋的系統差異。