簡介
WebRTC是一款在浏覽器内部進行實時視頻和音頻通信的技術,谷歌在2010年收購互聯網電話和視頻會議公司(GlobalIPSolutions)後獲得這一技術。
WebRTC(WebReal-TimeCommunication)項目的最終目的主要是讓Web開發者能夠基于浏覽器(ChromeFireFox...)輕易快捷開發出豐富的實時多媒體應用,而無需下載安裝任何插件,Web開發者也無需關注多媒體的數字信号處理過程,隻需編寫簡單的Javascript程序即可實現,W3C等組織正在制定Javascript标準API,目前是WebRTC1.0版本,Draft狀态;另外WebRTC還希望能夠建立一個多互聯網浏覽器間健壯的實時通信的平台,形成開發者與浏覽器廠商良好的生态環境。同時,Google也希望和緻力于讓WebRTC的技術成為HTML5标準之一,可見Google布局之深遠。
WebRTC提供了視頻會議的核心技術,包括音視頻的采集、編解碼、網絡傳輸、顯示等功能,并且還支持跨平台:windows,linux,mac,android。
架構
架構圖顔色标識說明:
(1)紫色部分是Web開發者API層;
(2)藍色實線部分是面向浏覽器廠商的API層
(3)藍色虛線部分浏覽器廠商可以自定義實現
WebRTC架構組件介紹
(1)YourWebApp
Web開發者開發的程序,Web開發者可以基于集成WebRTC的浏覽器提供的webAPI開發基于視頻、音頻的實時通信應用。
(2)WebAPI
面向第三方開發者的WebRTC标準API(Javascript),使開發者能夠容易地開發出類似于網絡視頻聊天的web應用,最新的标準化進程可以查看這裡。
這些API可分成NetworkStreamAPI、RTCPeerConnection、Peer-to-peerDataAPI三類,詳細的API說明可以看這裡。
NetworkStreamAPI
MediaStream:MediaStream用來表示一個媒體數據流。
MediaStreamTrack在浏覽器中表示一個媒體源。
RTCPeerConnection
RTCPeerConnection:一個RTCPeerConnection對象允許用戶在兩個浏覽器之間直接通訊。
RTCIceCandidate:表示一個ICE協議的候選者。
RTCIceServer:表示一個ICEServer。
Peer-to-peerDataAPI
DataChannel:數據通道(DataChannel)接口表示一個在兩個節點之間的雙向的數據通道。
(3)WebRTCNativeC++API
本地C++API層,使浏覽器廠商容易實現WebRTC标準的WebAPI,抽象地對數字信号過程進行處理。
(4)Transport/Session
傳輸/會話層
會話層組件采用了libjingle庫的部分組件實現,無須使用xmpp/jingle協議
a.RTPStack協議棧
RealTimeProtocol
b.STUN/ICE
可以通過STUN和ICE組件來建立不同類型網絡間的呼叫連接。
c.SessionManagement
一個抽象的會話層,提供會話建立和管理功能。該層協議留給應用開發者自定義實現。
(5)VoiceEngine
音頻引擎是包含一系列音頻多媒體處理的框架,包括從視頻采集卡到網絡傳輸端等整個解決方案。
PS:VoiceEngine是WebRTC極具價值的技術之一,是Google收購GIPS公司後開源的。在VoIP上,技術業界領先,後面的文章會詳細了解
a.iSAC
InternetSpeechAudioCodec
針對VoIP和音頻流的寬帶和超寬帶音頻編解碼器,是WebRTC音頻引擎的默認的編解碼器
采樣頻率:16khz,24khz,32khz;(默認為16khz)
自适應速率為10kbit/s~52kbit/;
自适應包大小:30~60ms;
算法延時:frame+3ms
b.iLBC
InternetLowBitrateCodec
VoIP音頻流的窄帶語音編解碼器
采樣頻率:8khz;
20ms幀比特率為15.2kbps
30ms幀比特率為13.33kbps
标準由IETFRFC3951和RFC3952定義
c.NetEQforVoice
針對音頻軟件實現的語音信号處理元件
NetEQ算法:自适應抖動控制算法以及語音包丢失隐藏算法。使其能夠快速且高解析度地适應不斷變化的網絡環境,确保音質優美且緩沖延遲最小。
是GIPS公司獨步天下的技術,能夠有效的處理由于網絡抖動和語音包丢失時候對語音質量産生的影響。
PS:NetEQ也是WebRTC中一個極具價值的技術,對于提高VoIP質量有明顯效果,加以AECNRAGC等模塊集成使用,效果更好。
d.AcousticEchoCanceler(AEC)
回聲消除器是一個基于軟件的信号處理元件,能實時的去除mic采集到的回聲。
e.NoiseReduction(NR)
噪聲抑制也是一個基于軟件的信号處理元件,用于消除與相關VoIP的某些類型的背景噪聲(嘶嘶聲,風扇噪音等等……)
(6)VideoEngine
WebRTC視頻處理引擎
VideoEngine是包含一系列視頻處理的整體框架,從攝像頭采集視頻到視頻信息網絡傳輸再到視頻顯示整個完整過程的解決方案。
a.VP8
視頻圖像編解碼器,是WebRTC視頻引擎的默認的編解碼器
VP8适合實時通信應用場景,因為它主要是針對低延時而設計的編解碼器。
PS:VPx編解碼器是Google收購ON2公司後開源的,VPx現在是WebM項目的一部分,而WebM項目是Google緻力于推動的HTML5标準之一
b.VideoJitterBuffer
視頻抖動緩沖器,可以降低由于視頻抖動和視頻信息包丢失帶來的不良影響。
c.Imageenhancements
圖像質量增強模塊
對網絡攝像頭采集到的圖像進行處理,包括明暗度檢測、顔色增強、降噪處理等功能,用來提升視頻質量。
相關
谷歌2011年6月3日宣布向開發人員開放WebRTC架構的源代碼。這個源代碼将根據沒有專利費的BSD(伯克利軟件發布)式的許可證向用戶提供。目前,開發人員可訪問并獲取WebRTC的源代碼、規格說明和工具等。
分析
視頻
WebRTC的視頻部分,包含采集、編解碼(I420/VP8)、加密、媒體文件、圖像處理、顯示、網絡傳輸與流控(RTP/RTCP)等功能。
視頻采集---video_capture
源代碼在webrtcmodulesvideo_capturemain目錄下,包含接口和各個平台的源代碼。
在windows平台上,WebRTC采用的是dshow技術,來實現枚舉視頻的設備信息和視頻數據的采集,這意味着可以支持大多數的視頻采集設備;對那些需要單獨驅動程序的視頻采集卡(比如海康高清卡)就無能為力了。
視頻采集支持多種媒體類型,比如I420、YUY2、RGB、UYUY等,并可以進行幀大小和幀率控制。
視頻編解碼---video_coding
源代碼在webrtcmodulesvideo_coding目錄下。
WebRTC采用I420/VP8編解碼技術。VP8是google收購ON2後的開源實現,并且也用在WebM項目中。VP8能以更少的數據提供更高質量的視頻,特别适合視頻會議這樣的需求。
視頻加密--video_engine_encryption
視頻加密是WebRTC的video_engine一部分,相當于視頻應用層面的功能,給點對點的視頻雙方提供了數據上的安全保證,可以防止在Web上視頻數據的洩漏。
視頻加密在發送端和接收端進行加解密視頻數據,密鑰由視頻雙方協商,代價是會影響視頻數據處理的性能;也可以不使用視頻加密功能,這樣在性能上會好些。
視頻加密的數據源可能是原始的數據流,也可能是編碼後的數據流。估計是編碼後的數據流,這樣加密代價會小一些,需要進一步研究。
視頻媒體文件--media_file
源代碼在webrtcmodulesmedia_file目錄下。
該功能是可以用本地文件作為視頻源,有點類似虛拟攝像頭的功能;支持的格式有Avi。
另外,WebRTC還可以錄制音視頻到本地文件,比較實用的功能。
視頻圖像處理--video_processing
源代碼在webrtcmodulesvideo_processing目錄下。
視頻圖像處理針對每一幀的圖像進行處理,包括明暗度檢測、顔色增強、降噪處理等功能,用來提升視頻質量。
視頻顯示--video_render
源代碼在webrtcmodulesvideo_render目錄下。
在windows平台,WebRTC采用direct3d9和directdraw的方式來顯示視頻,隻能這樣,必須這樣。
網絡傳輸與流控
對于網絡視頻來講,數據的傳輸與控制是核心價值。WebRTC采用的是成熟的RTP/RTCP技術。
音頻
WebRTC的音頻部分,包含設備、編解碼(iLIBC/iSAC/G722/PCM16/RED/AVT、NetEQ)、加密、聲音文件、聲音處理、聲音輸出、音量控制、音視頻同步、網絡傳輸與流控(RTP/RTCP)等功能。
音頻設備---audio_device
源代碼在webrtcmodulesaudio_devicemain目錄下,包含接口和各個平台的源代碼。
在windows平台上,WebRTC采用的是WindowsCoreAudio和WindowsWave技術來管理音頻設備,還提供了一個混音管理器。
利用音頻設備,可以實現聲音輸出,音量控制等功能。
音頻編解碼---audio_coding
源代碼在webrtcmodulesaudio_coding目錄下。
WebRTC采用iLIBC/iSAC/G722/PCM16/RED/AVT編解碼技術。
WebRTC還提供NetEQ功能---抖動緩沖器及丢包補償模塊,能夠提高音質,并把延遲減至最小。
另外一個核心功能是基于語音會議的混音處理。
聲音加密--voice_engine_encryption
和視頻一樣,WebRTC也提供聲音加密功能。
聲音文件
該功能是可以用本地文件作為音頻源,支持的格式有Pcm和Wav。
同樣,WebRTC也可以錄制音頻到本地文件。
聲音處理--audio_processing
源代碼在webrtcmodulesaudio_processing目錄下。
聲音處理針對音頻數據進行處理,包括回聲消除(AEC)、AECM(AECMobile)、自動增益(AGC)、降噪(NS)、靜音檢測(VAD)處理等功能,用來提升聲音質量。
網絡傳輸與流控
和視頻一樣,WebRTC采用的是成熟的RTP/RTCP技術。