音視頻技術(五)沉浸式音視頻系統
來源:UON安城弱電 編輯:lgh 2025-07-04 09:28:34 加入收藏 咨詢

所在單位: | * |
姓名: | * |
手機: | * |
職位: | |
郵箱: | * |
其他聯系方式: | |
咨詢內容: | |
驗證碼: |
|
國內弱電工程通常分為兩大類別:ELV和AV。ELV系統就是我們常說的建筑智能化系統,而AV就是音視頻系統,這兩類工程所需要的資質不同,招標的時候也通常被劃分為2個標段。有時候AV工程還會再細分一個專業擴聲系統。本公眾號(N Solutions)將分系列文章進行分享。
音視頻系統集成(AVSI)。全稱Audio and Video System Integration,簡稱AVSI,用來描述做音視頻系統集成的工程商(公司)或工程項目(業務),屬于弱電系統(ELV)的子系統,建設內容狹隘理解含蓋音響擴聲系統、數字會議系統、遠程視頻會議系統、顯示系統、點歌系統、智能集中控制系統以及燈光系統。
弱電智能化系統(ELV System)。Extra Low Voltage,ELV,超低壓、弱電(36V以下),相對強電而言。弱電系統(Extra-Low Voltage System,ELV)自西方引進,在國內發展已有30多年,在項目上的實施已經逐漸被大范圍的普及和應用,成為機電工程或電氣工程的重要組成部分。弱電系統在國內通常也被稱之為建筑智能化系統、智能化系統、安防系統。
五、沉浸式音視頻系統
2020年9月,國家廣播電視總局科技司在《5G高新視頻-沉浸式視頻技術白皮書(2020)》對沉浸式視頻的定義:國家廣播電視總局順應技術革命浪潮,提出了“5G高新視頻”概念。5G高新視頻是指5G環境下具有“更高技術格式、更新應用場景、更美視聽體驗”的視頻。其中,“高”是指視頻融合4K/8K、3D、VR/AR/MR、高幀率(HFR)、高動態范圍(HDR)、廣色域(WCG)等高技術格式;“新”是指具有新奇的影像語言和視覺體驗的創新應用場景,能夠吸引觀眾興趣并促使其產生消費。沉浸式視頻作為高新視頻業態的重要組成部分,是指一種采用裸眼觀看方式獲得身臨其境感受,呈現畫面覆蓋人眼至少120°(水平)×70°(垂直)視場角的視頻系統及具備三維聲的音頻系統。沉浸式視頻通過播放器、投影幕或LED自顯屏、多聲道揚聲器、播控系統等構建出超大視角、超高沉浸感的視聽呈現系統,使觀眾能夠同時獲得周圍多方位的視聽信息,帶來單一平面視頻無法展示出的強大沉浸感,讓觀眾真正有身臨其境的感覺,應用場景豐富且形式多樣。沉浸式視頻通過視頻、音頻及特效系統,構建具備大視角、高畫質、三維聲特性,呈現形式包括但不限于球幕、環幕、沉浸屋CAVE等異形顯示空間。
隨著超高清4K/8K技術日趨成熟以及三維聲的推廣應用,沉浸式視頻也進入了一個新階段。超高清視頻在高分辨率、高幀率、高色深、 廣色域、高動態范圍上實現了突破:4K/8K高分辨率為觀眾提供了更為豐富的畫面層次和更為精致的畫面細節;高幀率技術能夠提升影像的細膩度和流暢感;高色深、廣色域提升了畫面顏色的豐富程度;高動態范圍技術的使用大大地提高了畫面的對比度,能更好地展現亮部和暗部的細節。在三維聲方面,杜比全景聲、MPEG-H、AVS2-P3和DTS-X等技術的應用,將音頻擴展到三維空間,進一步強化沉浸式視 頻的空間表現力和臨場感,為用戶帶來了全新的音頻體驗。在沉浸式視頻呈現方面,投影融合技術已趨于成熟,高分辨率、高亮度、廣 色域的工程投影機已大規模使用在球幕影院、展覽展示、大型演出及光影秀中;各種形式的LED自顯屏也越來越多地應用到影院和游樂場所的環幕、球幕中。
沉浸式音視頻的核心要素包括以下三個方面:畫面包圍感、畫質、沉浸式聲音。
沉浸式視頻核心要素表
聽覺作為僅次于視覺的重要感官通道,對沉浸式的視聽體驗至關重要。隨著用戶對視聽體驗的極致追求,在“視”之外,沉浸之“聲”技術應運而生。沉浸式音頻是指能夠呈現空間的還音系統的聲輻射,至少能覆蓋觀眾的前、后、左、右、上五個方位。除此之外,還能真實地營造出聲場的水平縱深和垂直高度,即從聽者角度能精準地定位聲音的方向和位置。
真實世界的聲音來自環境的四面八方,人耳往往可以通過聲波的時間差、強度差、相位差、頻率差等辨別聲音的方位。現有的立體聲和5.1環繞聲只能呈現部分方向傳來的聲音信息,若想獲得聲音帶來的沉浸感,需要盡可能全方位再現真實世界的聲音,也需要一種沉浸式音頻技術來實現。
沉浸式聲音主要通過三維聲技術來實現。三維聲技術實現主要分為三大類:基于聲道的音頻(CBA)、基于對象的音頻(OBA)和基于場景的音頻(SBA)。基于對象的技術是目前主流的三維聲技術。在電影領域,三維聲技術已廣泛應用,如Dolby Atmos全景聲、DTS-X、HOLOSOUND、WANOS全景聲、中國多維聲、Auro-MAX等。在廣電領域,三維聲技術主要有Dolby Atmos和MPEG-H、AVS2-P3。沉浸式視頻的聲音系統推薦使用基于對象或場景的三維聲技術,需要實現不低于5.1.4聲道的聲音系統,即在傳統5.1環繞聲基礎上增加4個頂部聲道。
基于聲道技術(CBA):在傳統5.1環繞聲的基礎上,增加了4個頂部聲道,通過增加聲道的方式來補充空間中的聲音信息,但只能呈現部分方向來的聲音信息。
基于對象的技術(OBA):是目前主流技術,并在電影領域已廣泛應用,如Dolby Atmos全景聲。該技術會產生大量的數據和運算,除了聲道的音頻外,還有關于聲源的元數據Metadata,即:聲源(位置/大小/速度/形狀等屬性)、聲源所在的環境(混響Reverb/回聲Reflection/衰減Attenuate/幾何形態等),該技術在VR領域只適合主機VR上的大型游戲,對于普通移動端的硬件設備來講,算力及帶寬承載具有較大壓力。
基于場景的技術(SBA):用來描述場景的聲場,其核心的底層算法是Ambisonics技術,可被映射到任意揚聲器布局中。Ambisonics技術的特點是聲源貼在提前渲染好的全景球上,即所有聲源將被壓縮在了這個球上。
Ambisonics作為全景聲的一種錄取格式,在上世紀70年代就已經問世,但一直沒有獲得商業上的成功。隨著近幾年VR,AR等相關領域的興起,Ambisonics開始逐漸被討論。與其它多聲道環繞聲格式不同,Ambisonics傳輸通道不帶揚聲器信號,允許音頻工作者根據聲源方向而不是揚聲器的位置來思考設計,并且為聽眾提供了用于播放揚聲器的布局和數量。Ambisonics音頻格式可以解碼任何揚聲器陣列,并且可以完整地、不間斷地還原音源而不受任何特定編解碼播放系統的限制。
全景聲雙耳渲染技術可運用于多個場景,帶來沉浸視聽的無限想象力。
VR演唱會。現場混合360度視頻和全景聲音頻, 同時將數據傳輸到相應的移動平臺,并進行實時直播。讓觀眾可以達到“不在現場,勝似現場”的感覺。
沉浸式影院。也可以稱之為沉浸式投影,是一種成熟的高度沉浸式虛擬現實系統。它將高分辨率的立體投影技術、三維計算機圖形技術和音響技術等有機地結合在一起,產生一個完全沉浸式的虛擬環境,大大增加觀影的沉浸感。
智慧教育。沉浸式教學模式逐漸受到教育界的關注。例如,IBM研究院和倫斯勒理工學院聯合開發的“認知沉浸室”,它能讓學生置身于中國的餐館、商場、園林等虛擬場景,與AI機器人練習漢語對話,大大提升了學生的學習興趣和專注力。
虛擬會議。以Facebook基于VR開發的虛擬會議為例。而為了更貼近現實,Workrooms還加入了沉浸音頻功能,讓用戶交談時,聲音的發出的方向跟他們所處的房間位置一致,從而進一步增加參會者的沉浸感。
隨著AR、VR、5G、云計算等技術成熟度的提升,基于沉浸式音視頻的通訊技術在元宇宙有望逐步從概念走向現實。根據IDC的市場評估,沉浸式視頻云市場發展的趨勢處于飛速發展的階段。
評論comment