国足比赛用的 VR 直播,连柳岩也在尝试,这到底是项怎样的技术?

摘要

VR 直播归根结底还是一种技术手段,和传统直播一样,都要靠内容来形成长久的吸引力。

编者注:极客公园旗下垂直媒体 90Hz,正在对 VR/AR 涉及的细分领域进行专题报道,查看这个系列的上一篇文章:

《VR 体验店已经够多了,苏宁又说要开 300 家,这究竟是门怎样的生意?》


6 月 3 日,国足在秦皇岛举行了一场热身赛,对手是特立尼达和多巴哥。这本是一场普通的比赛,却因在微鲸和乐视的平台上进行了新颖的 VR 直播,登上各科技媒体的版面。

同一天,柳岩也在花椒平台进行了一场 VR 直播。花椒给出的数据显示:直播开始仅 30 分钟,便引来 400 万粉丝围观。两小时的直播中共 600 万人同时在线互动,此次直播期间同时在线人数 PC 端和移动端加起来接近 2000 万。

不足两个月前,喊着「The world is virtual, you are the reality」口号的草莓音乐节,通过「正在现场」app 让宅在家里的乐迷也能「亲临」现场。而早在 2015 年 10 月,腾讯旗下的炫境 app,对韩国组合 Bigbang 在澳门的演唱会进行了 VR 直播。

仅仅半年时间,体育赛事、移动直播平台,音乐节、演唱会,无一不和 VR 直播挨上了边。

屏幕快照 2016-06-30 下午7.41.49.png

(国内 VR 直播不完全统计)

当然,在 VR 技术发展的早期阶段,将当下大多数 VR 直播称之为「全景直播」更加准确。只有 360 度的画面,缺乏深度感知和交互。但任何技术都有自己的发展曲线,即使 VR 直播还处于其「功能机」时代,我们也不妨来看看它的发展雏形。

直播这趟「快车」,为什么也赶上了 VR 这个「风口」?

传统平面视频格式中,不管是体育赛事、音乐节、演唱会直播,还是美女、秀场直播,观众和现场始终隔着一层屏幕,时间上的距离感消失了,但地理位置上的距离仍然存在。

而 VR 技术最擅长的,恰是将观众瞬间带入另一个空间,消除地理位置上的距离感。这种特性就是我们常说的「沉浸感」。国内一个技术供应商强氧科技的描述非常形象地传递出了 VR 直播的沉浸感:

通过多台摄像机的同步拍摄将将所有的方向的影像都记录下来,再通过后期缝合软件进行缝合,就像缝足球一样将平面视频缝合成球形视频。

观众的位置是在球的球心的位置上,观看是一种主动视角的观看,也就是想看哪里看哪里。这种感受是一种被环境所包围的浸入式体验,能够体会到一种身临其境的感受。

whatisit-final.jpg

更有人将 VR 直播看作是 VR 社交的雏形:从微博到微信,互联网流量的转移同时带动了社交关系的搬迁。而直播被认为是微信之后可能的主流社交平台,VR 社交或许能借直播落地。不少人从 VR 技术的特性和直播平台的流量中看到了商机,这其中就包括国内很多 VR 初创团队。

高盛在前段时间的报告中也预测,2020 年 VR 直播的市场营收规模为 7.5 亿美元,到了 2025 年则高达 41 亿美元。

要分 41 亿美金市场的蛋糕,你得先面对这些挑战

要弄一场 VR 直播,说容易也容易,说难也难。

一位美女主播在桌上摆一个全景相机,打开后像手机直播那样正常录制,全景视频信号推送到移动直播客户端,观众在手机上观看全景视频,或者点击 VR 模式,戴上头显观看,一次 VR 直播就这样诞生了。

当然,这类全景直播的观看体验并不好,最直观的感受就是画面不清晰、拼接缝明显可见、场景偏暗、延迟大,戴上头显可能出现晕动症。

而要弄一场专业点的体育赛事或演唱会 VR 直播,涉及拍摄、视频拼接(包括合成、渲染)、编解码、内容传输(云端处理和分发)、终端输出多个方面,每一块都有挑战。下面我们选择几个主要环节来详细探讨。

屏幕快照 2016-06-30 下午5.08.47.png

拍摄设备

全景拍摄设备大抵可分两类,一种是利用现有相机组装,另一种是一体式的全景相机。

组装式设备最常见的「元件」是 GoPro 或小蚁这样的运动相机。一个支架,支起 6 个或 8 个运动相机,一般上面一个(有的下面也有),其他的环绕一圈。

支架有很多选择,如 GoPro 自己出品的 Omni 和 Google 的 Odyssey。

屏幕快照 2016-06-30 下午5.41.53.png

(Omni 支架)

淘宝上搜「GoPro 支架」也有很多:

屏幕快照 2016-06-29 上午8.51.44.png

不过,由于使用现成的 GoPro 支架会出现各种各样的问题,稍微专业点的团队都根据自研拼接算法设计支架,从而达到 VR 视频内容采集的最优化。

运动相机组装的方案性价比高,适合经费紧张的初创团队。但这毕竟是运动相机,其传感器不比专业摄影机,成像锐度低,对直播现场灯光变化难以快速处理,不利于后期的画面拼接。

更加专业的解决方案会用红龙(Red Epic Dragon)这种专业摄影机来拼接。这种解决方案采集出来的画面分辨率较高,锐度大,但成本高,NextVR 用红龙自主研发的的 VR 直播设备高达 18 万美元。而且由于带宽限制,这类 VR 设备采集出来的高质量画面并不能完全体现在直播中。

oculus-vr-porn-2.jpg

(红龙组装的全景拍摄设备)

此外,也有团队用单反相机来组装,像微鲸进行 VR 直播用的就是索尼单反。

5.pic.jpg

(索尼单反组装的全景拍摄设备,图片来自微鲸 VR)

另一种是一体式的全景相机,通常前后各有一个广角摄像头。这种方案性价比较高,使用方便,能满足全景直播的基本要求,但缺乏立体效果,视频质量还有待提升。

国内从业者用于 VR 直播的一体机有:Insta360, 完美幻境 Eyesir, 得图 F4, 理光 THETA, ZMER ONE 等。

1466474277480.jpg

(ZMER ONE 全景运动相机,图片来自品玩)

虽然可用于 VR 直播的拍摄设备不少,但具体选择得考虑灯光、距离、人物、成本方方面面的因素。

屏幕快照 2016-07-01 上午11.48.40.png

(主要全景相机对比)

拼接

拼接分为后期拼接和实时拼接两种,一般的全景拍摄可以采用后期拼接,但直播必须实时拼接。

用组装式的拍摄设备,通常会在现场假设专门的 PC 服务器,对视频进行实时拼接。这其中,又分为两种。

「一些技术团队会开发一个 PC 拼接软件绘制到屏幕上,但由于程序完善性不足,需要借助于第三方录屏软件 OBS(Open Broadcaster Softwar)再次将屏幕上绘制的内容录制压缩后,通过PC千兆网传送给远端服务器。这种抓屏的 VR 直播方式,最高只能做到 1080p 的画质,且容易受到各类误操作的干扰,直播稳定性较差,用户体验和实用性都不是很好。」完美幻境表示。

另一种配合非常高端的PC,连接拍 摄设备的实时数据流后,通过 CPU/GPU 进行计算得到全景视频流,用 PC 进行流媒体打包后实现直播。这样的方式虽然不用 OBS 抓屏,但是基本方法类似,想要实现 4K 画质的直播,需要配备万元级以上的 PC 才可实现。相比抓屏的方案,这种方式的直播稳定性稍好一些。

6.pic_hd.jpg

(图片来自微鲸 VR)

而一体式的拍摄设备通常配备机内实时拼接功能,如 ZMER ONE, Insta360 和完美幻境 Eyesir。「每秒 30 帧的机内实时拼接对芯片运算量要求非常大,对算法和芯片性能及散热都有很大挑战。」ZMER CEO 钱力对 90Hz 表示。

即使具备了优秀的拼接算法和性能强大的服务器,拍摄现场很多因素对画面拼接依然有不少挑战。

例如,演唱会现场灯光环境非常复杂,舞台灯光变幻无常,观众席通常较暗。如果采用运动相机组装的方案,演唱会现场的来回扫射的激光不小心直射到其中某个镜头,运动相机的光圈会自动收缩,其他的则没有变化。

这时候拼接起来画面就会亮一块、暗一块,过渡不自然。通常解决办法是,团队自己开发多镜头同步控制软件,统一好每个镜头的光圈快门和白平衡。

a3d822c7b41a1cc074b47cc275326eeb.jpg

另外,如果人物离相机太近,穿越拼接缝时会出现「鬼影」。因此,VR 直播拍摄时就有了安全距离一说。比如,用 GoPro 组装的相机,其安全距离一般是 1.5 米。

全景声

直播现场录音会有干扰,而在全景声条件下很难控制干扰源。360 度收声的目的就是要把所有声音都收集起来,这就难以甄选什么声音是需要的,也不好控制哪些声音要强一些哪些声音要弱一些。

最终录制出来的声音不理想,环境音嘈杂,混响特别大,听起来效果很不好。无论在硬件的技术上,还是软件的处理上,都需要进一步的加工。

目前在尝试解决这方面问题的团队只有少数几家,90Hz 从时代拓灵工作人员处得知,他们正在研发 VR 直播的全景声解决方案,具体的细节仍未披露。

屏幕快照 2016-06-30 下午7.02.04.png

(图片来自时代拓灵)

带宽

「对于平面视频,1080P 视频已经非常清晰,但是 1080P 的全景视频看起来非常模糊。原因在于像素要分给不同的角度,每个角度分配下来的像素就很少。」Insta360 全景相机创始人刘靖康在接受媒体采访时表示。

全景画面到 4K 的分辨率才足够清晰,但在 VR 直播中,「由于带宽的限制,即使推流到云端是 4K 的分辨率,云端收到后压缩分发到终端的时候一般也只有 2K 的分辨率,国内网站 VR 直播最高的分辨率也就是爱奇艺的 2.5K。」强氧科技一位工程师说道。

强氧科技去年 10 月为 Bigbang 演唱会的 VR 直播提供了技术支持,「用 4K 的设备去拍摄,但是传输到用户端只能达到高清」,呈现出来的画面质量非常不好,被调侃成「像是看马赛克在跳舞」。

传统直播大概带宽占用在 500Kbps 到 1.3Mbps,而 VR 视频直播流一般 720P 的话需要大概 2Mbps 以上的带宽,1080P 的话则至少都在 3.5Mbps 以上。以前给 4-5 个人用的带宽现在只能服务于一个用户。

网心科技 CEO 陈磊在接受媒体采访时表示:「以 1080p、20 多兆来计算,今天的 VR 体验 360 度传输,单位用户成本是今天电视用户成本的 10 倍,是手机用户成本的 100 倍。爱奇艺手机有付费用户,15 元或者 30 元钱 / 月,而要保持同样的利润率,会员需要付费 3000 元 / 月来观看 VR。」

高昂的带宽成本可能是 VR 直播最大的拦路虎,短时间内成本也难以降下来,很多团队不得不在视频编码和 CDN 加速上下功夫,降低 VR 直播所需的带宽。

将 H.264/H.265 编码标准和锥形编码技术结合起来,能大大缩小 VR 视频的文件大小。「我们采用的是与 Facebook 相同的锥形编码技术,可以将视频在不损伤画质的基础上压缩到原来文件的五分之一大小。」微鲸 VR 一位工作人员告诉 90Hz。

锥形编码技术首先将平面帧的画面变成球形,然后将其置入到一个锥形体中。锥形体底端是分辨率最高的画面,越向尖端分辨率越低。用户看向哪里,哪里就是锥形体的底端。

QQ图片20160122133114.jpg

(锥形编码示意图)

此外,强氧科技的 CTO 赵旭鹏透露,芯片厂商联发科正在提交一种基于 8K 分辨率的编码方式,能节省 50% 的带宽,能在多核心处理器的手机上实现 8K 视频播放。

CDN 全称内容分发网络(Content Delivery Network)是指一种通过互联网互相连接的电脑网络系统,它可以实现将源站内容分发至全国所有的节点,缩短用户查看内容的延迟,提高用户访问网站的响应速度与网站的可用性,解决网络带宽小、用户访问量大、网点分布不均等问题。

目前,国内已经有团队在为 VR 直播提供专门的 CDN 服务。比如,星域 CDN 与 Insta360 联合研发专门针对 VR / 全景直播的压缩编码算法,同时利用星域 CDN H.265 实时转码集群,在保证视频质量的同时降低带宽使用。

VR 直播很炫酷,但内容还是为王

VR 直播归根结底还是一种技术手段,和传统直播一样,都要靠内容来形成长久的吸引力。

对体育不感兴趣的观众不会因为一场球赛用了 VR 直播就熬夜观看,不喜欢 Bigbang 的人也不可能专门看一场他们的 VR 直播。既有内容版权又有技术的玩家在 VR 直播这场游戏中能获得更多的筹码,比如华人文化产业投资基金和乐视。

华人文化旗下体奥动力花 80 亿元买下了 5 年中超全媒体版权。同时,华人文化用 6500 万美元投资了 Jaunt VR 以及联手 NextVR,最后依靠微鲸 VR 在国内落地。

乐视体育则花了 27 亿美元拿下了两个赛季的中超新媒体版权,乐视音乐和影业旗下也拥有诸多艺人和 IP。技术方面,乐视云也对 4K 分辨率的 VR 直播做了转码和 CDN 加速方面的工作。 

而国内一些专注于 VR 直播领域的创业团队往往没有自己的内容版权库,他们对自己核心竞争的打造集中在关键技术点和互动形式上,就像 NextVR 那样,也有希望在 VR 直播的市场中瓜分一块蛋糕。

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。