深度学习视频理解
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.1 引言

视频理解技术是顺应视频行业,特别是网络视频行业飞速发展的产物。根据中国互联网络信息中心(CNNIC)第47次《中国互联网络发展状况统计报告》(中,2021),截至2020年12月,中国网民规模达到9.89亿人,互联网普及率达到70.4%。其中:

● 网络视频(含短视频)用户规模达到9.27亿人,占网民整体的93.7%。其中短视频用户规模为8.73亿人,较2020年3月增长1.00亿人,占网民整体的88.3%。

● 搜索引擎用户规模达到7.70亿人,占网民整体的77.8%。

● 网络新闻用户规模达到7.43亿人,占网民整体的75.1%。

● 网络直播用户规模达到6.17亿人,占网民整体的62.4%。其中电商直播规模达到3.88亿人,占网民整体的39.2%,真人秀直播规模达到2.39亿人,占网民整体的24.2%,游戏直播规模达到1.91亿人,占网民整体的19.3%,演唱会直播规模达到1.90亿人,占网民整体的19.2%,体育直播规模达到1.38亿人,占网民整体的13.9%。

● 在线教育用户规模达到3.42亿人,占网民整体的34.6%。

可以看出,网络视频(含短视频)已经成为当今互联网重要的内容表现形式。回顾互联网近年来的发展历程,伴随着互联网技术(特别是移动互联网技术)的发展,内容的主流表现形式经历了从纯文本时代逐渐发展到图文时代,再到现在的视频和直播时代的过渡,如图1-1所示。相比于纯文本和图文内容形式,视频内容更加丰富,对用户更有吸引力。

img

图1-1 互联网内容表现形式的3个阶段

根据艾瑞咨询《2020年中国社交娱乐视频研究报告》(艾,2020),中国视频行业发展经历了3个阶段。

第一阶段:从2005年至2007年,处于以UGC(User Generated Content,依靠用户生产内容)为主的分享类视频阶段。这个阶段以优酷、土豆等为代表的视频平台仅承担管理者的角色,鼓励用户上传自己原创制作的视频内容,用户上传的视频类型五花八门、时长不一,行业变现主要依靠广告。

第二阶段:从2008年至2015年,处于以版权内容为主的网络长视频时代。这个阶段以腾讯视频、爱奇艺等为代表的视频平台通过外部采买或自制,将内容运营重点放在电影、电视剧、综艺、动漫等长视频内容上,行业变现方式包括广告和会员付费。

第三阶段:从2016年至今,在长视频继续保持高速发展的同时,以短视频+直播复合模式的社交娱乐视频成为视频领域的热点。2019年,用户每天观看视频时间集中在30分钟到2小时之间,中国社交娱乐视频行业市场规模达到2145.8亿元,并且仍在保持高速增长。

国际上最大的视频平台是YouTube,YouTube创建于2005年2月14日,用于让用户寻找和发布视频,口号是“Broadcast Yourself”(宣传展示自己),2006年被谷歌(Google)收购。近年来,YouTube上的视频数量得到了迅猛增长,每分钟上传的视频量超过500小时。2019年,MAU(Monthly Active Users,月度活跃用户)已经达到19亿人,世界上所有上网的人群中几乎有三分之一的人每天在YouTube合计耗费数亿小时观看视频。

短视频早期以UGC内容的形式出现在PC端视频网站,由于内容质量相对于长视频较低且内容生产能力没有得以充分开发,视频内容主要是搬运国外的优质内容,或对长视频进行加工剪辑。随着移动互联网的发展和智能拍摄效果的提升,用户生产制作视频的门槛逐步降低,内容质量也更有保证。短视频早期内容题材以搞笑、剪辑、表演类为主,2016年以抖音、快手等为代表的移动短视频平台崛起,内容维度也向户外探险、街拍、乡土、二次元、游戏等多方面进行迅速扩展。此外,短视频应用迅速占领海外市场,2020年上半年,抖音海外版TikTok全球下载量达到6.26亿次,位列全球第一。

目前,长短视频平台业务的一个发展趋势是相互渗透、融合发展。一方面,长视频平台通过各种方式鼓励产出优质短视频内容,提升短视频内容占比,增加用户黏性;另一方面,短视频平台则通过推出与平台更为匹配的“微剧”“微综艺”试水,逐步进入长视频领域。2021年,腾讯将旗下的腾讯视频和微视团队合并,升级其推荐算法,为用户带来一体化的观看体验,并通过改编长视频库的作品,丰富短视频内容。

直播最初的表现形式为语音直播,如YY软件,后来直播内容以歌舞类表演为主,之后斗鱼、虎牙等将直播内容扩展到游戏、电竞等内容维度,再后来直播内容题材进一步向多元化拓展,包括户外、美食、乡土、二次元、虚拟主播等。短视频和直播相互补充,主播利用短视频进行宣传和新用户获取,通过直播强化粉丝关系并进行变现。不论是观看短视频还是直播,用户都以放松消遣、释放压力为主要目的。行业变现包括广告(如信息流广告、植入广告、贴片广告等)和用户打赏。

在电商、短视频和搜索等互联网平台的共同打造下,2020年上半年,电商直播成为发展势头最迅猛的互联网应用之一,并成为2020年上半年增长最快的个人互联网应用。电商直播已成为用户的新兴购物方式,根据调查(中,2021)在电商直播中购买过商品的用户已经占到整体电商直播用户的66.2%,其中17.8%用户的电商直播消费金额占所有网上购物消费额的30%以上。无论是以京东、苏宁为代表的电商企业,还是以抖音、快手为代表的短视频平台,甚至微信、微博等互联网社交应用,都开始将电商直播作为拉动营收增长的战略重点。网络直播现在已经成为拉动经济内循环的有效途径,通过各地方政府的牵线搭桥,电商直播对精准扶贫、乡村振兴也起到了助力作用。此外,旅游业尝试“直播带货”模式,截至2020年第三季度,携程直播矩阵成交额累计超过24亿元,观看人数超过1.7亿人次。2020年微博旅游开播超过4万场次,微博旅游直播观看量超过20亿人次。

除了网络视频(含短视频)和直播,视频这种新兴内容形式也渗透进入其他互联网领域中,例如:

● 搜索引擎方面,目前搜索引擎行业整体营收下滑,传统的搜索广告收入增长已进入瓶颈期,寻求新增长点成为当务之急。2020年11月,今日头条搜索整合字节跳动多款视频、新闻产品,全面布局搜索广告市场。

● 网络新闻方面,网络新闻媒体顺应时代发展需要,不拘泥于传统图文形式,不断创新报道方式,从图文、视频,再到直播,为用户带来更直观、翔实的新闻体验。

● 在线教育方面,通过在线教育有助于用户获得公平、个性化的教学与服务。在线教育天然以视频或直播的形式进行,通过视频理解技术,学生可以获得良好的学习体验和高质量的学习内容。

● 远程办公方面,2020年上半年,受新冠肺炎疫情影响,远程办公市场规模呈现爆发式增长,用户规模稳步扩大,行业个性化需求增长。其中,截至2020年12月,视频或电话会议的使用率为22.8%。

视频理解在互联网之外的多种场景也能发挥作用,下面列举3个例子。

公共安防方面,根据亿欧智库《2020泛安防行业研究报告》(亿,2020a)和中国安全防范产业行业协会《中国安防行业2019年度统计报告》(中,2019),2019年,我国从事安防行业的企业总量约为3万家,从业人员达160多万人;安防企业年收入总额接近7,562亿元,同比增长9.6%。安防电子产品中以视频监控、楼宇对讲、防盗报警、出入口控制应用最为广泛,其中视频监控是安防的核心,其产品占整个安防市场比重54%。近年来,视频监控的发展历程经历了从“看得见”到“看得清”,再到“看得懂”3个阶段。视频监控早期由后台人工实时查看和监测,随着视频理解技术的发展,可以自动化地进行视频人物身份识别、行为分析、车辆识别、突发事件识别、视频结构化等任务。

互动娱乐方面,根据中国音数协游戏工委和中国游戏产业研究院《2020年中国游戏产业报告》(中 & 中,2020),2020年,我国游戏用户规模逾6.6亿人,中国游戏市场实际销售收入2,787亿元,同比增长20.7%。其中,体感游戏突破传统游戏以鼠标、键盘等进行操作的方式,通过肢体动作变化进行游戏操作,玩法别具一格、互动性强、老少皆宜,适合家庭娱乐(艾,2015)。体感游戏依赖于虚拟现实头盔、体感手柄、体感踏板、姿态捕捉摄像头等硬件,例如,微软的Kinect同时捕捉用户的RGB(即红绿蓝)画面和深度信息,游戏体验取决于视频理解技术对人体姿态和动作的识别准确率和识别速度。

自动驾驶方面,自动驾驶包括感知、决策和执行3个关键模块,分别对应“我在哪”“要去哪”“怎么去”3个关键问题(亿,2020b)。感知模块通过单/双/多目摄像头、激光/毫米波雷达等传感器,实时采集和分析视频流信息,感知周围行人和车辆,避免相撞。其中,摄像头成本最低,用于识别物体场景色彩等基本信息,但受光照影响大,测距不精准;激光雷达精度高、探测范围广,但是成本高,易受恶劣天气影响;毫米波雷达测量速度和距离准确率高,但难以辨别物体大小形状。由于这些传感器各有优缺点和适用场景,因此,需要多传感器对实时视频流信息进行联合感知。

总之,近年来人们拍摄视频的需求更多、传输视频的速度更快、存储视频的空间更大,多种场景下积累了大量的视频数据,需要一种有效地对视频进行管理、分析和处理的工具。视频理解算法顺应了这个时代的需求。因此,近年来受到了广泛关注,取得了快速发展。