云智一体|智能视频之智能理解分析
智能视频 3.0 的“智”能力
回顾百度智能视频云 3.0 的全景架构图可以发现,智能视频技术在其中起着承上启下的重要作用,智能理解分析、智能视频生产与智能交互生成等关键 AI 技术充当着平台化与场景化创新应用的技术基石。
视频中的单模态理解
视频理解分析时常会遇到两个挑战:一是需要处理的视频中对象太多,比如各种环境下拍摄的人脸,处理方法也不尽相同;二是视频样本素材少,无法支撑起一个有效的训练模型,这在工业场景尤为明显。挑战带来的问题是,需要针对每个场景都单独建模,而素材稀少又造成模型训练效果不理想。
基于以上挑战,百度智能云提出了一套“预训练 - 小型化 - 定制化”的研发流程:
预训练
以视频中的人物理解为例,通过百度资源库获取海量视频场景的人脸数据,依托百度飞桨平台提供的大规模训练框架,基于所有场景图像、视频等有监督数据和无监督数据进行混合训练,打造预训练模型。由于该训练框架的训练 ID 数可达千万级,因而训练出的模型具有强大的鉴别性能。基于百度海量数据的人脸识别预训练模型,人物识别全场景错误率相对降低 40%+,模型速度提升50%。
小型化与定制化
模型训练只是手段,应用才是目标。由于设备端规格多种多样,计算能力千差万别,边缘侧适配性成了关键。基于百度飞桨 PaddleSlim 套件,可以对模型进行搜索压缩与量化,将大模型蒸馏为小模型。缩小后的模型,既具备大模型的知识结构,又有通用性特点,结合特定场景的少量样本,即可进行自适应迁移学习,实现完美适配。相比于传统模型训练,基于 PaddleSlim 套件的模型训练,速度提升了两倍。而在游戏、动漫、体育等垂类场景中,识别准确率可达 90%+,训练数据标注量减少 40%。