快手已构建大算力基础设施体系,应对视频和大模型挑战
大型模型在音视频中的应用更为复杂。根据音视频第一原则,音视频主要处理清晰度、成本和流畅性三个问题,需要平衡。在这个过程中,核心位置是视频的压缩和增强。
快手已构建大算力基础设施体系,应对视频和大模型挑战
近日,快手异构计算负责人刘凌志透露了快手SL200芯片的最新进展。“在人工智能大模型进入人工智能时代的过程中,快手紧跟大模型应用的浪潮,在搜索推广场景、内容创作、提高研发效率等方面不断深化大模型领域,近日发布了“爽快”大语言模型,在CMMLU中文排名中,KwaiYii-同时位于five-shot和zero-shot第一。”
刘凌志指出,大型模型在音视频中的应用更为复杂。根据音视频第一原则,音视频主要处理清晰度、成本和流畅性三个问题,需要平衡。在这个过程中,核心位置是视频的压缩和增强。
如何将快手的大模型与视频编解码相结合?刘凌志说,在过去的生产和消费过程中,生产端视频首先通过编码器生成代码流并传输到消费端,消费端通过解码器解码视频并显示视频。使用大模型进行视频压缩和增强,视频通过理解网络生成高维特征,并传输Text和Prompt,这是一个非常小的信息量,用户使用生成大型网络模型来恢复视频,可以大大降低传输成本,获得更好的效果。
在刘凌志看来,快手在模型和视频领域面临的考验归根结底是计算能力的挑战,包括视频算率挑战和大模型算率挑战。
刘凌志说,快手已经建立了大规模的基础设施来支持主站、电子商务、商业化、本地生活和海外产品矩阵。快手的核心技术包括三类:音视频、人工智能和数据中心。每种技术都需要非常大的基础设施,如数千万其他CPU核心、10万GPU和算率、10EB其他数据存储,带宽需求也达到了100TB的规模。
因此,快手构建了一个大型模型架构系统。通过人工智能计算能力中心、平台、数据等高性能、高并发性、高计算能力的大型基础设施,可以支持快手多模型大模型,通过生成或理解,可以支持快手搜索推广、AIGC、增长或研发效率等大型应用。
此外,快手人工智能基础设施的数据平均每天有数千万个短视频和数千万个小时的直播,一方面传输给用户,另一方面作为输入不断传输到大型模型,不断抛光大型模型,取得更好的效果。刘凌志强调,“更重要的是,我们在计算能力中心进行了更深入的研发,这最终表现在自主研发的芯片SL200上。”
刘凌志指出,SL200已经完成了智能视频的处理,这在未来的视频领域尤为重要。在相同的主观质量下,带宽可以继续减少20%以上。
据悉,快手SL200已达到行业领先的压缩效率。与X265medium相比,客观质量可节省30%的代码率。单卡可支持8K120帧/秒处理或8路4K60帧/秒处理,内置智能图像质量处理引擎,支持内容自适应编码。
刘凌志认为,从IC设计的角度来看,进入智能视频时代需要一个具有多种功能的SOC芯片。这就要求芯片不仅要有高质量、高密度的解码器,还要有能够支持实时监控和处理的人工智能引擎。此外,为了支持未来视频算法的迭代,SL200集成了多核GPGPU和高性能多核CPU,RISC-VCpu,以及数据中心的功耗检测、温度测量等功能,为了维护用户的隐私,还需要嵌入硬件安全模块。
刘凌志透露,基于SL200芯片,快手开发了板卡和服务器,并与浪潮合作开发了云服务器,建立了计算能力中心,开发了一套独立的软硬件生态系统,在快手部署了数万件,并在许多公共云制造商中进行了测试。