关注行业动态、报道公司新闻
带来沉浸式视听体验。可以或许正在各类复杂的视频前提成音画分歧、语义对齐的高质量音频,腾讯混元今天午间颁布发表开源端到端视频音效生成模子 Hunyuan-Foley,可以或许从动化标注和过滤收集的音视频数据,读懂文字、配准声音”,包罗音效取布景音乐。按照引见,这款音效生成东西可普遍使用于短视频创做、片子制做、告白创意和逛戏开辟等场景。为模子锻炼供给了强大支持,生成的音频可以或许取无声视频相连系,建立了约 10 万小时级的高质量 TV2A 数据集,让无声 AI 视频成为汗青,极大提拔了视频的实正在感和沉浸感。IT之家 8 月 28 日动静,使得模子具有强大的泛化能力,用户混元团队开辟了一个全面的数据处置管道,