数字人口型匹配之 Easy-Wav2Lip

在开源方案中,数字人口型匹配,我们一般有Video-Retalking ,Wav2Lip 等,这些开源的在没有特别微调的情况下,产出的效果并不会太好,尤其像Video-Retalking这个,它还不支持微调,只能用公共的模型去生成,所以出来的效果和实际要的就会有很大的出入。

今天介绍的这个Easy-Wav2Lip 是 Wav2Lip 的改进版本,在设计上更为简洁,执行速度更快,同时生成的视频效果更加逼真。

当然,这个只是官方的说法,实际体验下来,效果也只能说是一般吧。但毕竟开源的,也不需要训练,能有那样的效果也不错了,我用同一个素材,在 Video-Retalking 上竟然口型还匹配不上,用这个还对得上,只是说嘴巴那里有点糊。

可以看下效果

上面的效果是在 wav2lip_version 为Wav2Lip_GAN,品质为Improved模式下产生的效果。

项目地址:

https://github.com/anothermartz/Easy-Wav2Lip

Easy-Wav2Lip 提供了三种不同的品质选项:

  • Fast(快速):基础的Wav2Lip效果
  • Improved(改进):在Wav2Lip基础上增加羽化口部遮罩,同时保留面部其他部分的原始分辨率
  • Enhanced (增强):结合Wav2Lip、遮罩和GFPGAN技术,对面部进行全面提升
不同的品质,对应着视频出来的效果,同时生成速度也有不同的差别。
图片[1]-数字人口型匹配之 Easy-Wav2Lip-爆品运营狮
接下来,我们来说一下如何安装,安装方法有如下几种
1  集成包
2 Colab
3 本地安装
一 集成包
集成包就是直接将软件运行依赖打到一起,解压后直接运行可用
https://pan.baidu.com/s/1crexkEHUe-tRu5-amjYiqQ?pwd=41m2
二 Colab
最简单和兼容的方式,直接打开地址,安装一下依赖就能够直接使用了,地址为
https://colab.research.google.com/github/anothermartz/Easy-Wav2Lip/blob/v8.2/Easy_Wav2Lip_v8.2.ipynb
打开文件后,第一步,安装依赖 ,然后第二步填入视频和音频的地址,再根据自己的要求,修改一些配置就行了。
2.1 安装依赖
点击运行,等待项目安装完成,就可以下一步生成视频了。
图片[2]-数字人口型匹配之 Easy-Wav2Lip-爆品运营狮
2.2 项目配置
基本配置就是配置下视频和音频的绝对路径地址,品质等
图片[3]-数字人口型匹配之 Easy-Wav2Lip-爆品运营狮
还有高级配置,主要是配置版本、面部裁剪和面部的融合等
图片[4]-数字人口型匹配之 Easy-Wav2Lip-爆品运营狮
主要参数表示的意思如下:
wav2lip_version 版本可以选择 Wav2Lip 或 Wav2Lip_GAN ,它们之间的优缺点:
Wav2Lip
  优点:更准确的对口型,当没有声音时试图保持嘴巴闭合
  缺点:有时会产生缺牙(不常见)
Wav2Lip_GAN
  优点:看起来更好,更能保留说话人的原始表情
  缺点:不像掩盖原来的嘴唇动作那么好,尤其是在没有声音的时候
官方建议为一般先试试 Wav2Lip,如果你遇到扬声器牙齿上有很大缝隙的效果,就切换到 GAN 版本。
 
nosmooth  启用后,如果脸部角度不对,可能会引起面部跳动。wav2lip 将在每个帧上独立裁剪面部,适合快速移动的视频。禁用时,wav2lip 将在 5 帧之间混合检测到面部位置,适合缓慢的视频动作。
mask 控制处理后的视频如何与原始的视频更好的融合,size 尺寸将增加嘴巴覆盖区域的大小,根据素材可作适当调整。
feathering 羽化遮罩中心和边缘之间的混合量。
debug_mask 启动调试模式,开启后整个视频背景将灰度化,而嘴巴旁边的蒙版是彩色的,这样就很容易地看到蒙版在帧中的位置
2.3 生成视频
参数配置完成后,点击运行,则会在当前同视频目录 video_file 中生成处理完成的视频。
图片[5]-数字人口型匹配之 Easy-Wav2Lip-爆品运营狮
三  本地安装
本地安装需在操作系统为 Win 10 / 11 上面,且有 GPU,N卡,6G以上,安装最新的 Nvidia 驱动,Cuda 12版本,
同时需要安装的软件有
1  Python 版本为 3.10.X 。
2 Git
3 ffmpeg, ffplay, ffprobe
4 visual studio build tools  c++ module
具体操作步骤
先下载批处理文件 Easy-Wav2Lip.bat 
地址为
https://github.com/anothermartz/Easy-Wav2Lip/releases/download/v8.2/Easy-Wav2Lip.bat
2 放置到你的本地文件夹下面
3 运行上面的批处理文件,脚本将自动检查并安装所需要的软件,下载并安装 Easy-Wav2Lip, 安装完成后,会自动使用命令 call run_loop.bat 来启动。
4 启动后,软件会打开 config.ini 这个配置文件
5 在配置文件中,和在 Colab 中一样的,配置视频和音频的绝对地址,或更改其它配置参数,如版本,品质等
6 保存配置文件后,将启动 Wav2Lip 进程,生成的文件将保存在与 video_path 文件相同的目录中。
 
为了产出的视频有较好的效果,视频和音频的素材有一定的最佳实践要求
1 视频
1.1 所有的视频帧中,必须有人脸,否则将失败
2.1 视频格式为H264.MP4,  720P, 30FPS 较大的文件不一定会出错,但是有很大失败的可能。
2 音频
2.1 格式为.WAV / .MP3 。
2.2 长度与视频的长度相同。
总得来说,这个工具目前并没有像他们说的是最强的数字人工具,只能是在某些要求不高的场合下使用,至于想要达到说 heygen 那样的平替效果,那暂时应该是不可能的。包括现在大多数人用的飞影,一样也没有太好的效果,都只能是凑合用而已
不过没办法,谁让 heygen 不让用了呢, 这个软件虽说一般,但起码开源免费,效果也还行,如果要更好一点的,可以在生成视频后,再用换脸软件同时开启脸部高清增强,效果会好很多。
不管怎么样,期待软件后面的持续优化,能为用户带来更加丰富真实和便捷的功能。

© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容