人工“穿越”,三个开源工具成功带你回到 100 年前的老北京
itomcoil 2024-12-26 13:57 22 浏览
近日,一段拍摄于 100 年前的老北京城影像被央视转发,在微博上火了。据了解,该视频出自一位 B 站的 UP 主大谷的游戏创作小屋。作者大谷利用 AI 技术,把一段拍摄于 1920 年的北京城黑白视频,渲染成了高清流畅的彩色视频,配以颇具地方特色的 BGM,还原了百年前老北京城的民风民俗,颇有内味。
据大谷介绍,这部拍摄于百年前的黑白视频由于年代久远,视频画质有很多噪点,帧数、分辨率都很低。于是他使用了三款开源的 AI 工具来对视频进行处理,分别是:
- DAIN,对视频进行补帧处理,提高视频流畅度
- ESRGAN,对视频进行超分辨率处理,提高视频清晰度
- DeOldify,对视频进行上色处理
下面就让我们来了解一下这三款视频修复常用的 AI 工具,感兴趣的朋友也可以学着用起来,自己处理老旧视频哦。
视频补帧工具 DAIN
帧数 (FPS)对于一部视频的流畅度来说影响很大,在正常播放速度下,低于 30 FPS 的视频会让人觉得卡顿,高于 60 FPS 的话肉眼则分辨不出区别。帧数越高的视频带来的流畅度一定是更高的,尤其是在慢镜头下,差别尤为明显:
上图来自另一 AI 补帧工具 SUPER SLOMO 的示例,将原片 30 FPS 的汽车甩尾镜头放慢 8 倍后,实际 FPS 不足 4 FPS,肉眼可见的卡顿。而通过 AI 补帧技术,能够将慢放后的视频维持在 240 FPS,流畅程度可见一斑。
通常来说,补帧的核心述求是在两个连续帧之间插入中间帧,从而提高视频的 FPS,而补帧工具需要解决的问题就是如何通过 AI 算法自动生成中间帧。DAIN 全称 Depth-Aware Video Frame Interpolation,即基于深度感知的视频帧插值工具。DAIN 团队提出了深度感知帧内插模型,开发了一个深度感知流投影层来生成中间帧。
测试环境
- Ubuntu(Ubuntu =16.04.5 LTS )
- Python:Anaconda3 = 4.1.1 & Python= 3.6.8
- Cuda 和 Cudnn:Cuda = 9.0 & Cudnn = 7.0
- Pythorch:定制的深度感知流投影和其他层需要 Pythorch 中的 ATen API =1.0.0
- GCC:编译 PyTorch 1.0.0 扩展文件(.c/.cu)需要 GCC=4.9.1 和 nvcc=9.0 编译器
- GPU:NVIDIA GPU(作者使用的是 Titan X(Pascal)计算=6.1,支持 compute_50/52/60/61 设备)
安装使用
下载资料库:
$ git clone https://github.com/baowenbo/DAIN.git
在构建Pytorch扩展之前,请确保您具有pytorch >= 1.0.0:
$ python -c "import torch; print(torch.__version__)"
生成 PyTorch 扩展:
$ cd DAIN
$ cd my_package
$ ./build.sh
生成 PWCNet 所需的 Correlation 包:
$ cd ../PWCNet/correlation_package_pytorch1_0
$ ./build.sh
测试预训练模型:
制作模型权重目录和 Middlebury 数据集目录:
$ cd DAIN
$ mkdir model_weights
$ mkdir MiddleBurySet
下载预训练的模型,
$ cd model_weights
$ wget http://vllab1.ucmerced.edu/~wenbobao/DAIN/best.pth
和 Middlebury 数据集:
$ cd ../MiddleBurySet
$ wget http://vision.middlebury.edu/flow/data/comp/zip/other-color-allframes.zip
$ unzip other-color-allframes.zip
$ wget http://vision.middlebury.edu/flow/data/comp/zip/other-gt-interp.zip
$ unzip other-gt-interp.zip
$ cd ..
预安装:
$ cd PWCNet/correlation_package_pytorch1_0
$ sh build.sh
$ cd ../my_package
$ sh build.sh
$ cd ..
下载结果
用以下方法下载插值结果:
$ wget http://vllab1.ucmerced.edu/~wenbobao/DAIN/UCF101_DAIN.zip
$ wget http://vllab1.ucmerced.edu/~wenbobao/DAIN/Vimeo90K_interp_DAIN.zip
$ wget http://vllab1.ucmerced.edu/~wenbobao/DAIN/Middlebury_eval_DAIN.zip
$ wget http://vllab1.ucmerced.edu/~wenbobao/DAIN/Middlebury_other_DAIN.zip
慢动作生成:
此模型完全有能力在对网络体系结构进行少量修改的情况下产生慢动作效果。通过指定time_step = 0.25以生成 x4 慢动作效果来运行以下代码:
$ CUDA_VISIBLE_DEVICES=0 python demo_MiddleBury_slowmotion.py --netName DAIN_slowmotion --time_step 0.25
或设置time_step为0.125或0.1如下
$ CUDA_VISIBLE_DEVICES=0 python demo_MiddleBury_slowmotion.py --netName DAIN_slowmotion --time_step 0.125
$ CUDA_VISIBLE_DEVICES=0 python demo_MiddleBury_slowmotion.py --netName DAIN_slowmotion --time_step 0.1
分别生成 x8 和 x10 慢动作。或者你想用 x100 慢动作拍些好玩的东西也没问题。
$ CUDA_VISIBLE_DEVICES=0 python demo_MiddleBury_slowmotion.py --netName DAIN_slowmotion --time_step 0.01
可通过以下方法创建gif动画:
$ cd MiddleBurySet/other-result-author/[random number]/Beanbags
$ convert -delay 1 *.png -loop 0 Beanbags.gif //1*10ms delay
祝玩得开心!
分辨率提升工具 ESRGAN
我们知道,分辨率对于图像的清晰度将产生直接的影响。一张低分辨率的小图片,如果我们直接放大的话很多细节将变成“马赛克”,这点相信大家都很有经验。因此,直接采用普通的插值算法进行图片放大的话,图中物体的边缘就会变得模糊,而超分辨率算法就是为了解决这种问题。
ESRGAN 是一种增强型超分辨率生成对抗网络,能通过 AI 在图像超分辨率期间生成真实纹理,实现图像分辨率的提升,效果如下图所示:
测试环境
- Python 3
- PyTorch> = 1.0(如果与 CUDA 一起安装,CUDA 版本> = 7.5。更多详细信息)
- Python套件: pip install numpy opencv-python
安装使用
1.克隆此 github 存储库。
git clone https://github.com/xinntao/ESRGAN
cd ESRGAN
2.将低分辨率图像放置在./LR文件夹中。(有两个示例图像-狒狒和漫画)。
3.从 Google 云端硬盘或百度云端硬盘下载经过预训练的模型。将模型放在./models。
4.作者提供了两种具有高感知质量和高 PSNR 性能的模型。运行测试:提供 ESRGAN模型和 RRDB_PSNR 模型,可以配置test.py。
python test.py
5.结果在./results文件夹中。
黑白图像着色工具 DeOldify
DeOldify 是用于着色和恢复旧图像及视频的深度学习项目。它采用了 NoGAN 这样一种新型的、高效的图像到图像的 GAN 训练方法,细节处理效果更好,渲染也更逼真:
NoGAN 是作者开发的一种新型 GAN 训练模型,用于解决之前 DeOldify 模型中的一些关键问题。NoGAN 训练结合了 GAN 训练的优点(好看的色彩),同时消除了令人讨厌的副作用(如视频中的闪烁物体)。视频由孤立的图像生成,而不添加任何时间建模。该过程执行 30-60 分钟 “NoGAN” 训练的 GAN 部分,每次使用 1% 至 3% 的图像网络(imagenet)数据。然后,与静止图像着色一样,在重建视频之前对各个帧进行“去旧化”(DeOldify),即使在移动场景中的渲染也非常一致:
目前,DeOldify 有三种型号可供选择,每一种都有关键优势和劣势,因此具有不同的用例。三种型号分别为:Artistic(艺术型)、Stable(稳定型)、Video(视频专用)。
测试环境
- Linux
- Fast.AI = 1.0.51(及其依赖项)。如果使用任何更高版本,你会在渲染中看到网格工件,而tensorboard 会出现故障。
- PyTorch = 1.0.1
- Jupyter Lab conda 安装
-c conda forge jupyterlab
- Tensorboard(即安装 Tensorflow)和 TensorboardX。非必要,但 FastAI 现在提供了对 TF的原生支持,很好用。
prereqs:conda install-c anaconda tensorflow gpu
pip install tensorboardX
- ImageNet,是一个很好的数据集,用于训练。
- GPU:要求不高。(单独着色用普通集显都行,大规模训练的话还是建议上好一点的显卡)
安装使用
打开命令行并导航到要安装的根文件夹,输入以下命令:
git clone https://github.com/jantic/DeOldify.git DeOldify
cd DeOldify
conda env create -f environment.yml
然后开始使用这些命令运行:
source activate deoldify
jupyter lab
通过控制台中提供的 URL 开始在 Jupyter Lab 中运行。
想要自己动手把黑白老视频变成彩色高清视频的朋友,现在就可以行动起来啦。
作者 | OSC神秘老司机
来源 | https://www.oschina.net/news/115801/use-ai-to-recover-images
最后
刚整理 2020 年全套最新精品技术资料免费发给你! (原价最少8999元,超2000G!)
领取 看看下面!!
1、点赞 + 评论 (勾选 “转发” )
2、关注小编私信。点击头像,关注。并私信回复关键词: 1024
相关推荐
- selenium(WEB自动化工具)
-
定义解释Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7,8,9,10,11),MozillaF...
- 开发利器丨如何使用ELK设计微服务中的日志收集方案?
-
【摘要】微服务各个组件的相关实践会涉及到工具,本文将会介绍微服务日常开发的一些利器,这些工具帮助我们构建更加健壮的微服务系统,并帮助排查解决微服务系统中的问题与性能瓶颈等。我们将重点介绍微服务架构中...
- 高并发系统设计:应对每秒数万QPS的架构策略
-
当面试官问及"如何应对每秒几万QPS(QueriesPerSecond)"时,大概率是想知道你对高并发系统设计的理解有多少。本文将深入探讨从基础设施到应用层面的解决方案。01、理解...
- 2025 年每个 JavaScript 开发者都应该了解的功能
-
大家好,很高兴又见面了,我是"高级前端进阶",由我带着大家一起关注前端前沿、深入前端底层技术,大家一起进步,也欢迎大家关注、点赞、收藏、转发。1.Iteratorhelpers开发者...
- JavaScript Array 对象
-
Array对象Array对象用于在变量中存储多个值:varcars=["Saab","Volvo","BMW"];第一个数组元素的索引值为0,第二个索引值为1,以此类推。更多有...
- Gemini 2.5编程全球霸榜,谷歌重回AI王座,神秘模型曝光,奥特曼迎战
-
刚刚,Gemini2.5Pro编程登顶,6美元性价比碾压Claude3.7Sonnet。不仅如此,谷歌还暗藏着更强的编程模型Dragontail,这次是要彻底翻盘了。谷歌,彻底打了一场漂亮的翻...
- 动力节点最新JavaScript教程(高级篇),深入学习JavaScript
-
JavaScript是一种运行在浏览器中的解释型编程语言,它的解释器被称为JavaScript引擎,是浏览器的一部分,JavaScript广泛用于浏览器客户端编程,通常JavaScript脚本是通过嵌...
- 一文看懂Kiro,其 Spec工作流秒杀Cursor,可移植至Claude Code
-
当Cursor的“即兴编程”开始拖累项目质量,AWS新晋IDEKiro以Spec工作流打出“先规范后编码”的系统工程思维:需求-设计-任务三件套一次生成,文档与代码同步落地,复杂项目不...
- 「晚安·好梦」努力只能及格,拼命才能优秀
-
欢迎光临,浏览之前点击上面的音乐放松一下心情吧!喜欢的话给小编一个关注呀!Effortscanonlypass,anddesperatelycanbeexcellent.努力只能及格...
- JavaScript 中 some 与 every 方法的区别是什么?
-
大家好,很高兴又见面了,我是姜茶的编程笔记,我们一起学习前端相关领域技术,共同进步,也欢迎大家关注、点赞、收藏、转发,您的支持是我不断创作的动力在JavaScript中,Array.protot...
- 10个高效的Python爬虫框架,你用过几个?
-
小型爬虫需求,requests库+bs4库就能解决;大型爬虫数据,尤其涉及异步抓取、内容管理及后续扩展等功能时,就需要用到爬虫框架了。下面介绍了10个爬虫框架,大家可以学习使用!1.Scrapysc...
- 12个高效的Python爬虫框架,你用过几个?
-
实现爬虫技术的编程环境有很多种,Java、Python、C++等都可以用来爬虫。但很多人选择Python来写爬虫,为什么呢?因为Python确实很适合做爬虫,丰富的第三方库十分强大,简单几行代码便可实...
- pip3 install pyspider报错问题解决
-
运行如下命令报错:>>>pip3installpyspider观察上面的报错问题,需要安装pycurl。是到这个网址:http://www.lfd.uci.edu/~gohlke...
- PySpider框架的使用
-
PysiderPysider是一个国人用Python编写的、带有强大的WebUI的网络爬虫系统,它支持多种数据库、任务监控、项目管理、结果查看、URL去重等强大的功能。安装pip3inst...
- 「机器学习」神经网络的激活函数、并通过python实现激活函数
-
神经网络的激活函数、并通过python实现whatis激活函数感知机的网络结构如下:左图中,偏置b没有被画出来,如果要表示出b,可以像右图那样做。用数学式来表示感知机:上面这个数学式子可以被改写:...
- 一周热门
- 最近发表
- 标签列表
-
- ps图案在哪里 (33)
- super().__init__ (33)
- python 获取日期 (34)
- 0xa (36)
- super().__init__()详解 (33)
- python安装包在哪里找 (33)
- linux查看python版本信息 (35)
- python怎么改成中文 (35)
- php文件怎么在浏览器运行 (33)
- eval在python中的意思 (33)
- python安装opencv库 (35)
- python div (34)
- sticky css (33)
- python中random.randint()函数 (34)
- python去掉字符串中的指定字符 (33)
- python入门经典100题 (34)
- anaconda安装路径 (34)
- yield和return的区别 (33)
- 1到10的阶乘之和是多少 (35)
- python安装sklearn库 (33)
- dom和bom区别 (33)
- js 替换指定位置的字符 (33)
- python判断元素是否存在 (33)
- sorted key (33)
- shutil.copy() (33)