百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

ECCV 2024 | 一眼临摹:瞥一眼就能模仿笔迹的AI

itomcoil 2025-04-30 17:29 5 浏览

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

来自华南理工大学、新加坡国立大学、昆仑万维以及琶洲实验室的研究者们提出一种新的风格化手写文字生成方法,仅需提供单张参考样本即可临摹用户的书写风格,支持英文,中文和日文三种文字的临摹。

一眼临摹 AI 的研究背景

手写体自动临摹是一项有趣的 AI 生成式任务,用户只需将少量书写样本输入到笔迹模仿 AI 中,就能获得一套符合自己书写风格的电子字体。该字体可以用于社交和办公软件中,帮助用户更好的表达个性和传递情感,兼顾了传统手写的人情味和数字化时代的高效表达。

在去年早些时候,机器之心也报道过一个CVPR’23笔迹模仿的工作,名为Disentangling Writer and Character Styles for Handwriting Generation。彼时的笔迹模仿 AI 还需要提供 15 张样本作为风格参考,用户使用起来觉得略显繁琐。在实际应用中,用户更倾向于只需单张样本作为输入的笔迹模仿 AI,因为其更加高效,便捷以及节约时间。

在这篇发表在 ECCV 2024 上的新工作中,研究者们设计了一种能够一眼临摹的手写文字生成方法。该方法仅需单张样本作为风格输入,为用户带来更好的使用体验。在具体介绍该工作之前,我们可以思考一个问题:目前大火的文生图方法和风格迁移方法是在海量的数据上进行训练的,拥有强大的泛化能力,能否可以直接实现一眼临摹?答案是否定的。研究者们挑选了 DALL-E3, Stable Diffusion , Artbreeder , IP-Adapter 等工业方法进行测试,实验显示现有工业方法在手写文字的风格临摹 (墨迹颜色,倾斜程度,字母间的连笔和间隔等) 上离目标还有较大距离,暂时还无法做到一眼临摹。

为了实现一眼临摹,研究者们提出一个风格化的手写文字生成模型 (stylized handwritten text generation method),该模型能够从单张手写样本中临摹出用户的书写风格,进而合成任意书写内容的手写笔迹。目前论文的代码和数据已经开源,欢迎感兴趣的小伙伴们上手试玩!

  • 论文地址:https://arxiv.org/abs/2409.04004
  • 代码开源:https://github.com/dailenson/One-DM

关键问题

围绕上述目标,研究者们分析了两个关键问题:1. 用户只能提供单张书写样本,如何从单张参考样本中准确学习用户独特的书写风格呢?换句话说,一眼临摹的要求过于苛刻,仅仅使用单张样本能否临摹出令人满意的用户笔迹?2. 实际应用中,用户书写的纸张可能没那么干净,提供的样本中存在多样的噪声背景,如何在临摹风格的过程中避免这些噪声的干扰?接下来让我们看看这篇 ECCV2024 提出的 One-DM(One-Shot Diffusion Mimicker)是如何解决上述问题的吧。

技术方案

研究动机 研究者发现,由于单张样本图像中存在背景干扰,书写风格模式并不清晰,很难直接从原始的样本图像中提取出准确的书写风格。为了解决上述问题,研究者对样本进行高低频分离,发现书写样本的高频成分中具有清晰的文字轮廓,蕴含着显著的书写风格模式,包含文字的倾斜,字母间距和连笔模式等。受启发于上述观察,One-DM 旨在引入个人笔迹的高频成分来增强用户书写风格的提取。

然而,这听起来简单,实际操作却不容易。这里有两个尚未解决的难题:(1) 尽管高频成分中存在更清晰的风格模式,如何准确引导 One-DM 从高频图像中提取出风格特征而不是其他的特征呢?(2) 由于高频成分中缺乏笔迹颜色,仍然需要从原始样本中提取风格模式作为补充,这导致最终提取出的风格特征依然保留了样本的背景噪声,从而对后续的文字合成过程产生不利影响。为了解决这些难题,One-DM 提出了两个解决策略:(a)拉普拉斯风格增强模块,(b)自适应过滤噪声的门控机制。

方法框架 One-DM 的整体框架如下图所示,包含高频风格编码器、空域风格编码器、内容编码器、风格 - 内容融合模块和扩散生成模块。首先,One-DM 利用高通滤波器从原始风格参考图像中提取高频成分,其次将高频和原始图像并行输入到高频和空域风格编码器中,分别获得高频和空域风格特征。然后,利用门控机制来自适应过滤空域风格特征中的背景噪声。接着将内容编码器提取的内容特征,高频风格特征和过滤后的空域风格特征送入风格 - 内容融合模块中获得合并后的条件输入。最后,利用该条件输入引导扩散模型合成满足期望风格和目标内容的手写文字。

(a) 拉普拉斯风格增强模块 One-DM 提出拉普拉斯风格增强模块来从单张书写样本中高效提取用户的书写风格。首先利用拉普拉斯算子获取原始样本的高频成分。相比其他算子,例如:傅里叶算子,索贝尔算子和小波算子,拉普拉斯算子的优势在于能够提取更加清晰的字符风格模式。随后,在拉普拉斯对比学习损失函数(LapNCE)的引导下,高频风格编码器从高频成分中提取出判别性强的风格模式,用于促进手写文本合成的真实性和多样性。LapNCE 和高频成分是不可分割的整体,与其他直接作用于图像上的对比学习损失函数不同,LapNCE 只有作用在高频成分上才能准确引导风格的提取。

(c) 风格 - 内容的融合摸块 获取了高频和空域风格特征后,如何将风格信息和内容编码器提取出的内容信息注入到扩散模型中,引导后续的文字生成过程呢?One-DM 提出先将内容信息和风格信息融合后再进行注入扩散模型,而不是分开注入。具体来说,所提出的风格 - 内容融合模块包含两个 attention 机制。首先,内容信息E作为 query 向量,合并后的风格信息作为 key & value 向量,在交叉注意力机制中,E动态查询风格信息中与自身最相关的风格特征。然后,将查询出的风格特征和内容信息合并,送入自注意力机制中完成进一步的信息融合。

实验评估

定量评价 One-DM 在多个英文、中文和日文数据集上都取得了最优异的临摹性能。尤其强调的是,仅需一张参考样本的 One-DM 超过了之前依赖十几张参考样本的 SOTA 方法 (HWT 和 VATr)。

定性评价 在英文文本生成任务上,相比以前的 SOTA 方法,One-DM 生成的结果可以更好的临摹出参考样本的墨迹、字符间隔和笔画粗细等风格特征。

在其他语言上 One-DM 也表现良好。从下图中可以看出,Diffusion-based (One-DM 和 WordStylist) 的方法在生成中文和日文等字符结构复杂的文本时,显著优于 GAN-based (GANwriting,HWT 和 VATr) 方法。而相比同为 Diffusion-based 的 WordStylist,One-DM 在字符细节上更胜一筹。

与工业方法对比,One-DM 也有较大优势。在英文文本合成任务上,One-DM 的文本内容准确度和风格临摹上都显著优于现有的主流工业方法。其中,DALL-E3 跟 Stable Diffusion 表现稍好,可以合成正确的文本内容,但是在风格临摹上效果不佳,并且 Stable Diffusion 容易生成多余的背景。而中文文本合成任务上,One-DM 在字符的墨迹和字符细节上与目标风格更接近。

消融实验

核心模块对算法性能的影响 如下表所示,本文提出的拉普拉斯风格增强模块和门控机制具有协同作用,有效提升了对用户笔迹的临摹性能。此外,实验也证明了拉普拉斯算子比其他算子提取的风格模式更加清晰,有助于提升文字合成性能。

拉普拉斯风格增强模块的分析 实验验证了高频成分和拉普拉斯对比学习 (LapNCE) 是不可分割的整体:单独使用会导致 One-DM 性能显著下降,联合使用二者才能最大程度上提升性能。原因在于,没有 LapNCE 的引导,One-DM 很难从高频成分中准确提取风格模式。另一方面,由于原图中的风格模式并不清晰,直接将 LapNCE 应用在原图上也很难提取到理想的风格模式。

一眼临摹的深入分析 为什么仅需单张样本的 One-DM 可以超越需要 10 几张样本的 SOTA 方法呢?本文给出了潜在的分析:首先,One-DM 学习到了有意义的风格特征空间,可以根据训练过程中见过的风格灵活创造新的书写风格而不是机械的记忆训练集中的已有风格,如下图所示。然后,借助拉普拉斯风格增强模块,One-DM 可以从用户提供的参考样本中准确提取出书写风格特征,并将其映射到特征空间中与用户相近的位置,从而产生高质量的风格化手写文本图像。

One-DM 在中文和日文实验上的深入分析 为什么 One-DM 在中文和日文实验上远超 GAN-based 的方法?本文对此做了进一步探究。作者认为,GAN-based 方法在较低性能可能源于其基础卷积架构难以处理这些字符的复杂几何结构。相比之下,One-DM 作为 Diffusion-based 方法,将中文和日文等复杂字符的生成过程分解为更简单的步骤。如上图所示,在扩散生成过程的早期阶段,One-DM 首先尝试生成一个粗略的中文手写字符。然后,在条件输入的引导下,模型继续细化书写风格(例如字符形状和笔画颜色),直到合成出令人满意的手写体。

总结与展望

One-DM 从用户的实际体验出发,提出了一眼临摹的笔迹临摹 AI。相比之前的类似工作,One-DM 仅需单张样本作为风格输入,使用起来更加高效、便捷和节约时间,并且在性能上也优于以往依赖 10 几张风格样本的 SOTA 工作。希望在未来,人人都可以在互联网上使用自己的专属字体,能够同时享受传统手写体带来的人情味与 AI 时代带来的高效便捷。

相关推荐

tesseract-ocr 实现图片识别功能

最近因为项目需要,接触了一下关于图像识别的相关内容,例如Tesseract。具体如何安装、设置在此不再赘述。根据项目要求,我们需要从省平台获取实时雨水情况数据,原以为获取这样的公开数据比较简单,上去一...

跨平台Windows和Linux(银河麒麟)操作系统OCR识别应用

1运行效果在银河麒麟桌面操作系统V10(SP1)上运行OCR识别效果如下图:2在Linux上安装TesseractOCR引擎2.1下载tesseract-ocr和leptonicahttps:...

JAVA程序员自救之路——SpringAI文档解析tika

ApacheTika起源于2007年3月,最初是ApacheLucene项目的子项目,于2010年5月成为Apache组织的顶级项目。它利用现有的解析类库,能够侦测和提取多种不同格式文档中的元数据...

Python印刷体文字识别教程

在Python中实现印刷体文字识别(OCR),通常使用TesseractOCR引擎结合Python库。以下是详细步骤和示例:1.安装依赖库bashpipinstallpytesseractp...

图片转文字--四种OCR工具的安装和使用

本文仅测试简单的安装和使用,下一步应该是测试不同数据集下的检测准确率和检测效率,敬请期待。作者的系统环境是:笔记本:ThindPadP520OS:win11显卡:QuadroP520一、EasyO...

mac 安装tesseract、pytesseract以及简单使用

一.tesseract-OCR的介绍1.tesseract-OCR是一个开源的OCR引擎,能识别100多种语言,专门用于对图片文字进行识别,并获取文本。但是它的缺点是对手写的识别能力比较差。2.用te...

【Python深度学习系列】Win10下CUDA+cuDNN+Tensorflow安装与配置

这是我的第292篇原创文章。一、前置知识安装GPU版本的pytorch和tensorflow之前需要理清楚这几个关系:显卡(电脑进行数模信号转换的设备,有的电脑可能是双显卡,一个是inter的集成显卡...

手把手教你本地部署AI绘图Stable Diffusion!成功率100%!

导语:无需每月付费订阅,无需高性能服务器!只需一台普通电脑,即可免费部署爆火的AI绘图工具StableDiffusion。本文提供“极速安装包”和“手动配置”双方案,从环境搭建到模型调试,手把手教你...

本地AI Agent Hello World(Python版): Ollama + LangChain 快速上手指南

概要本文将用最简洁的Python示例(后续还会推出Java版本),带你逐步完成本地大模型Agent的“HelloWorld”:1、介绍核心工具组件:Ollama、LangChain和...

python解释器管理工具pyenv使用说明

简介pyenv可以对python解释器进行管理,可以安装不同版本的python,管理,切换不同版本很方便,配置安装上比anaconda方便。pyenv主要用来对Python解释器进行管理,可以...

Deepseek实战:企业别只会用Ollama,也可以用SGLang

SGLang:企业级的“性能之王”优点吞吐量碾压级优势通过零开销批处理调度器、缓存感知负载均衡器等核心技术,SGLang的吞吐量提升显著。例如,在处理共享前缀的批量请求时,其吞吐量可达158,59...

用LLaMA-Factory对Deepseek大模型进行微调-安装篇

前面的文章已经把知识库搭建好了,还通过代码的形式做完了RAG的实验。接下来呢,咱们要通过实际操作来完成Deepseek的另一种优化办法——微调。一、环境因为我这台电脑性能不太好,所以就在Au...

碎片时间学Python-03包管理器

一、pip(Python官方包管理器)1.基础命令操作命令安装包pipinstallpackage安装特定版本pipinstallnumpy==1.24.0升级包pipinstall-...

ubuntu22/24中利用国内源部署大模型(如何快速安装必备软件)

本地AI部署的基础环境,一般会用到docker,dockercompose,python环境,如果直接从官网下载,速度比较慢。特意记录一下ubuntu使用国内源快速来搭建基础平台。一,docke...

还不会deepseek部署到本地?这篇教程手把手教会你

一、为什么要把DeepSeek部署到本地?新手必看的前置知识近期很多读者在后台询问AI工具本地部署的问题,今天以国产优质模型DeepSeek为例,手把手教你实现本地化部署。本地部署有三大优势:数据隐私...