豆包生成汉字,不是神秘的技术,而是好产品

头图由豆包生成 提示词: 大家喜欢拍照打卡的那种路牌,上面写着“我在硅星人很想你”。

作者 | Yoky邮箱 | yokyliu@pingwest.com

为了一张带中文的AI海报,设计圈最近有点躁动。

在此之前,设计师们或许并不把AI生图当回事。毕竟Midjourney和Stable Diffusion虽然能画出精美绝伦的画面,但一碰到中文就歪歪扭扭、惨不忍睹。

12月初,豆包和即梦在移动端悄然上线了一项新功能:能够生成带有工整中文字体的图片。一时间,朋友圈被各种AI制作的四格漫画、产品海报、电影海报刷屏。

从前动辄几百元一张的设计费,如今可能真的要被免费的豆包取代了?

硅星人经过多轮测试发现,虽然偶尔还会出现中文乱码的情况,但在生成的四张图中,至少有三张都能达到使用标准。这个成功率,已经远超此前任何一款AI设计工具。

那么问题来了:为什么此前AI难以实现可控的汉字生成?技术难点究竟在哪?豆包是如何攻克这些挑战的?它背后的技术逻辑是什么?

1

打通LLM和DIT

对于这个技术的实现过程,豆包团队比较低调,他们表示:这次更新并不是什么重大的技术突破,更多是在现有技术框架上的细节优化。

在为数不多的公开资料中,豆包大模型团队相关负责人简要介绍了他们的技术方案:豆包文生图模型通过打通LLM和DIT架构,具备更好的原生中文数据学习能力,并在此基础上强化了汉字生成能力,大幅提升了生成效果。

在深入研究相关论文并咨询多位算法工程师后,我们发现在当前AI技术发展的背景下,文字生成确实已经有了相当成熟的技术基础。

早在豆包之前,斯坦福大学开发的ControlNet框架就实现了英文字海报的生成能力。今年2月,阿里通义团队更是在魔搭平台上线了功能更为强大的AnyText模型,不仅支持中文、日文、韩文等多语言文字的生成,还能精确修改已有图片中的文字内容。

从技术原理来看,这个突破并不令人意外。文字本质上也是一种特殊的图形符号。如果DIT能够准确生成一只花瓶的图像,那么生成“花瓶”这两个字在技术原理上并无本质区别。

关键在于如何让系统理解和处理用户的输入需求。

这就是大语言模型(LLM)发挥作用的地方。当用户输入提示词(Prompt)时,LLM需要准确解析内容,判断哪些部分应该以图像形式呈现,哪些部分需要直接生成文字。这个过程涉及复杂的语义理解和意图识别。

也就是说,LLM负责深层语义理解和文本表达,确保准确理解用户意图;DIT则处理双模态输入和特征交互,将语义信息转化为视觉呈现。两个模型之间通过特征融合实现无缝对接,完成从语义到视觉的精准映射。

当然,汉字相比于英文字符,其本身的复杂性更高。难度具体体现在这几个方面:大多数生成模型使用英文数据集做理解训练,缺乏中文语料;英文只有26个字母,而中文字符有数万个,且结构、笔画、字体复杂;其次是中文排版有独特的规则和美学要求,横竖排又需要灵活变化,来保证整体的视觉效果。

即便排除了国外模型“水土不服”的因素,国内的AI模型在处理中文生成时也常常面临精确度不足的问题。生成出的汉字可能笔画残缺、结构变形,或者在排版上显得生硬呆板,缺乏自然美感。这也解释了为什么真正实现高质量的中文生成,需要在技术细节上作出大量优化和改进。

精准的保证可控和一致性,才是技术上的一个难题。从目前的技术发展来看,已经形成了几种不同的解决方案。

豆包团队选择了优化现有框架的路径。比如豆包在ECCV中发布了新的ControlNet++框架,主要解决了传统ControlNet在条件控制一致性方面的不足。

他们提出了一个高效的奖励策略:通过对输入图像添加噪声来扰动一致性,并采用单步去噪图像进行奖励微调。这种方案巧妙地避免了多步采样带来的时间和内存开销,在技术指标上取得了显著提升:准确性提高11.1%,结构相似性提升13.4%,误差值降低7.6%。

而阿里通义团队则采取了一种更为传统但同样有效的方案。他们没有依赖大语言模型,而是基于OCR技术构建了名为AnyWord-3M的庞大数据集,包含超过300万张图片、900万行文字、2000万个字符。通过严格的数据筛选和精细的后处理,同样实现了高质量的文字生成和修改功能。

总的来说,精确生成汉字并非只有单一解决方案,技术上正在推进接近100%精准度。

1

重点在于“可商用”

此前在技术层面实现的中文文字生成能力,都并未在市场上引起太大波澜。

当我们将豆包生成的海报与此前的作品进行对比,最显著的差异并非技术水平,而在于是否可商用。这种差异背后,是结合了字节对市场需求和商业环境判断后的结果。

AnyText演示效果

在中国的商业环境中,字体版权保护已经形成了一个相对成熟的生态体系。主流商业字体库普遍采用付费授权模式,这使得AI字体生成技术在商业化过程中必须格外谨慎。从训练数据的来源合规性,到生成结果的版权审核,再到可能的侵权风险评估,每一个环节都需要严格把控。

一位资深算法工程师对我们分析道:“技术实现其实并不是最大的挑战。真正的难点在于如何确保整个生成过程符合版权法规,如何避免潜在的侵权风险。这需要我们在技术实现的基础上,建立一整套完善的版权管理机制。需要平衡技术创新与版权保护、商业利益与法律合规、市场推广与风险控制等方面。”

虽然市面上确实存在一些免费字体库,但与庞大的商业字体体系相比,这些免费资源只是一小部分。更关键的是,在追求精致视觉效果的商业设计领域,免费字体往往难以满足专业需求。

如果仅仅依靠免费字体资源进行训练,很难达到市场对视觉美感的严苛要求;而如果要获取优质的商业字体资源,则必须面对复杂的版权问题和高昂的授权成本。这也是为什么即便技术本身并不复杂,但真实的落地情况却没有遍地开花。

一位数据源供应商分析到:“看AnyText的生成结果,就能感受到数据集中大部分都是免费字体库,OCR识别的图集可能也是公用数据,而豆包的生成结果有很多商业字体甚至是设计师自创的字体,这种数据源的差异,直接决定了最终产品的美感和商业价值。”

然而,更深层的区别在于产品定位。AnyText作为一款模型插件,与豆包这样深度整合在移动端的产品相比,在使用场景和用户体验上存在天然差异。当我们追问为何国内鲜见类似产品时,一位算法工程师的反问令人深思:“国内有哪家是在认真做文生图产品么?”

确实,纵观国内AI领域,专注于文生图的独立产品寥寥无几。大多数企业将图像生成视为服务于视频生成的过渡功能,或是更大生态中的一个组件。可图被整合进可灵,即梦也在向视频生成方向倾斜。

或许技术创新只是起点。一个功能的实现往往需要过硬的技术实力、清晰的产品定位、成熟的商业模式,能否找准市场需求、打磨产品体验,往往成了比技术更关键的一块拼图。