markup2im：基于扩散模型将标记文本转化为图像

浏览：110次阅读

共计 1227 个字符，预计需要花费 4 分钟才能阅读完成。

markup2im（Markup-to-Image Diffusion Models with Scheduled Sampling）提出了一个基于扩散模型 (diffusion models) 的完全数据驱动的将标记文本转换为图像的方法。扩散模型通过在一组去噪操作上对高斯噪声分布进行参数化来表示数据分布。作者将扩散去噪过程视为一个顺序决策过程，并发现它与模仿学习问题中的曝光偏差 (exposure bias) 问题类似，会 compounding errors。为减轻这些问题，作者将预定采样的算法 (scheduled sampling) 适应到扩散模型的训练中。实验结果在四个标记数据集 (数学公式、表格布局、乐谱和分子图像) 上验证了扩散过程的有效性和预定采样在生成问题上的作用。这些结果还表明，将标记转换为图像任务为诊断和分析生成图像模型提供了一个有用的控制组合设置。

GitHub 地址：https://github.com/da03/markup2im
Demo 地址：https://huggingface.co/spaces/yuntian-deng/latex2im

主要的知识点可以总结如下：

标记语言转换为图像生成：提出了基于扩散模型的标记语言到图像的生成方法，包括 LaTeX 数学公式、HTML 表格布局、LilyPond 乐谱和 SMILES 分子图像。该方法将扩散去噪过程视为一个顺序决策过程，并使用调度采样算法来解决模型错误累积的问题。
实验结果：实验表明扩散模型在生成图像时存在错误累积问题，而调度采样可以改善生成质量。模型在各个领域都产生了高质量的图像，但仍需要改进以实现准确和一致的生成。实验结果突出了标记到图像任务作为一个有利的组合环境，有助于诊断和分析生成图像模型。
数据集和评估 ：构建了 4 个数据集用于评估生成模型在结构化环境中的生成能力。主要使用动态时间规整(DTW) 和均方根误差 (RMSE) 作为评估指标，同时还使用了互补的指标如 CLIP 分数和 SSIM 等。
实验设置：在 LaTeX、HTML 和 SMILES 数据集上使用 GPT-Neo 作为编码器，在 LilyPond 数据集上使用 ChemBERTa。使用 U -Net 的 3 个变体来参数化扩散解码器。在训练时使用 AdamW 优化器，学习率使用余弦衰减调度。实验表明，注意力机制和位置编码可以提高性能。
实验结果分析：实验结果显示，在所有数据集上，调度采样方法相比基线都提高了生成质量。模型可以产生清晰可识别的图像，并通常很好地表示了任务的语义。然而，确保在这些困难的确定性设置中生成准确和一致的图像仍然是一个挑战。
应用和意义：研究认为标记到图像的生成是一个有趣的基准，可以作为预训练模型的潜在应用，如抗错误的标记编译器等。该任务突出了确定性环境下扩散模型面临的生成问题，为未来研究提供了有价值的见解。
结论：研究表明，调度采样可以改善扩散模型的性能，尽管完美的渲染尚未实现。标记到图像任务是一个有趣的基准，并可能是预训练模型的一个潜在应用。

正文完

关注公众号获取最新教程

发表至：无分类

2024-01-24

0

转载说明：除特殊说明外本站文章皆由原创发布，请勿转载。

Meta联手纽约大学发布机器人框架OK-Robot