清华朱军团队推出高保真 4D 重构模型 Vidu4D|大模型周报

本周值得关注的大模型 / AIGC 前沿研究:

清华朱军团队推出高保真 4D 重构模型 Vidu4D

华为推出 VeLoRA:便宜且内存高效的大模型训练算法

Google DeepMind 提出直接奖励优化(DRO)算法

Google DeepMind 提出多塔式解码器架构 Zipper

谷歌新研究:将扩散模型提炼为一步生成器模型

谷歌新研究:GPT-4 在高阶心智理论任务中超过成人

西北大学、微软提出自探索语言模型(SELM)算法

英伟达推出 ChatQA:RAG、QA 能力超过 GPT-4

英伟达推出全模态模型 X-VILA

英特尔推出 LLaMA-NAS:大型语言模型的高效神经架构搜索

Meta 领衔:一文读懂视觉语言建模(VLM)

综述:使用大型语言模型进行工具学习

1.清华朱军团队推出高保真 4D 重构模型 Vidu4D

近来,由于能够生成逼真而富有想象力的画面,视频生成模型备受关注。此外,据观察,这些模型还表现了出很强的 3D 一致性,大大提高了它们作为世界模拟器的潜力。

在这项工作中,清华大学朱军团队推出了一种新颖的重构模型——Vidu4D,其能从单个生成的视频中精确重构出 4D(即连续的 3D 呈现),解决了与非刚性和帧失真相关的难题。这种能力对于创建保持空间和时间一致性的高保真虚拟内容至关重要。

Vidu4D 的核心为动态高斯曲面(DGS)技术。DGS 优化时变翘曲函数,将高斯曲面(曲面元素)从静态状态转换为动态翘曲状态。这种变换可以精确地描绘运动和变形随时间的变化。

为了保持曲面对齐高斯曲面的结构完整性,他们设计了基于连续翘曲场的翘曲状态几何正则化,用于估计法线。此外,他们还对高斯曲面的旋转和缩放参数进行了细化,从而大大减轻了翘曲过程中的纹理闪烁,并增强了对细粒度外观细节的捕捉。Vidu4D 还包含一个新颖的初始化状态,为 DGS 中的翘曲场提供了一个正确的起点。Vidu4D 配备了现有的视频生成模型,整个框架在外观和几何方面都展示了高保真文本到 4D 生成能力。

论文链接:

https://arxiv.org/abs/2405.16822

项目地址:

https://vidu4d-dgs.github.io/

2.华为推出 VeLoRA:便宜且内存高效的大模型训练算法

尽管大型语言模型(LLMs)已成为处理许多语言处理任务的强大工具,但训练和微调这些模型仍然需要大量的计算和内存。

在这项工作中,来自华为诺亚方舟实验室的研究团队确定并描述了使用梯度下降技术有效收敛模型所需的重要组件。在此过程中,他们发现用于实现反向传播的中间激活可以被过度压缩,而不会导致性能下降。为此,他们提出了一种便宜且内存效率高的算法,将其用于微调和预训练 LLM。所提出的算法只需将 token 分成较小的子 token,然后在前向传递过程中将它们投影到一个固定的一维子空间上。然后在后向传递过程中对这些特征进行粗略重构,从而执行更新规则。

研究证实,在 VTAB-1k 微调基准上,该算法与许多 PEFT 方法相比都非常有效。此外,在对 LLaMA 进行微调时,该算法的性能优于 QLoRA,而且在大规模 C4 数据集上,该算法的性能与其他节省内存的预训练方法相比也很有竞争力。

论文链接:

https://arxiv.org/abs/2405.17991

3.Google DeepMind 提出多塔式解码器架构 Zipper

将多个生成式基础模型,尤其是在不同模态下训练的模型,整合为一个大于各个模型之和的模型,是一项巨大的挑战。两个关键障碍为:对齐数据(包含相似含义但在不同模态中表达方式不同的概念)的可用性,以及在跨域生成任务中有效利用单模态表征,同时不影响其原有的单模态能力。

在这项工作中,来自 Google DeepMind 的研究团队提出了一种多塔式解码器架构——Zipper,其利用交叉注意力从独立预训练的单模态解码器中灵活地组成多模态生成式模型,从而解决了上述问题。

他们发现,在融合语音和文本模态的实验中,Zipper 在文本-语音数据对齐有限的情况下表现出了很强的竞争力。他们还展示了该模型的灵活性,通过冻结相应模态塔(如文本),有选择地保持单模态(如文本到文本生成)生成性能。在自动语音识别(ASR)等以文本为输出模态的跨模态任务中,冻结文本骨干可使性能下降到可以忽略不计的程度。在输出模态为语音的文本到语音生成(TTS)等跨模态任务中,使用预训练的语音骨干可获得优于基线的性能。

论文链接:

https://arxiv.org/abs/2405.18669

4.Google DeepMind 提出直接奖励优化(DRO)算法

无论是通过基于人类反馈的强化学习(RLHF),还是直接偏好优化(DPO),大型语言模型(LLM)对齐的主流框架都是从偏好数据中学习。这就需要建立数据集,其中每个元素都是一个四元组,由一个提示、两个独立的回答(提示的完成)和人类对这两个独立回答的偏好组成,从而产生一个偏好回答和一个不偏好回答。这种数据通常很少,而且收集成本很高。

另一方面,单轨迹数据集的每个元素都是由一个提示、一个回应和一个人类反馈组成的三元组,这种数据集自然更为丰富。例如,此类数据集的典型元素是 LLM 对用户提示的回应,以及用户的反馈(如竖起/放下大拇指)。

因此,在这项工作中,来自 Google DeepMind 的研究团队及其合作者提出了一种不需要成对偏好的框架和相关算法 DRO,即“直接奖励优化”(Direct Reward Optimisation)。DRO 使用一个简单的均方目标,可以通过多种方式实现。

他们使用 T5 语言模型对研究结果进行了实证验证,结果表明 DRO 的性能优于所选的基线算法,证实了 DRO 是一种简单、经验上令人信服的单轨迹策略优化方法。

论文链接:

https://arxiv.org/abs/2405.19107

5.谷歌新研究:将扩散模型提炼为一步生成器模型

虽然扩散模型可以学习复杂的分布,但采样需要一个计算昂贵的迭代过程。现有的蒸馏方法可以实现高效采样,但也有明显的局限性,例如采样步骤很少就会导致性能下降,依赖于训练数据访问,或可能无法捕捉到完整分布的寻模优化。

来自 Google DeepMind、Google Research 和加州大学洛杉矶分校的研究团队,提出了 EM Distillation(EMD)方法,这是一种基于最大似然法的方法,可将扩散模型提炼为一步生成器模型,同时将感知质量的损失降到最低。该方法从期望最大化(EM)的角度出发,使用扩散教师先验和推断生成器潜变量联合分布的样本来更新生成器参数。

他们开发了一种重新参数化的采样方案和一种噪音消除技术,共同稳定了蒸馏过程。他们进一步揭示了该方法与现有的最小化模式搜索 KL 方法之间的联系。在 ImageNet-64 和 ImageNet-128 上,就 FID 分数而言,EMD 优于现有的一步法生成方法,与之前的文本到图像扩散模型蒸馏方法相当。

论文链接:

https://arxiv.org/abs/2405.16852

6.谷歌新研究:GPT-4 在高阶心智理论任务中超过成人

来自谷歌的研究团队及其合作者探讨了大型语言模型(LLM)在多大程度上发展了高阶心智理论(ToM),即人类以递归方式对多种心理和情感状态进行推理的能力(比如,我认为你相信她知道)。

在先前工作的基础上,他们提出了一个手写测试套件——多阶心智理论问答(Multi-Order Theory of Mind Q&A ),并利用它将五个 LLM 的性能与新收集的成人人类基准进行比较。

他们发现,GPT-4 和 Flan-PaLM 在 ToM 任务上的整体表现达到了成人水平或接近成人水平,而 GPT-4 在 6 阶推理上的表现超过了成人。研究结果表明,在实现 ToM 能力方面,模型大小和微调之间存在相互作用,表现最好的 LLM 已经发展出了 ToM 的综合能力。鉴于高阶 ToM 在人类广泛的合作和竞争行为中扮演的角色,这些发现对面向用户的 LLM 应用具有重要意义。

论文链接:

https://arxiv.org/abs/2405.18870

7.西北大学、微软提出自探索语言模型(SELM)算法

偏好优化,特别是通过基于人类反馈的强化学习(RLHF),在使得大型语言模型(LLM)与人类意图对齐方面取得了成功。

与使用固定数据集进行离线对齐不同,从人类或人工智能那里收集到的关于模型生成的在线反馈,通常会通过迭代过程产生能力更强的奖励模型和对齐更好的 LLM。然而,要实现全局精确的奖励模型,需要系统性的探索,从而生成跨越自然语言广阔空间的各种回应。仅从标准奖励最大化 LLM 中随机抽样不足以满足这一要求。

为了解决这个问题,来自西北大学和微软的研究团队提出了一个双层目标,即乐观地偏向于潜在的高回报回应,以积极探索分布外区域。

通过用重新参数化的奖励函数来解决内层问题,由此产生了自探索语言模型(SELM)算法,其不需要单独的 RM,而是用一个直接的目标迭代更新 LLM。与直接偏好优化(DPO)相比,SELM 目标减少了对未见外推的盲目偏好,提高了探索效率。实验结果表明,在 Zephyr-7B-SFT 和 Llama-3-8B-Instruct 模型上进行微调后,SELM 显著提高了 MT-Bench 和 AlpacaEval 2.0 等指令跟随基准以及各种标准学术基准在不同设置下的性能。

论文链接:

https://arxiv.org/abs/2405.19332

GitHub 地址:

https://github.com/shenao-zhang/SELM

8.英伟达推出 ChatQA:RAG、QA 能力超过 GPT-4

在这项工作中,英伟达团队推出了 ChatQA,它是一套在检索增强生成(RAG)和对话式问题解答(QA)方面好过 GPT-4 的模型。

为了提高生成能力,他们提出了一种两阶段指令微调方法,该方法显著提高了 RAG 的性能。为了有效检索,他们提出了针对会话式 QA 优化的密集检索器,其结果可与其他先进的查询重写模型相媲美,同时大大降低了部署成本。他们还介绍了 ChatRAG Bench,其中包括十个数据集,涵盖了对 RAG、表格相关 QA、算术计算和涉及无法回答问题的场景的全面评估。

ChatQA-1.0-70B(得分:54.14)是基于 Llama2(性能比 GPT-4 差的基础模型)构建的,在 ChatRAG Bench 上略微优于 GPT-4-0613(得分:53.90)和 GPT-4-Turbo-2024-04-09 (得分:54.03),而无需依赖 OpenAI GPT 模型的任何合成数据。值得注意的是,Llama3-ChatQA-1.5-70B 模型的准确度超过了 GPT-4-Turbo-2024-04-09,提高了 4.4%。

此外,为了推动这一领域的研究,他们向社区开源了模型权重、指令微调数据、ChatRAG Bench 和 retriever。

论文链接:

https://arxiv.org/abs/2401.10225

项目地址:

https://chatqa-project.github.io/

9.英伟达推出全模态模型 X-VILA

为通过整合图像、视频和音频模态来扩展大型语言模型(LLM)的功能,来自英伟达的研究团队及其合作者提出了一种全模态模型——X-VILA。

通过将特定模态编码器与 LLM 输入对齐,将扩散解码器与 LLM 输出对齐,X-VILA 实现了跨模态理解、推理和生成。为了促进这种跨模态对齐,他们策划了一个有效的交错任意模态指令跟随数据集。此外,他们还发现当前的跨模态对齐方法存在一个重大问题,即会导致视觉信息丢失。为了解决这个问题,他们提出了一种带有视觉嵌入模块的视觉对齐机制。

然后,他们介绍了一种用于训练 X-VILA 的资源节约型方法,X-VILA 在任意模态到任意模态的对话中均表现出色,大大超越了之前的方法。即使在没有类似训练数据的情况下,X-VILA 也能展示跨模态的新兴特性。

论文链接:

https://arxiv.org/abs/2405.19335

10.英特尔推出 LLaMA-NAS:大型语言模型的高效神经架构搜索

现代大型语言模型(LLM)在解决自然语言处理、复杂推理、情感分析和其他任务方面展现出了出色的能力。遗憾的是,这些能力伴随着极高的内存和计算成本,使得 LLM 无法在大多数硬件平台上使用。

为了缓解这一问题,英特尔团队提出了一种有效的方法,其利用单次 NAS 在 LLaMA2-7B 的基础上找到帕累托最优网络架构。特别是,他们只对 LLaMA2-7B 进行一次微调,然后应用基于遗传算法的搜索来找到更小、计算复杂度更低的网络架构。

研究证明,对于某些标准基准任务,预训练的 LLaMA2-7B 网络过于庞大和复杂。更具体地说,在某些任务中,模型规模缩小了 1.5 倍,吞吐量提高了 1.3 倍,而准确率几乎没有下降。除了找到更小、性能更高的网络架构外,该方法比某些剪枝或稀疏化技术更有效、更高效。最后,他们展示了量化是如何与该方法相辅相成的,而且他们发现的网络的规模和复杂性可以通过量化进一步降低。他们表示,这一工作提供了一种自动创建可以在更便宜、更容易获得的硬件平台上使用的 LLM 的方法。

论文链接:

https://arxiv.org/abs/2405.18377

11.Meta 领衔:一文读懂视觉语言建模(VLM)

人们正在尝试将大型语言模型(LLMs)扩展到视觉领域。从可以引导我们穿越陌生环境的视觉助手,到仅使用高级文本描述就能生成图像的生成模型,视觉语言模型(VLM)的应用将极大地影响我们与技术的关系。然而,要提高这些模型的可靠性,还需要应对许多挑战。语言是离散的,而视觉是在一个维度更高的空间中发展的,其中的概念并不总是很容易被离散化。

为了更好地理解将视觉映射到语言背后的机制,来自 Meta 的研究团队及其合作者详细介绍了 VLM,希望能对任何想进入这一领域的人有所帮助。首先,他们介绍了什么是 VLM、VLM 如何工作以及如何训练 VLM。然后,他们介绍并讨论了评估 VLM 的方法。虽然这项工作主要侧重于将图像映射为语言,但他们也讨论了将 VLM 扩展到视频的问题。

论文链接:

https://arxiv.org/abs/2405.17247

12.综述:使用大型语言模型进行工具学习

工具学习,可以增强大型语言模型(LLMs)的能力,从而解决高度复杂的问题。尽管这一领域日益受到关注并取得了快速发展,但现有的文献缺乏系统的组织,给新手造成了进入障碍。

为此,来自中国人民大学的研究团队及其合作者对使用 LLMs 进行工具学习的现有工作进行了全面调查,主要从两个方面回顾了现有文献:(1)为什么工具学习是有益的;(2)如何进行工具学习,从而全面了解使用 LLMs 进行工具学习的情况。

他们首先探讨了“为什么”,从六个具体方面回顾了工具集成的益处和工具学习范式的固有益处。在“如何”方面,他们根据工具学习工作流程中四个关键阶段的分类法系统地回顾了相关文献:任务规划、工具选择、工具调用和响应生成。

此外,他们还详细总结了现有的基准和评估方法,并根据它们与不同阶段的相关性进行了分类。最后,他们讨论了当前面临的挑战,并概述了潜在的未来发展方向,旨在激励研究人员和工业开发人员进一步探索这一新兴且前景广阔的领域。

论文链接:

https://arxiv.org/abs/2405.17935

|点击关注我 记得标星|