从DeepSeek看大模型的技术点

一、预训练 (Pre-training):从海量数据中汲取知识

预训练是大模型构建的基石。 其核心思想是利用海量的、通常是无标签的数据进行模型初始化,使模型能够掌握通用的语言模式、语义关系和世界知识。 预训练过程通常采用自监督学习的方式,从数据本身挖掘监督信号,例如:

语言模型 (Language Modeling): 例如,BERT 利用 Masked Language Model (MLM) 任务,随机遮蔽句子中的一部分词语,让模型预测被遮蔽的词语。 GPT 系列则通过预测下一个词语来学习语言的生成能力。

对比学习 (Contrastive Learning): 例如,SimCLR 将同一个图像的不同增强版本作为正样本,将其他图像作为负样本,让模型学习区分正负样本,从而学习到图像的有效表示。

预训练的优势在于减少对标注数据的依赖,提高模型泛化能力,并加速后续训练的收敛速度。

二、后训练 (Post-training) :任务适配与能力提升

预训练的模型虽然具备通用的能力,但往往需要在特定任务上进行进一步的训练,才能发挥出最大的潜力。这个过程被称为后训练或微调。 后训练可以采用监督学习的方式,也可以利用无监督学习的策略。

原理: 后训练是利用预训练模型作为起点,然后在特定任务的数据集上进行训练,使其适应特定任务的需求。

方法:

  1. 监督微调 (Supervised Fine-Tuning, SFT):

原理: 使用特定任务的标注数据集,调整预训练模型的参数,使其适应该任务。 关键在于选择合适的数据集和调整学习率等超参数,并选择合适的损失函数,例如交叉熵损失(用于分类)或均方误差损失(用于回归)。 监督微调是一种典型的监督学习应用。

应用: 适用于各种任务,例如文本分类、命名实体识别、机器翻译、文本摘要等。

示例: 使用斯坦福情感树库 (Stanford Sentiment Treebank) 对 BERT 进行微调,以进行情感分析。

  1. 奖励模型 (Reward Modeling, RM):

原理: 训练能够评估生成文本质量的奖励模型。 通常,人类会根据多个标准(例如,相关性、流畅性、有用性)对不同的生成结果进行排序。 奖励模型学习根据这些排序对文本进行评分。 奖励模型的训练通常使用排序损失函数 (Ranking Loss)。

作用: 为强化学习提供奖励信号,引导模型生成更符合人类偏好的文本。 是 RLHF 的关键组成部分。

示例: 训练一个奖励模型来评估对话机器人的回复质量,用于指导后续的对话策略训练。

  1. 领域自适应 (Domain Adaptation):

原理: 将预训练模型调整到特定领域的数据上,使其更好地适应该领域的语言风格、知识和任务。 可以利用特定领域的无标签数据进行继续预训练(一种自监督学习的应用),也可以结合对抗学习等技术,学习领域不变的特征表示。

方法: 领域自适应预训练(在特定领域的无标签数据上继续预训练)和对抗学习(学习领域不变的特征表示)。

应用: 适用于各个领域,例如医学、法律、金融等。

示例: 使用法律领域的语料库对 BERT 进行预训练,得到 LegalBERT,从而提高其在法律文本理解和推理方面的能力。

优势:

任务适配: 使模型能够更好地解决特定任务,提高任务性能。

知识迁移: 将预训练模型学到的通用知识迁移到特定任务中,提高学习效率。

能力强化: 在特定任务中进一步训练,可以增强模型在该任务上的表现。

三、强化学习 (Reinforcement Learning, RL):通过与环境交互学习最优策略

强化学习在大模型领域,尤其是在生成式模型(如对话系统、文本生成)中扮演着越来越重要的角色。

原理: 智能体通过执行动作,从环境中获得反馈(奖励或惩罚),然后根据反馈调整策略,最终目标是最大化长期累积奖励。

方法:

  1. 基于人类反馈的强化学习 (Reinforcement Learning from Human Feedback, RLHF):

原理: 使用人类的反馈(例如,偏好排序)来训练奖励模型,然后利用该奖励模型作为强化学习的奖励信号,引导模型生成更符合人类偏好的文本。

步骤: 数据收集 -> 训练奖励模型 -> 强化学习(使用奖励模型优化生成模型的策略)。

优势: 能够更好地对齐模型的行为与人类的价值观和偏好。 是 ChatGPT 等模型成功的关键因素之一。

  1. 近端策略优化 (Proximal Policy Optimization, PPO):

原理: 一种流行的策略梯度强化学习算法,通过限制策略更新的幅度,来保证训练的稳定性。 PPO 是一种 on-policy 的算法,需要使用当前策略收集数据。

特点: 易于实现,对超参数不敏感,训练效果好。 通常用于 RLHF 的强化学习阶段。

机制: PPO 引入了 clip 目标函数,限制新策略和旧策略之间的差异,避免策略更新过于激进。 具体而言,PPO 优化的是一个目标函数,该目标函数由两部分组成:一是策略收益的估计,二是策略差异的惩罚项。

  1. 安全对齐 (Safety Alignment):

原理: 确保大模型的行为符合安全规范和道德准则,避免生成有害、歧视性、误导性或虚假信息。

方法: 数据过滤、对抗训练、奖励塑造、人工干预。 奖励塑造是关键,需要精心设计奖励函数,奖励模型的安全行为,惩罚有害行为。

重要性: 随着大模型能力的增强,安全对齐变得越来越重要,直接关系到大模型的社会影响和伦理责任。

四、关键架构技术:MoE 和 MLA

MOE (Mixture of Experts):

原理: 一种模型架构,旨在扩展模型的容量,同时保持计算效率。 MoE 由多个 “专家” 网络和一个 “门控” 网络组成。

专家网络: 每个专家网络都是一个独立的子模型,例如 Transformer 层,擅长处理不同类型的数据或任务。 专家网络的数量可以非常大,例如几百个甚至几千个。

门控网络: 门控网络根据输入数据,动态地选择激活哪个或哪些专家网络。 门控网络的输出是一组权重,表示每个专家网络的激活程度。

计算过程: 输入数据首先经过门控网络,获得每个专家网络的权重。 然后,将输入数据传递给被激活的专家网络,并将每个专家网络的输出加权求和,得到最终的输出。

优势:

模型容量扩展: 可以显著扩大模型容量,提高模型的表达能力。

计算效率: 只有部分专家网络被激活,可以减少计算量。

稀疏激活: 由于只有部分专家被激活,可以实现模型的稀疏激活,从而提高模型的泛化能力。

例子: Switch Transformer, GLaM 等。

MLA (Multi-Head Latent Attention):

原理: Multi-Head Latent Attention (MLA) 是一种注意力机制的变体,它允许模型同时关注输入的不同方面,并通过引入潜在变量来提高注意力的表达能力。它和标准的多头注意力(Multi-Head Attention, MHA)相似,但增加了潜在变量(latent variable)来辅助注意力机制的学习,从而挖掘更深层次的关系。

结构:

多头 (Multi-Head): 将输入分别映射到多个不同的 Query, Key, Value 空间,在不同的空间中计算注意力,最后将结果合并。

潜在变量 (Latent Variable): 每个注意力头引入一个或多个潜在变量。 这些潜在变量参与注意力权重的计算,可以学习到输入数据中更抽象、更隐含的特征表示。

计算过程:

线性变换: 将输入分别经过线性变换得到 Query (Q), Key (K), Value (V)。

潜在变量生成: 生成潜在变量 Z,可以是通过学习得到,也可以是随机初始化。

注意力权重计算: 使用 Q, K, Z 计算注意力权重,例如使用 Q 和 K 的点积,并结合 Z 的信息。

加权求和: 使用注意力权重对 V 进行加权求和,得到最终的输出。

多头合并: 将多个注意力头的输出合并。

优势:

更强的表达能力: 潜在变量可以帮助模型学习到输入数据中更深层次的关系,从而提高注意力的表达能力。

更好的泛化能力: 通过引入潜在变量,可以减少模型对输入数据的过度拟合,从而提高模型的泛化能力。

应用: 在图像生成、文本生成等领域,可以提高模型的生成质量和多样性。例如,在生成对抗网络 (GAN) 中,可以使用 MLA 来提高生成器的生成能力。