扫码阅读

手机扫码阅读

一文详解大语言模型的流行架构与训练技术

568 2024-10-26

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：一文详解大语言模型的流行架构与训练技术

文章来源：

AI生成未来

扫码关注公众号

本篇博客详细介绍了大型语言模型（LLMs）的构建流程，覆盖从模型架构的选择、数据准备、分词、位置嵌入、模型预训练、微调和指令微调、对齐，到解码策略等关键步骤。

1. 主流的LLM架构

介绍了以Transformer为基础的仅编码器、仅解码器和编码器-解码器三种主流架构。Transformer的自注意力机制是核心，而不同架构适用于不同的任务，如BERT是仅编码器模型，GPT为仅解码器模型，而序列到序列模型则采用编码器-解码器结构。

2. 数据清理

强调了数据质量的重要性，包括数据过滤和去重两个关键环节，确保模型性能。介绍了数据过滤的目的及技术，以及去重的意义和方法。

3. 分词

分词作为文本处理的基础，涉及了BytePairEncoding、WordPieceEncoding和SentencePieceEncoding三种流行的分词器，它们通过不同的机制来处理词典外问题并增加覆盖率。

4. 位置嵌入

介绍了绝对位置嵌入、相对位置嵌入和旋转位置嵌入三种方法，每种方法都旨在捕获序列中的位置信息，以增强模型的性能。

5. 模型预训练

讨论了自回归语言建模和遮蔽语言建模两种预训练方法，以及近来流行的专家混合（Mixture of Experts, MoE）方法，这些方法帮助LLMs获得基础的语言理解能力。

6. 微调和指令微调

微调是语言模型训练流程中的重要步骤，而指令微调则帮助LLMs根据提示指令生成符合期望的响应。Self-Instruct方法也在此环节得到探讨。

7. 对齐

对齐是引导AI系统朝向人类目标和偏好的过程，涉及指令微调外的RLHF和RLAIF等方法，以及新的DPO和KTO方法。

8. 解码策略

阐述了解码过程中的多种策略，如Greedy Search、Beam Search和Top-K/Top-P (Nucleus)采样，每种策略在文本生成上有不同的应用。

9. 费效比优化训练/推理/适应/压缩

总结了几种优化训练的框架，如ZeRO和RWKV，以及低秩适应、知识蒸馏和量化等技术，旨在实现经济高效的计算。

最后，感谢读者的陪伴，并邀请关注“AI生成未来”公众号，获取更多AI行业资讯。

想要了解更多内容？

查看原文：一文详解大语言模型的流行架构与训练技术

文章来源：

AI生成未来

扫码关注公众号

相关推荐

【最新出炉】2024数据智能大会：数据智能白皮书（2024.6）发布（附下载链接）

576

数据智能治理白皮书

【关注零竖质量公众号】：获更多精品资料下载！【加私人微信】：441059732，限量邀请入内部微信群，享更多权益，请备注“入内部群”。

chatTTS 最强文字转语音模型本地部署!

433

https ui chatTTS github.com

今天本地部署了下传说中的语音合成大模型chatTTS，效果太棒了。

名词解释：网络互联（Network Interconnection）

248

想象一下，网络互联就像是一个全球性的社交网络。在这个比喻中，\x26quot;你\x26quot;就是社交网络的创建者，网络互联就是你的社交网络，它帮助你连接世界各地的人和信息。

当大神用AI做了一部CG电影短片 - 为传奇续写传奇

340

AI CG 短片 SCOOTY

他决定用Wonder Studio去做一部短片电影。于是，《There\x26#39;s an alien IN MY HOUSE!》问世了。

突破性进展！只需单张参考图，完美仿写各种手写内容！华南理工等开源One-DM

451

点击下方卡片，关注“AI生成未来”作者：Gang Dai等 ??

美团上线AI小程序妙刷让你的照片“活”起来!一键生成动漫、奇幻大片!

887

妙刷 AI 体验玩法

关注我，每天分享AI新玩法与变现美团刚上线了一款?

AI生成未来

AIGC最新技术及资讯

159 篇文章

浏览 68K

AI生成未来的其他文章

FDGaussian:又快又好的三维重建方案 | Gaussian Splatting和扩散模型超强联合

点击下方卡片，关注“AI生成未来”>>后台回复“

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:实时4K分辨率4D视图合成

点击下方卡片，关注“AI生成未来”>>后台回复“

DALL-E 3不到50%，SDXL仅24.92%！各大SOTA文生图模型为啥这么难符合常识？

.点击下方卡片，关注“AI生成未来”>>后台回复??

超越α！PixArt家族新秀PixArt-Σ: 由弱到强训练的文本生成4K图像DiT（华为诺亚）

点击下方卡片，关注“AI生成未来”>>后台回复“

突破性进展！只需单张参考图，完美仿写各种手写内容！华南理工等开源One-DM

点击下方卡片，关注“AI生成未来”作者：Gang Dai等 ??

随机阅读

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线

去下载

一文详解大语言模型的流行架构与训练技术

1. 主流的LLM架构

2. 数据清理

3. 分词

4. 位置嵌入

5. 模型预训练

6. 微调和指令微调

7. 对齐

8. 解码策略

9. 费效比优化训练/推理/适应/压缩

联系我们

融实践库

微信公众号

微信视频号

社区微信群

一文详解大语言模型的流行架构与训练技术

1. 主流的LLM架构

2. 数据清理

3. 分词

4. 位置嵌入

5. 模型预训练

6. 微调和指令微调

7. 对齐

8. 解码策略

9. 费效比优化训练/推理/适应/压缩

IPD（产品集成开发）跟敏捷、DevOps一样吗？有什么区别？

联系我们

融实践库

微信公众号

微信视频号

社区微信群