大模型理论基础(so-large-lm)课程笔记!
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
Datawhale干货
作者:辣条,Datawhale优秀学习者
大型语言模型(Large Language Models,LLMs)的发展速度和影响力不断增长,模型架构如Mixture of Experts (MOE) 和Retrieval-Augmented Generation (RAG)正在推动人工智能领域的发展。课程笔记来自“大模型理论基础(so-large-lm)”,提供了对MOE和RAG架构的深入理解和应用。
MoE&RAG
MoE通过创建一组专家来针对每个输入激活少数专家,而RAG则存储原始数据,检索相关内容以预测输出。
MoE
理念起源
MoE最早出现于1991年,针对多任务场景下的模型训练问题,通过一个专家网络系统和门控网络来分配训练样本,减少权重更新的干扰效应。
稀疏性
2010至2015年间,条件计算领域的研究推动MoE的发展。Shazeer等人提出稀疏门控MoE层,采用稀疏性和噪声项以减少计算量和帮助负载平衡。
平衡问题
针对专家的不平衡和样本分配的不均衡问题,提出了使用辅助损失等方法来优化模型训练。
MoE+Transformer
结合MoE和Transformer,通过替换部分前馈层为MoE层,以及引入top-2专家近似门控函数和其他负载平衡策略来提升模型性能。
RAG
工作流程包括建立存储库、检索相关序列、给定检索序列和输入生成输出。RAG领域的发展带来了检索质量和生成质量的挑战,包括精度低、召回率低和生成内容的冗余等问题。
改进方案
改进方案包括优化数据索引、微调嵌入模型、对检索内容进行额外处理等,以提升检索和生成的质量。
参考
- github:datawhalechina/so-large-lm/docs/content/ch04.md
- Sanseviero, et al., "Mixture of Experts Explained", Hugging Face Blog, 2023.
- Jacobs, R. A., et al. (1991). Adaptive mixtures of local experts. Neural computation, 3(1), 79-87.
- Shazeer, N., et al. (2017). Outrageously large neural networks: The sparsely-gated mixture-of-experts layer. arXiv preprint arXiv:1701.06538.
- Lepikhin, D., et al. (2020). Gshard: Scaling giant models with conditional computation and automatic sharding. arXiv preprint arXiv:2006.16668.
- Gao, Y., et al. (2023). Retrieval-augmented generation for large language models: A survey. arXiv preprint arXiv:2312.10997.
- [Advanced RAG Techniques: an Illustrated Overview].
想要了解更多内容?