扫码阅读
手机扫码阅读

大模型理论基础(so-large-lm)课程笔记!

78 2024-09-29

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

查看原文:大模型理论基础(so-large-lm)课程笔记!
文章来源:
Datawhale
扫码关注公众号

Datawhale干货

作者:辣条,Datawhale优秀学习者

大型语言模型(Large Language Models,LLMs)的发展速度和影响力不断增长,模型架构如Mixture of Experts (MOE) 和Retrieval-Augmented Generation (RAG)正在推动人工智能领域的发展。课程笔记来自“大模型理论基础(so-large-lm)”,提供了对MOE和RAG架构的深入理解和应用。

MoE&RAG

MoE通过创建一组专家来针对每个输入激活少数专家,而RAG则存储原始数据,检索相关内容以预测输出。

MoE

理念起源

MoE最早出现于1991年,针对多任务场景下的模型训练问题,通过一个专家网络系统和门控网络来分配训练样本,减少权重更新的干扰效应。

稀疏性

2010至2015年间,条件计算领域的研究推动MoE的发展。Shazeer等人提出稀疏门控MoE层,采用稀疏性和噪声项以减少计算量和帮助负载平衡。

平衡问题

针对专家的不平衡和样本分配的不均衡问题,提出了使用辅助损失等方法来优化模型训练。

MoE+Transformer

结合MoE和Transformer,通过替换部分前馈层为MoE层,以及引入top-2专家近似门控函数和其他负载平衡策略来提升模型性能。

RAG

工作流程包括建立存储库、检索相关序列、给定检索序列和输入生成输出。RAG领域的发展带来了检索质量和生成质量的挑战,包括精度低、召回率低和生成内容的冗余等问题。

改进方案

改进方案包括优化数据索引、微调嵌入模型、对检索内容进行额外处理等,以提升检索和生成的质量。

参考

  • github:datawhalechina/so-large-lm/docs/content/ch04.md
  • Sanseviero, et al., "Mixture of Experts Explained", Hugging Face Blog, 2023.
  • Jacobs, R. A., et al. (1991). Adaptive mixtures of local experts. Neural computation, 3(1), 79-87.
  • Shazeer, N., et al. (2017). Outrageously large neural networks: The sparsely-gated mixture-of-experts layer. arXiv preprint arXiv:1701.06538.
  • Lepikhin, D., et al. (2020). Gshard: Scaling giant models with conditional computation and automatic sharding. arXiv preprint arXiv:2006.16668.
  • Gao, Y., et al. (2023). Retrieval-augmented generation for large language models: A survey. arXiv preprint arXiv:2312.10997.
  • [Advanced RAG Techniques: an Illustrated Overview].

想要了解更多内容?

查看原文:大模型理论基础(so-large-lm)课程笔记!
文章来源:
Datawhale
扫码关注公众号