原创 | 知识蒸馏：解锁大模型的智慧密码

模型知识蒸馏 TinyBERT TeacherBERT

发布于 2024-07-03

529

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：原创 | 知识蒸馏：解锁大模型的智慧密码

文章来源：

数据派THU

扫码关注公众号

扫码阅读

手机扫码阅读

知识蒸馏是一种将复杂的大型机器学习模型简化为更小、更高效版本的技术，它保留了模型核心知识和能力的同时，降低了对数据和计算资源的需求。这项技术可以让模型更易于训练和使用，并且能在资源有限的环境下保持良好性能。

在知识蒸馏中，基于teacher-student框架进行模型压缩，通过训练简化的学生模型来模拟复杂的教师模型，捕捉教师模型中的关键知识。这种方法对于大型预训练语言模型如BERT特别有用，因为它们通常参数庞大，难以部署在资源受限的设备上。

针对BERT模型的知识蒸馏实践中，TinyBERT等模型展示了如何通过General distillation和Task-specific distillation两个阶段，将教师模型BERT的知识传输给学生模型TinyBERT。在General distillation阶段，使用大规模无监督数据学习教师模型的知识，提高学生模型的泛化能力。在Task-specific distillation阶段，使用具体任务数据进一步训练学生模型，让它学习更多任务相关的知识。

TinyBERT的特色在于它不仅学习教师模型的最终输出，还学习了教师模型的多层特征表示，包括词向量层输出、Transformer层输出、注意力矩阵，以及在微调阶段使用的预测层输出。这样的深度学习使得TinyBERT能够更好地模仿教师BERT模型的行为。

数据派THU

查看原文：原创 | 知识蒸馏：解锁大模型的智慧密码

文章来源：

数据派THU

扫码关注公众号

相关推荐

极佳、中科院等9机构联合首发 | 3万字长文全面解析世界模型(内容生成/自动驾驶等)

75

模型世界生成视频

击下方卡片，关注“AI生成未来”>>后台回复“GAI

大语言模型的前世今生：万字长文完整梳理所有里程碑式大语言模型（LLMs）

64

模型训练语言 GPT

点击下方卡片，关注“AI生成未来”>>后台回复“

理解 DDD：编程中的模型思维

509

模型业务计算机逻辑

业务设计上往往没有建立起特定的领域模型，这是我们架构腐化和软件开发困难的关键原因。**业务领域建立好的模型，并指导代码实践，这就是 ”编程思维“。** DDD 领域驱动设计就是解决这部分问题，与其叫领域驱动设计，不如叫做模型驱动设计。

具身智能成败之关键！干货长文首次全面回顾具身智能领域中的视觉-语言-动作模型！

78

模型语言视觉机器人

点击下方卡片，关注“AI生成未来”>>后台回复“

LLMOps快速入门，轻松开发部署大语言模型

596

模型 LLM LLMOps 提示

深入介绍LLMOps。

AIGC｜万字长文！带你了解AI大模型技术演进

2533

模型神经网络 AI

大模型时代来临，我们站上了风口浪尖→

清华大数据研究中心官方平台，发布团队科研、教学等最新动态及大数据领域的相关信息~

10 篇文章

浏览 7227

数据派THU的其他文章

原创｜一文读懂EWMA控制图

本文介绍了EWMA控制图的工作原理。

高宇辰：打造“π”型人才 | 提升之路系列（七）

RONG奖学金获奖者风采展示。

大数据能力提升项目｜学生成果展系列之二

导读为了发挥清华大学多学科优势，搭建跨学科交叉

重磅 | 消费类可穿戴智能设备数据安全标准化白皮书（2024 版）发布

引言 2024年6月，全国网络安全标准化技术委员会—数

大数据能力提升项目｜学生成果展系列之四

导读为了发挥清华大学多学科优势，搭建跨学科交叉

随机阅读

和任老师聊聊质量工作

杂谈推理逻辑的严密性

案例：工时数据分析

公司级项目管理例会的汇报内容

项目级目标与组织级目标的差别

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线