电脑桌面
添加能源双碳资料库到电脑桌面
安装后可以在桌面快捷访问

Chatting or Acting?——DeepSeek的突破边界与“浙大先生”的未来图景免费下载

Chatting or Acting?——DeepSeek的突破边界与“浙大先生”的未来图景_第1页
1/84
Chatting or Acting?——DeepSeek的突破边界与“浙大先生”的未来图景_第2页
2/84
Chatting or Acting?——DeepSeek的突破边界与“浙大先生”的未来图景_第3页
3/84
—DeepSeek的突破边界与浙大先生的未来图景ChattingorActing?陈文智浙江大学信息技术中心浙江大学人工智能教育教学研究中心2025年02月17日这就是传说中的国运级产品吗?我也想来一套,在线用or本地部署?这玩意儿凭啥这么强?明天中午前,我要看到DS接入!Agent是不是也要变强了?我刚刚开发的智能体能用吗?用OpenAI训练的吧?吹!成本这么低,西湖之光不用了吧?DeepSeek关键词DeepSeekDeepDrink需求刚起,方案已至。灵感闪现,原型立现热情款待,商谈愉快深入交流,合作共赢VS02Project单击此处添加文本单击此处添加文本单击此处添加文本单击此处.DeepSeek突破边界01ChattingorActing——DeepSeek的突破边界与浙大先生的未来图景近期因开源AI大模型和相关技术火爆全球,DeepSeek一度在140多个国家的应用商店下载排行首位。DeepSeek—有史以来最快获得1亿注册用户的APP。DeepSeek席卷全球引爆全球,高性能、低成本的国产、开源大模型!•DeepSeek-R1已发布并开源,性能对比OpenAIo1正式版。•在目前大模型主流榜单中,DeepSeek-V3在开源模型中位列榜首,与世界上最先进的闭源模型不分伯仲。——采用MoE架构并解决路由崩溃难题MOEDeepSeek模型架构创新HMM柏拉图表征假说隐马尔卡夫链(HMM)RNN神经网络时代(RNN)神经网络时代(LSTM)Transfoermer时代(Attention)——MLA多头潜在注意力机制降低成本、提高效率DeepSeek模型架构创新——MLA多头潜在注意力机制降低成本、提高效率DeepSeek模型架构创新柏拉图表征假说HMM隐马尔卡夫链(HMM)RNN神经网络时代(RNN)神经网络时代(LSTM)Transfoermer时代(Attention)——MLA多头潜在注意力机制降低成本、提高效率DeepSeek模型架构创新HMM柏拉图表征假说隐马尔卡夫链(HMM)神经网络时代(LSTM)Transformer时代(Attention)神经网络时代(RNN)RNN——MLA多头潜在注意力机制降低成本、提高效率DeepSeek模型架构创新HMM隐马尔卡夫链(HMM)Transfoermer时代(Attention)RNN神经网络时代(RNN)神经网络时代(LSTM)——MLA多头潜在注意力机制降低成本、提高效率DeepSeek模型架构创新HMM隐马尔卡夫链(HMM)RNN神经网络时代(RNN)Transfoermer时代(Attention)神经网络时代(LSTM)——MLA多头潜在注意力机制降低成本、提高效率相同信息多头使用信息DeepSeek模型架构创新DeepSeek工程优化⚫DualPipe流水线并行:双向流水线设计(同时从两端馈送micro-batch),显著减少流水线气泡,GPU利用率提升30%+⚫通信优化:节点限制路由(每个Token最多跨4节点)、定制化All-to-All通信内核,结合Warp专业化调度,降低跨节点通信开销⚫内存管理优化:重计算策略(反向传播时重新生成中间结果)、CPU存储EMA参数,显存占用减少20%DeepSeek预训练数据与策略14.8万亿Token多样化语料,数学与编程数据比例提升,支持多语言任务⚫数据构建:同时预测多个未来Token,训练效率提升1.8倍,推理加速显著⚫通多Token预测(MTP):两阶段扩展训练(4K→32K→128K),结合YaRN方法,支持128K上下文窗口⚫长上下文扩展:DeepSeek低精度训练与成本控制对激活值和权重细粒度量化(1×128Tile-Wise),中间累加保留FP32精度,显存占用减少40%⚫FP8混合精度训练:关键模块(如Embedding、Attention)保留BF16/FP32计算,平衡效率与精度⚫选择性高精度组件:总成本550万美元(2.788MH800GPU小时),预训练效率达每万亿Token仅180KGPU小时⚫训练成本:R1-Zero的创新——纯强化学习训练R1V3顿悟DeepSeek训练方法创新DeepSeek训练方法创新引入数干条高质量人工标注数据(含Few-shot提示、R1-Zero优质输出),通过微调建立初始推理框架,解决纯RL初期低效问题⚫冷启动数据构建:✓推理任务专项优化,新增语言一致性奖励(解决多语言混杂问题)✓阶段2:拒绝采样生成高质量SFT数据(仅保留答案正确且推理清晰的样本)✓阶段3:全场景RL,融合规则奖励(数学/编程)与模型评估奖励(开放问答⚫多阶段强化学习设计:推理能力蒸馏与开源生态DeepSeek训练方法创新跨模型知识迁移使用R1生成的80万条数据对Qwen/Llama系列蒸馏,Qwen-7B在AIME准确率提升至55.5%,超越同...

1、当您下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

声明:本站为非经营盈利性个人网站(C2C模式),即所有资料为用户上传并直接被用户下载,本站只是中间服务平台。所有资料仅供个人学习使用,请勿他用。本站所获取的赞助将用于本站服务器及运营成本,感谢大家的支持。我们倡导共建、共创、共享的模式分享知识! 本站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对内容本身不做任何修改或编辑。若资料或所含内容侵犯了您的版权或隐私等任何权益,请立即通知联系客服或在资料页面直接举报反馈,我们会及时妥善处理。

客服微信:pv3515客服QQ:2090330665客服邮箱:2090330665@qq.com

若无法下载、资料侵权等问题联系客服立即处理!微信:pv3515

Chatting or Acting?——DeepSeek的突破边界与“浙大先生”的未来图景

确认删除?
回到顶部
微信客服
  • 管理员微信
QQ客服
  • QQ客服点击这里给我发消息
客服邮箱