Chatting or Acting？——DeepSeek的突破边界与“浙大先生”的未来图景VIP免费

下载本文档

格式 pdf
大小 8.61 MB
约84页
2025-03-12
收藏
点赞(0)
海报
举报

Chatting or Acting？——DeepSeek的突破边界与“浙大先生”的未来图景_第1页

1/84页

Chatting or Acting？——DeepSeek的突破边界与“浙大先生”的未来图景_第2页

2/84页

Chatting or Acting？——DeepSeek的突破边界与“浙大先生”的未来图景_第3页

3/84页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

/84

文本预览下载提示常见问题

—DeepSeek的突破边界与浙大先生的未来图景ChattingorActing？陈文智浙江大学信息技术中心浙江大学人工智能教育教学研究中心2025年02月17日这就是传说中的国运级产品吗？我也想来一套，在线用or本地部署？这玩意儿凭啥这么强？明天中午前，我要看到DS接入！Agent是不是也要变强了？我刚刚开发的智能体能用吗？用OpenAI训练的吧？吹！成本这么低，西湖之光不用了吧？DeepSeek关键词DeepSeekDeepDrink需求刚起，方案已至。灵感闪现，原型立现热情款待，商谈愉快深入交流，合作共赢VS02Project单击此处添加文本单击此处添加文本单击此处添加文本单击此处.DeepSeek突破边界01ChattingorActing——DeepSeek的突破边界与浙大先生的未来图景近期因开源AI大模型和相关技术火爆全球，DeepSeek一度在140多个国家的应用商店下载排行首位。DeepSeek—有史以来最快获得1亿注册用户的APP。DeepSeek席卷全球引爆全球，高性能、低成本的国产、开源大模型!•DeepSeek-R1已发布并开源，性能对比OpenAIo1正式版。•在目前大模型主流榜单中，DeepSeek-V3在开源模型中位列榜首，与世界上最先进的闭源模型不分伯仲。——采用MoE架构并解决路由崩溃难题MOEDeepSeek模型架构创新HMM柏拉图表征假说隐马尔卡夫链（HMM）RNN神经网络时代（RNN）神经网络时代（LSTM）Transfoermer时代（Attention）——MLA多头潜在注意力机制降低成本、提高效率DeepSeek模型架构创新——MLA多头潜在注意力机制降低成本、提高效率DeepSeek模型架构创新柏拉图表征假说HMM隐马尔卡夫链（HMM）RNN神经网络时代（RNN）神经网络时代（LSTM）Transfoermer时代（Attention）——MLA多头潜在注意力机制降低成本、提高效率DeepSeek模型架构创新HMM柏拉图表征假说隐马尔卡夫链（HMM）神经网络时代（LSTM）Transformer时代（Attention）神经网络时代（RNN）RNN——MLA多头潜在注意力机制降低成本、提高效率DeepSeek模型架构创新HMM隐马尔卡夫链（HMM）Transfoermer时代（Attention）RNN神经网络时代（RNN）神经网络时代（LSTM）——MLA多头潜在注意力机制降低成本、提高效率DeepSeek模型架构创新HMM隐马尔卡夫链（HMM）RNN神经网络时代（RNN）Transfoermer时代（Attention）神经网络时代（LSTM）——MLA多头潜在注意力机制降低成本、提高效率相同信息多头使用信息DeepSeek模型架构创新DeepSeek工程优化⚫DualPipe流水线并行：双向流水线设计（同时从两端馈送micro-batch），显著减少流水线气泡，GPU利用率提升30%+⚫通信优化：节点限制路由（每个Token最多跨4节点）、定制化All-to-All通信内核，结合Warp专业化调度，降低跨节点通信开销⚫内存管理优化：重计算策略（反向传播时重新生成中间结果）、CPU存储EMA参数，显存占用减少20%DeepSeek预训练数据与策略14.8万亿Token多样化语料，数学与编程数据比例提升，支持多语言任务⚫数据构建：同时预测多个未来Token，训练效率提升1.8倍，推理加速显著⚫通多Token预测（MTP）：两阶段扩展训练（4K→32K→128K），结合YaRN方法，支持128K上下文窗口⚫长上下文扩展：DeepSeek低精度训练与成本控制对激活值和权重细粒度量化（1×128Tile-Wise），中间累加保留FP32精度，显存占用减少40%⚫FP8混合精度训练：关键模块（如Embedding、Attention）保留BF16/FP32计算，平衡效率与精度⚫选择性高精度组件：总成本550万美元（2.788MH800GPU小时），预训练效率达每万亿Token仅180KGPU小时⚫训练成本：R1-Zero的创新——纯强化学习训练R1V3顿悟DeepSeek训练方法创新DeepSeek训练方法创新引入数干条高质量人工标注数据（含Few-shot提示、R1-Zero优质输出），通过微调建立初始推理框架，解决纯RL初期低效问题⚫冷启动数据构建：✓推理任务专项优化，新增语言一致性奖励（解决多语言混杂问题）✓阶段2：拒绝采样生成高质量SFT数据（仅保留答案正确且推理清晰的样本）✓阶段3：全场景RL，融合规则奖励（数学/编程）与模型评估奖励（开放问答⚫多阶段强化学习设计：推理能力蒸馏与开源生态DeepSeek训练方法创新跨模型知识迁移使用R1生成的80万条数据对Qwen/Llama系列蒸馏，Qwen-7B在AIME准确率提升至55.5%，超越同...

1、当您下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

声明：本站为非经营盈利性个人网站（C2C模式），即所有资料为用户上传并直接被用户下载，本站只是中间服务平台。所有资料仅供个人学习使用，请勿他用。本站所获取的赞助将用于本站服务器及运营成本，感谢大家的支持。我们倡导共建、共创、共享的模式分享知识！本站仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对内容本身不做任何修改或编辑。若资料或所含内容侵犯了您的版权或隐私等任何权益，请立即通知联系客服或在资料页面直接举报反馈，我们会及时妥善处理。

客服微信:pv3515客服QQ:2090330665客服邮箱:2090330665@qq.com

若无法下载、资料侵权等问题联系客服立即处理！微信：pv3515

Chatting or Acting？——DeepSeek的突破边界与“浙大先生”的未来图景VIP免费

Chatting or Acting？——DeepSeek的突破边界与“浙大先生”的未来图景

您可能关注的文档

相关文档

热门下载

相关标签