DeepSeek介绍
DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司。DeepSeek是一家创新型科技公司,成立于2023年7月17日,使用数据蒸馏技术,得到更为精炼、有用的数据。由知名私募巨头幻方量化孕育而生,专注于开发先进的大语言模型(LLM)和相关技术。
目前最新版本为 DeepSeek-V3,于 2024 年 12 月 26 日发布并开源。它是自研 MoE 模型,有 671b 参数,激活 37b,在 14.8t token 上进行了预训练。采用 FP8 训练,支持 128k上下文窗口,结合了多代币预测等先进技术,使用了 2048 个 H800 GPU 进行训练,训练成本较低,生成速度相比 DeepSeek-V2.5 提升至 3 倍,每秒吞吐量高达 60token。
应用场景
- 聊天和编码:能理解和生成代码,提高编程效率。
- 多语言翻译:支持多达 20 种语言的实时翻译和语音识别。
- 图像生成:可通过简单的文本描述生成高质量图像。
性能表现
在多项基准测试中,成绩超越了 Qwen2.5-72b 和 Llama-3.1-405b 等开源模型,与 GPT-4o、Claude-3.5-Sonnet 性能不分伯仲,在数学能力方面尤为突出,大幅超过所有开源闭源模型。
《DeepSeek:从入门到精通》介绍
《DeepSeek:从入门到精通》由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室余梦珑博士后团队编撰。具体内容如下:
核心价值
- 专业性与普适性并存:用通俗化表述和结构化框架,降低 AI 工具的学习门槛。
- 场景化知识体系:将学术理论与真实案例结合,覆盖多元应用场景。
- 前沿技术解析:聚焦提示词工程、人机协作模式等 AI 关键技术。
内容架构
DeepSeek 简介:介绍核心理念、目标、功能及应用场合。
- 核心能力:涵盖文本创作、自然语言解析、编程辅助、数据可视化等功能。
- 操作指南:指导用户如何访问平台、使用基础功能、进行网络搜索及文件上传。
- 技能进阶:讲解两大模型的区别、性能与视野拓展,提示词的关键点及常见错误。
- 高效提示词设计:包括构建有效提示语的方法、优化提示语的策略、提示语链的运行机制与要点。
- AI 高级应用技巧:探索提示词工程、构建提示词框架,学习三重概率、培养人机协作技能。
- AI 辅助知识库搭建:介绍知识唤醒与整合策略、AI 在知识生成中的作用、创建与维护 AI 辅助的知识体系。
- AI 使用层次与提升策略:针对初学者、从业者、研究者分别提出学习方向。
- 应用实例与案例分析:包含文案、营销、品牌故事等内容创作实例,以及适应社交平台的优化策略。
- 公众号内阅读本文
- 关注
元页斋
公众号,发送DeepSeek从入门到精通
即可获得【清华大学】DeepSeek从入门到精通(视频课程+PDF)
资源下载链接和提取码
版权声明:本文归作者所有,如需转载,请保留原文链接,如有侵权,请在评论区留言联系管理员删除,管理员收到后会24小时内反馈(软件定制开发、广告合作、版权等其他事宜也可关注本站微信公众号“元页斋”,发送消息说明情况,管理员会尽快与您联系)