DeepSeek发布最新大语言模型关联下一代中国芯片

侨报网 > 中国

时间: 2025-08-21 23:23

【侨报讯】综合中国证券时报、香港中通社报道，中国人工智能（AI）公司深度求索（DeepSeek）8月21日宣布，其最新大语言模型DeepSeek-V3.1正式发布。

据DeepSeek介绍，新升级版本的变化主要体现在三个方面：混合推理架构、更高的思考效率、更强的Agent（智能体）能力。

DeepSeek-V3.1实现了一个模型同时支持思考模式与非思考模式。它就像一个拥有两种工作模式的超级大脑，当面对简单问题时，能以非思考模式快速给出答案。而在处理复杂问题时，可切换到思考模式，给出更具深度和逻辑的解答。用户可通过官方App或网页端的“深度思考”按钮切换这两种模式。

此外，DeepSeek-V3.1使用了UE8M0 FP8 Scale的参数精度。当天，DeepSeek官方公众号在其文章置顶留言里说，UE8M0 FP8是针对即将发布的下一代中国产芯片设计。

官方数据显示，与DeepSeek-R1-0528相比，DeepSeek-V3.1在思考模式下效率大幅提升，能在更短时间内给出答案，且经过思维链压缩训练，token（大模型文本处理的最小单位）消耗量可减少20%至50%，各项任务的平均表现与R1-0528持平。R1-0528是DeepSeek于今年5月发布的旗舰推理模型DeepSeek R1的升级版本。

据报道，新模型着重强化了以编程和搜索为代表的Agent能力。根据DeepSeek公布的数据，V3.1在代码修复（SWE）和命令行终端任务（Terminal-Bench）测试中，性能相较于公司以往模型有明显提高。在搜索任务上，模型在需要多步推理的复杂搜索测试（browsecomp）中也大幅领先。

分享到: