DeepSeek

Sat 01 February 2025

DeepSeek与主流AI模型对比评测

来自杭州的初创企业深度求索1月20日发布DeepSeek-R1,该模型在测试表现、训练成本和开源开放程度等多个基准测试中均超越美国OpenAI公司的最新模型o1,但成本仅为o1的三十分之一。

纽约时报报道称,DeepSeek大模型以极低成本(600万美元)和少量芯片(2000块)实现了与OpenAI等巨头相媲美的性能,挑战了"唯有科技巨头才能研发尖端AI"的行业共识。

一、自然语言生成测试

测试AI是否能够提供富有创意的答案,尤其是对于开放性问题。

从语言的艺术性、现实性、以及中文环境的语感上看。

二、逻辑推理能力测试

推理是数学的基本思维方式,也是人们学习和生活中经常使用的思维方式,要测试AI模型的逻辑推理能力,比较有效的方法是,找几套国际数学奥林匹克竞赛试题,或者类似的国际数学竞赛试题,给各个AI模型去做,谁的分数高,谁的能力就强。

三、编程能力测试

编程语言选用冷门的编程语言,代码不好在网络搜索,用这种策略来保证,源程序代码是AI生成的,而不是从网上抓取的。

相关文章

Category: 月光博客2025