云之大陆 - 月光博客2025

来自杭州的初创企业深度求索1月20日发布DeepSeek-R1，该模型在测试表现、训练成本和开源开放程度等多个基准测试中均超越美国OpenAI公司的最新模型o1，但成本仅为o1的三十分之一。

纽约时报报道称，DeepSeek大模型以极低成本（600万美元）和少量芯片（2000块）实现了与OpenAI等巨头相媲美的性能，挑战了"唯有科技巨头才能研发尖端AI"的行业共识。

一、自然语言生成测试

测试AI是否能够提供富有创意的答案，尤其是对于开放性问题。

从语言的艺术性、现实性、以及中文环境的语感上看。

二、逻辑推理能力测试

推理是数学的基本思维方式，也是人们学习和生活中经常使用的思维方式，要测试AI模型的逻辑推理能力，比较有效的方法是，找几套国际数学奥林匹克竞赛试题，或者类似的国际数学竞赛试题，给各个AI模型去做，谁的分数高，谁的能力就强。

三、编程能力测试

编程语言选用冷门的编程语言，代码不好在网络搜索，用这种策略来保证，源程序代码是AI生成的，而不是从网上抓取的。

三观包括：世界观、人生观、价值观。

世界观是人们对世界的理解和认知，解决"世界的本质和规 …