DeepSeek
Sat 01 February 2025
来自杭州的初创企业深度求索1月20日发布DeepSeek-R1,该模型在测试表现、训练成本和开源开放程度等多个基准测试中均超越美国OpenAI公司的最新模型o1,但成本仅为o1的三十分之一。
纽约时报报道称,DeepSeek大模型以极低成本(600万美元)和少量芯片(2000块)实现了与OpenAI等巨头相媲美的性能,挑战了"唯有科技巨头才能研发尖端AI"的行业共识。
一、自然语言生成测试
测试AI是否能够提供富有创意的答案,尤其是对于开放性问题。
从语言的艺术性、现实性、以及中文环境的语感上看。
二、逻辑推理能力测试
推理是数学的基本思维方式,也是人们学习和生活中经常使用的思维方式,要测试AI模型的逻辑推理能力,比较有效的方法是,找几套国际数学奥林匹克竞赛试题,或者类似的国际数学竞赛试题,给各个AI模型去做,谁的分数高,谁的能力就强。
三、编程能力测试
编程语言选用冷门的编程语言,代码不好在网络搜索,用这种策略来保证,源程序代码是AI生成的,而不是从网上抓取的。
相关文章
Category: 月光博客2025