-
日期: 2025-05-20 | 来源: 新智元 | 有0人参与评论 | 字体: 小 中 大
测试中要加工的零件
尽管这并不简单,但在典型的原型制造或工作车间环境中,大多数技师会将执行这一任务视为常规工作,涉及标准的车削和铣削技术,但需要多个加工步骤。
CNC铣床和车床零件加工示意图
尽管这个零件很简单,即便是像o1-Pro或Gemini 2.5 Pro这样的前沿模型也经常犯下重大错误。
这些错误可以分为两类:视觉能力和物理推理能力。
视觉错误
大多数模型的视觉能力非常差:在过去的两年里,在视觉能力上,Anthropic和OpenAI的模型没有任何实质性的进步。
它们总是错过一些显而易见的特征。
哪怕只是这个零件做出合理的描述,Claude 3.5、Claude 3.7、GPT-4.5、GPT-4o或o1-Pro也做不到。
如果没有视觉能力,创建制造计划几乎是完全不可能的。
有趣的是,在像MMMU之类的视觉推理基准测试中,许多模型得分高于或接近人类专家的水平。
MMMU基准的测试科目和示例
然而,容易衡量的东西,往往与现实世界的实用性没有直接关联。
当看到Gemini 2.5在视觉能力上有了重大进展时,他感到非常惊讶。
它能捕捉到的一些细节确实令人印象深刻。
然而,这种视觉改进主要揭示了更深层次的未解决问题。- 新闻来源于其它媒体,内容不代表本站立场!
-
原文链接
原文链接:
目前还没有人发表评论, 大家都在期待您的高见