大语言模型玩文字冒险游戏还是不行啊-灌水聊天-老男人游戏网配套论坛

大语言模型玩文字冒险游戏还是不行啊

gymzatan 21小时前 1206

最近在试图反编译某款我小时候觉得苦手的策略游戏，想交给现在的AI看看能不能琢磨出来什么策略。
正巧就发现了这篇本周才上arxiv的论文（https://arxiv.org/pdf/2602.15867），是关于测试一批当下主流AI模型（Claude Opus 4.5、ChatGPT 5.2、Gemini 3）玩1977年文字冒险游戏Zork I的能力。
不知各位老男人有没有玩过这个类型，是完全靠文本交互，必须输入特定英语单词才能推进流程。我最早接触的是iOS上的DOS模拟器iDOS里面自带的一款，现在已经忘记叫什么了...

Steam上还有原汁原味版：https://store.steampowered.com/app/570580/Zork_Anthology
这作1993年出了带画面的重制版（Return to Zork，中文名《重返魔域》），在欧美国家只发售过PC版，但在日本还上过几款家用游戏机，包括FM Towns、PCFX、PS1和世嘉土星：

那么回到AI的表现...以下交给Claude Opus 4.6解读论文了：

此处隐藏内容请登录后再查看。登录或注册

看来这种还是需要具身想象的任务，现在的AI依然做不好啊😅

上一篇：求助，各位屌大的，ESHOP游戏一般都在哪买
下一篇：请问psp空之轨迹sc的资源，我看还分什么UMD1 UMD2，还有合辑，玩哪个啊。

最新回复 (21)

sakurachan 21小时前

2 2楼

这个结论说的太对了！尤其是“AI不能从反馈中学习”，很多人意识不到这一点，拼命让AI修正，反复失败生闷气。
gymzatan 楼主 21小时前

1 3楼

sakurachan 这个结论说的太对了！尤其是“AI不能从反馈中学习”，很多人意识不到这一点，拼命让AI修正，反复失败生闷气。
以为是在线强化学习呢，很多人可能都没搞清楚LLM跟AlphaGo那种AI的区别😂
sakurachan 20小时前

1 4楼

gymzatan sakurachan 这个结论说的太对了！尤其是“AI不能从反馈中学习”，很多人意识不到这一点，拼命让AI修正，反复失败生闷气。以为是在线强化学习呢，很多人可 ...
在没条件做模型微调的情况下，我认为AI犯错的最好修正办法就是：将防范方法加入提示词后重来一遍。
gymzatan 楼主 19小时前

0 5楼

sakurachan 在没条件做模型微调的情况下，我认为AI犯错的最好修正办法就是：将防范方法加入提示词后重来一遍。
确实，AI一旦走偏了，整个对话就已经被污染了。与其反复纠正它的错误，不如从源头就不让它走偏，所以命令行里需要经常rewind
dm123 18小时前

1 6楼

最近用claude感觉用户自己理解越透彻它也越强，如果用户自己也没有什么想法让它尝试会很捉急。
不知道这算不算是AI时代35+码农的红利……
星才子总被虐 18小时前

1 7楼

dos的重返魔域，基本上玩不明白，这游戏我敢说即使看明白了也玩不明白。
gymzatan 楼主 18小时前

0 8楼

dm123 最近用claude感觉用户自己理解越透彻它也越强，如果用户自己也没有什么想法让它尝试会很捉急。不知道这算不算是AI时代35+码农的红利……
没想法的建议用隔壁Codex😅不过我也觉得Claude的生产效率上限确实可以更高
一条大辉狼 18小时前

1 9楼

要及时清洗，开发对项目的框架和功能也要十足理解，否则后面但凡有一个bug，就要掉入Token地狱...
gymzatan 楼主 17小时前

0 10楼

星才子总被虐 dos的重返魔域，基本上玩不明白，这游戏我敢说即使看明白了也玩不明白。
Game Gear的《梦幻之星冒险（Phantasy Star Adventure）》玩法也很类似，这个稍微友好一点
哦对，MD上还有其他几作《梦幻之星2文字冒险（Phantasy Star II text adventures）》，也有英化补丁
supervisor 15小时前

0 11楼

估计不用多久也可解决这个问题。
以前说机器只有运算速度和大容量记忆，不能做到人类很容易的行为如识别人物、图像，后来超越了；以前说AI无法在棋类等需要复杂推理的场合战胜人类，后来象棋、围棋分别被超越；以前说AI文字、图形、视频能力不够，现在也迅速成熟。
gymzatan 楼主 15小时前

0 12楼

supervisor 估计不用多久也可解决这个问题。以前说机器只有运算速度和大容量记忆，不能做到人类很容易的行为如识别人物、图像，后来超越了；以前说AI无法在棋类等需要复杂推理的场合战胜人类，后来象棋、围棋分别被超越； ...
是的，这些论文都有时效性，不过有些问题可能意味着需要架构改变——比如AlphaGo跟更早的围棋AI（如天顶系列）就不是同一物种了，那么离出现能完成的AI所需的时间就会长一些（虽然到底需要多久是难以预期的），至少比某些其他看上去更复杂但当前架构可以胜任的工作要来得迟。
另一方面这些原理层面的局限对现有AI的使用方面也可以提供一些启发吧。比如我们跟AI对话时经常假设了它具有场景想象能力（比如前几天很火的洗车问题），但是它肯定是不具备的，除非厂商训练时把相关知识灌输给它；这方面AI看起来很笨，但是对完备信息（即不需要引入具身想象补充信息）的处理能力AI已经远远超过大部分人类了，所以我在坛子里一直是鼓吹AI的😂
supervisor 14小时前

1 13楼

gymzatan supervisor 估计不用多久也可解决这个问题。以前说机器只有运算速度和大容量记忆，不能做到人类很容易的行为如识别人物、图像，后来超越了；以前说AI无法在 ...
是的。
同时主流通用模型 Vs 专用特定模型、已经发布开放给普通人的 Vs 在实验室的、通过伦理审查可供大众使用的 Vs 特殊领域的，都有巨大差异。
xmyandmdyz 14小时前

1 14楼

如果现在他能够玩得很明白了，那很多东西都会了，但这个趋势不会改变
阿列克小谢 13小时前

1 15楼

cod7里玩过。。
gymzatan 楼主 8小时前

1 16楼

阿列克小谢 cod7里玩过。。
哇，冷知识学到了…
hyaden 8小时前

1 17楼

gymzatan sakurachan 这个结论说的太对了！尤其是“AI不能从反馈中学习”，很多人意识不到这一点，拼命让AI修正，反复失败生闷气。以为是在线强化学习呢，很多人可 ...
太对了，从这篇帖子的回帖就能看出来，大部分人不知道llm和alpha狗和李飞飞世界模型的区别，全用ai来代替😂
gymzatan 楼主 7小时前

1 18楼

hyaden 太对了，从这篇帖子的回帖就能看出来，大部分人不知道llm和alpha狗和李飞飞世界模型的区别，全用ai来代替😂
其实如果技术进展真那么快的话认知有点偏差也无所谓了，早晚都给时间填平😂需要AI作为生产力工具的人除外
hyaden 7小时前

1 19楼

gymzatan hyaden 太对了，从这篇帖子的回帖就能看出来，大部分人不知道llm和alpha狗和李飞飞世界模型的区别，全用ai来代替😂 其实如果技术进展真那么快的话认知有 ...
ai要是真的发展那么快还真的挺可怕的，恐怕留给我们碳基生命的时间不多了🙈
cppapp 3小时前

1 20楼

supervisor 估计不用多久也可解决这个问题。以前说机器只有运算速度和大容量记忆，不能做到人类很容易的行为如识别人物、图像，后来超越了；以前说AI无法在棋类等需要复杂推理的场合战胜人类，后来象棋、围棋分别被超越； ...
这些相对都是高级的抽象问题。AI难以解决的是一些基础的问题，比如大素数快速分解的问题，P=NP的问题，当然这些问题人类也难以解决（其实棋类问题大部分人类也难以解决），这些基础问题方面我认为AI在可预见的未来几十年都不会有什么突破性进展