hawkli
我刚在看omni parser v2,这个才是我心中所想象的AI操作软件的真正想法。
你们可以去查一下这个资料,虽然还在很初期阶段,但思想对了。
这个软件2月12日微软开源了,整体思想是先用视觉大 ...
这个发布的时候看过github的项目内容,作为纯视觉方案助理方案,当然是最符合人类直觉的方案,类似于特斯拉的FSD纯视觉辅助驾驶,而且应该可以预见会有较好的通用性。
但是路还很长,首先方案是通过实时持续获取UI screenshots,再用对应的vision model进行处理,不考虑模型识别精度低的现状,其客户端开销和延迟都是非常大的问题,还有隐私加密等风险。另外需要OS层有很好的支持,特别是多平台的复杂情况。
还有就是作为纯视觉的方案,就和FSD一样存在盲区,也就是对于看不见的background tasks无法有效的实时处理,仍然需要其它信息流交换的方案进行配合。
所以出于项目可用性和准确率和系统开销来说,形成统一的标准(e.g. API)来实现Agent是我个人更希望看到,但是AI行业标准构建本身就道阻且长,但我仍然相信行则将至。