麻豆大全 “胜利日”红场阅兵明日举行，专家前瞻四大看点

2025-05-10 05:28:44 来源：廖迪居

字号：默认大超大 | 打印 |

麻豆大全

麻豆大全

如果我能够用海量的视频去做预训练，它能 predict next frame 以后，下一步肯定跟语言模型一样，加各种指令让它生成一个什么，让它预测一个什么东西，这样就会把所有的计算机视觉的东西统一在这样一个模型里。再往后就一定是做推理，推理为什么很重要？现在大家做自动驾驶或者是做机器人，大家肯定听说过 VLA 模型，就是 vision language action 这个模型，现在的 VLA 我觉得是有点叫 VLA1.0，因为它是一个预测模型，就是说我告诉你过去发生了什么，当下我看到的画面是什么，你来 predict 我应该做什么操作，我是应该方向盘做什么操作呢？还是应该机器人应该怎么走？它是一个 predict，我通过过去的 vision 来 predict 当下的 action 是什么。那人是怎么做的？人其实不止这一点，是在脑海里在当下会潜意识地有一个 action 的分布，它甚至会预判我如果做这个 action 下一步会产生什么，它是通过对未来的预判来决定现在要做什么。这个过程既有理解又有生成，因为它要先判断它有哪些 action，然后再判断这个 action 会造成哪些后果，判断这个后果的过程就是一个生成的过程。所以，理解生成一体化如果解决了以后，带了推理的 VLA，就不是今天的 VLA 了，它是一个能够带上对未来预测的更好的预测。其实这里面你如果看到的是一个 action 的分布，并且根据 action 对未来的预测来对当下做一个最优的策略的选取的话，那它就是强化学习。“胜利日”红场阅兵明日举行，专家前瞻四大看点

bc贷

麻豆大全 “胜利日”红场阅兵明日举行，专家前瞻四大看点