bc贷

EN
http://www.gov.cn/

麻豆大全 “胜利日”红场阅兵明日举行,专家前瞻四大看点

2025-05-10 05:28:44 来源: 廖迪居
字号:默认 超大 | 打印 |

麻豆大全

麻豆大全

如果我能够用海量的视频去做预训练,它能 predict next frame 以后,下一步肯定跟语言模型一样,加各种指令让它生成一个什么,让它预测一个什么东西,这样就会把所有的计算机视觉的东西统一在这样一个模型里。再往后就一定是做推理,推理为什么很重要?现在大家做自动驾驶或者是做机器人,大家肯定听说过 VLA 模型,就是 vision language action 这个模型,现在的 VLA 我觉得是有点叫 VLA1.0,因为它是一个预测模型,就是说我告诉你过去发生了什么,当下我看到的画面是什么,你来 predict 我应该做什么操作,我是应该方向盘做什么操作呢?还是应该机器人应该怎么走?它是一个 predict,我通过过去的 vision 来 predict 当下的 action 是什么。那人是怎么做的?人其实不止这一点,是在脑海里在当下会潜意识地有一个 action 的分布,它甚至会预判我如果做这个 action 下一步会产生什么,它是通过对未来的预判来决定现在要做什么。这个过程既有理解又有生成,因为它要先判断它有哪些 action,然后再判断这个 action 会造成哪些后果,判断这个后果的过程就是一个生成的过程。所以,理解生成一体化如果解决了以后,带了推理的 VLA,就不是今天的 VLA 了,它是一个能够带上对未来预测的更好的预测。其实这里面你如果看到的是一个 action 的分布,并且根据 action 对未来的预测来对当下做一个最优的策略的选取的话,那它就是强化学习。“胜利日”红场阅兵明日举行,专家前瞻四大看点