加州大学伯克利分校副教授 Sergey Levine 质疑为何语言模型表现优异,而视频模型能力有限。他认为大语言模型(LLM)实际上是对人类思维的间接“扫描”,通过分析互联网文本逆向推导认知过程。相比之下,尽管视频数据包含更多信息,但视频预测模型尚未展现类似的语言模型能力。Levine 强调,当前 AI 系统如同处于“柏拉图的洞穴”,仅能观察到人类智能的投影,而非直接学习真实世界的经验。他呼吁 AI 研究应探索从物理经验中自主学习的方法,以实现更灵活的智能。此外,康奈尔大学的一项研究提出了无需配对数据即可转换文本嵌入的新方法,或为未来 AI 发展提供新方向。这一讨论凸显了当前 AI 技术的局限性及未来研究的重要挑战。
来源:https://mp.weixin.qq.com/s/_5M7uc86kCTWxqSUSPkIfg