Galaxy银河国际·Sora将把AI带向何方?看看AI研究者们怎么说
团队

  随着Sora横空出世,生成式AI再次成为热议话题。尽管AI技术已发展到令人惊叹的地步,但在AI研究者们眼中,一切还只是开始。AI大模型还有哪些需要优化的地方?国内的企业和高校该如何追赶OpenAI的脚步?AI技术的应用潜力在哪些领域?

  4月12日,“探Sora,论AI未来”人工智能沙龙在中国科学院深圳先进技术研究院举办,来自香港中文大学、腾讯科技有限公司,以及深圳先进院的研究者们,共同探讨了“后Sora时代”的AI技术发展。中国科学院院士、深圳先进院副院长郑海荣在致辞中表示,人工智能正深深影响材料、生命、信息、医学等领域发展,我们应以极高的敏感度去思考如何利用人工智能带动各领域变革。

  尽管AI生成的图片已经可以达到出神入化的程度,但在细节之处难免露出破绽,例如出现6根手指、3条小腿等令人啼笑皆非的画面。如何优化AI大模型,让其更符合常理和人类的审美?香港中文大学副教授李鸿升介绍了团队开发的一款评估模型,堪比AI图片“判官”。

  “简单来说,就是让用户输入文字指令,AI生成4张图后,让用户选择其中的最优结果,再根据用户的选择不断迭代。”李鸿升在报告中分享说,这些人工标注后的数据能够反映人类对生成图像的倾向性,团队利用这些数据开发出了AI图像的评估模型,对AI模型生成的图像效果进行打分。

  “例如,给定4个AI模型同样一句指令:生成一只中世纪的狮子领主。从评估模型最后的打分来看,无论是狮子的形象还是领地的背景,评估模型基本能够做到按照人类的审美,对生成效果进行打分排序。”李鸿升举例道。他表示,有了评估模型后,后续可以根据该模型进一步提升AI模型文生图的质量。

  国内高校和企业应该如何在AI技术浪潮中突围?在李鸿升看来,高校研究团队适合针对一些突破性方向进行探索,而企业团队则可以集中大量资源进行规模化的模型开发和训练。

  来自腾讯AI Lab的高级研究员王鑫涛分享了他对Sora的思考。在他看来,Sora横空出世前,视频生成技术还停留在2秒内视频片段的水平,而Sora将视频生成技术从质量到时长都提升了一个维度,提出了“世界模拟器”的概念。

  追赶Sora需要面对的核心挑战是什么?王鑫涛认为,最值得研究的问题是Sora如何做到在长视频和长镜头中,学习到物理规律,确保物理的一致性。“过去AI生成的视频大多是单一镜头,而Sora却能在复杂的长视频中做到镜头切换,同时保持了很强的三维、时序、物理一致性。”据王鑫涛介绍,其所在团队正在进行一项名为Mini-Sora的研究项目,目的就是为了攻克一致性问题。

  对于AI技术的应用前景,在最后的圆桌论坛环节,研究者们也进行了畅想。香港中文大学助理教授薛天帆认为,Sora的出现对未来制造业的帮助有巨大潜力。“例如,手机制造商需要做很多产品模型,对手机的实际表现进行测试。如果Sora能够精准地模拟物理世界,将大大降低工业生产的成本。”华为技术有限公司高级工程师蔡颖婕则探讨了生成式AI对自动驾驶技术发展的启示。

  Sora的出现同时也给人们制造了失业焦虑。在深圳先进院研究员董超看来,市场对技术应用的想象力往往比科学家更大,但科研人员该思考的是如何引导技术应用。“导致某个行业全员失业,不是科研人员想看到的结果。我们更希望AI技术应用在过去人类做不到,但又很有必要的领域,比如深海和深空的探索,去挖掘更多资源,这可能是AI技术更大的价值所在。”


Galaxy银河国际