Sora与马斯克,相煎何太急?

Esteban Ma
最热文章
coverImg
来源: DepositPhotos

出口成章已是过去式,出口成“视频”才是现在时?          


最近几天,sora的热度只增不减。Sora是美国人工智能团队OpenAI发布的首个文本生成视频大模型。据了解,Sora的文本生成视频不仅在时长上取得了突破,时长达到60秒,而且质量稳定,能够模拟物理世界和数字世界的人物、动物和环境。          


Sora堪称惊艳的视频生成能力,“技惊四座”,并很快引起了同为AI科技圈特斯拉CEO埃隆·马斯克的注意。近日,马斯克更是在推特上直言:“特斯拉拥有世界上最好的现实世界模拟和视频生成能力!”   

      图片          


Sora与马斯克两大神仙打架,谁的“视频生成术”更胜一筹?          


01 Sora与马斯克,本是同根生?

Sora与马斯克,一直关系匪浅。          


一方面,马斯克原本是Sora背后的公司OpenAI的联合创始人,只不过后来被踢出了董事会。据了解,马斯克在OpenAI转变为盈利公司后,曾多次在公开场合批评和指责OpenAI开始逐利、失去初心。            


另一方面,马斯克探索的视频生成技术方向以及其背后的逻辑与Sora十分相似。          


其实,“文生视频大模型”并不是一条全新的赛道,早在sora之前,市面上的头部大模型就已经在探索视频生成技术了。据相关媒体报道,在OpenAI登场之前,头部大模型研发商几乎都拥有自己的文生视频大模型。例如,Google的Lumiere以及Stability AI的SVD(Stable Video Diffusion),甚至已经诞生了垂直于多媒体内容创作大模型的独角兽,例如视频生成大模型Gen-2的开发商Runway,在2023年6月底完成由Google、Nvidia、Salesforce参与的C轮融资后,估值超过15亿美元。          


而后来者Sora之所以能够引起轰动,更多的在于其在技术层面和逻辑层面的重大突破。          


技术层面,据悉,Sora最令人震撼的技术突破莫过于视频时长的巨大提升。Sora能生成长达1分钟的视频,远超市面上其他AI视频模型。此前,Runway能够生成4秒的视频,用户可以将其最多延长至16秒,这已经是AI生成视频在2023年所能达到的最长时长纪录:Stable Video能提供4秒的视频,Pika则提供3秒的视频。          


逻辑层面,Sora展示出了对物理世界部分规律的理解,解决了过去文生视频模型的一大痛点。有专家分析指出,Sora带有“世界模型”的特质,这让其在逼真度上更胜一筹。          


而特斯拉的世界模型和Sora之间的最大相似点,也是逻辑层面。据悉,二者的技术底层逻辑都是通过视觉让AI能够理解甚至模拟真实的物理世界。             


去年7月,特斯拉自动驾驶软件总监Ashok Elluswamy在CVPR2023的演讲中提到,特斯拉正在为其人工智能技术构建一个基础的世界模型(General World Model)。   

       

同时,据马斯克介绍,特斯拉的视频生成技术是基于其模拟现实技术而开发的。通过这种技术,特斯拉能够构建一个动态生成的世界,这个世界并不是简单的图像拼接或动画模拟,而是基于真实世界的物理规则和数据来生成的。这意味着,特斯拉的视频生成技术不仅能够呈现出逼真的视觉效果,更重要的是它能够预测和模拟出极其精准的物理场景。          


不过,二者的底层逻辑也存在差异。有业内人士分析指出,特斯拉目前的视频生成技术逻辑,是基于过去的视频,给出车辆行动提示,甚至不给提示,该模型可以预测不同的未来情况,以及生成视频。          


也就是说,特斯拉目前的视频生成技术是基于过去的视频进行动态生成的,而不是基于文本的输入。对此,有业内人士分析表示,这或许意味着特斯拉的视频生成技术可能更依赖于数据的质量和数量,而不是模型的复杂度和创造力。          

02 晚了一步的马斯克,相煎何太急?

在Sora出现在公众视野之前,马斯克的特斯拉早在一年前就具备了相似的技术。          


马斯克表示:“特斯拉在大约一年前就能以精确的物理生成真实世界的视频。只不过,由于训练数据来自汽车,生成的视频并不有趣。这些视频看起来像特斯拉的普通视频,实际上是通过动态生成的。”      

        图片          


只不过,由于发展方向不同,马斯克这一次似乎失去了技术公布的“先机”。目前特斯拉的视频生成能力主要运用在了探索自动驾驶上。而OpenAI的Sora则一直将重心放在生成视频上。方向不同,重心也就不同。因此,相比于OpenAI先放出Sora给世界带来一点震撼的方式,晚了一步的马斯克也情有可原。             


也正是在自动驾驶上的深耕,让特斯拉的视频生成技术有希望与如今风头正盛的Sora一较高下。          


第一,特斯拉FSD的成功依赖于对大量真实世界数据的处理和学习能力,这与OpenAI探索AGI的途径有共通之处。两者都需要大量的数据、高效的算法和强大的计算能力。所以,有业内人士猜测,如果OpenAI能够在AGI领域取得突破,那么特斯拉在FSD上的成功也显得更加可行。          


第二,由于特斯拉FSD专注于自动驾驶这一特定的应用场景,技术难度和复杂性可能低于开发能够执行广泛任务的通用人工智能系统。同时,特斯拉拥有大量的实际驾驶数据,这为FSD的训练提供了丰富资源。这也是不少业内人士猜测其技术突破和实现自动驾驶的时间可能比OpenAI实现通用人工智能要早的重要原因。          


不过,相比于Sora,特斯拉的视频生成能力仍存在局限性。          


算力是限制特斯拉的主要因素。据了解,视频生成涉及大量的视觉信息处理,所需计算量远超文本生成。模型可能需要在数以亿计的参数上进行训练,消耗巨大的GPU算力资源。此外,文生视频模型需要结合音频、文本等多个模态信息,这就需要模型能够有效融合不同类型的输入信号,并输出相应的跨模态内容,无疑将大大增加模型设计和训练的难度。          


而在对一则讨论OpenAI Sora和FSD的视频下,马斯克也回复到:“我们在FSD的训练计算能力上一直比较紧张,因此没有使用其他视频进行训练,但这是肯定可以做到的。我们计划在今年晚些时候,当有一些空余能力时进行这项工作。”          


同时,自动驾驶仪工程的负责人Ashok也直言,公司目前的视频生成模型也还只是个“半成品”,关键是它可以提供一个神经网络模拟器,推演出不同的未来结果,跟踪道路中所有移动的物体。             


可见,Sora的发布的确让马斯克产生了些许危机感。          


好在,Sora并非完美无瑕。在Sora公开的Demo视频中,存在不少生成式AI脱离现实逻辑的漏洞。例如,随着时间推移,有的人物、动物或物品会消失、变形或者生出分身;或者出现一些违背物理常识的画面,比如穿过篮筐的篮球、悬浮移动的椅子。          


OpenAI在技术报告中也坦诚地公布了Sora的不成熟之处。据悉,OpenAI表示,Sora可能难以准确模拟复杂场景的物理原理,可能无法理解因果关系,可能混淆提示的空间细节,可能难以精确描述随着时间推移发生的事件,如遵循特定的相机轨迹等。          


多年从事计算机视觉研究的上海交通大学人工智能研究院副教授王韫博也认为:“Sora对真实世界的模拟还有很大提升空间,就目前的展示内容来看,并不意味着它已经‘读懂了’物理规律。”          


英伟达高级科学家Jim Fan也指出,目前Sora对涌现物理的理解是脆弱的,远非完美,仍会产生严重、不符合常识的幻觉,还不能很好地掌握物体间的相互作用。          


总之,留给马斯克追赶的时间似乎还很多。而Sora最后又能否成为文本生成视频领域的“真老大”,现在定论,似乎也为时尚早。

阅读更多

  • 2026年首个非农数据来袭!黄金、美元将迎巨震?分析师这样说
  • Fed放鹰,黄金失守2360,分析师:继续看涨?
  • 比特币今年将飙升至10万美元!渣打银行押注美国大选行情!
  • 1月8日财经早餐:劳动力市场显“疲态”、美债息率下跌,标普终结三连涨,Alphabet市值超越苹果
  • 单日如此大规模净流入!比特币9万上方“重新校准”,突破这一区间才有方向
  • 美国司法部称币安执行长赵长鹏有潜逃风险,BNB 价格失去关键支撑
  • 免责声明: 本文内容仅代表作者个人观点,不代表mitrade官方立场,也不能作为投资建议。文章内容仅做参考,读者不应以本文作为任何投资依据。 mitrade对任何以本文为交易依据的结果不承担责任。 Mitrade亦不能保证本文内容的准确性。在做出任何投资决定之前,您应该寻求独立财务顾问的建议,以确保您了解风险。

    差价合约(CFD)是杠杆性产品,有可能导致您损失全部资金。这些产品并不适合所有人,请谨慎投资。查阅详情



    goTop
    quote
    相关文章
    placeholder
    2026热门资产前瞻:黄金、比特币、美元将会出现关键拐点?权威机构观点汇总动荡的2025年已过去,展望2026年,商品、外汇和加密货币市场将何去何从?
    作者  Insights
    2025 年 12 月 25 日
    动荡的2025年已过去,展望2026年,商品、外汇和加密货币市场将何去何从?
    placeholder
    圣诞老人行情来袭!2026年1月继续涨?标普500指数冲向7000点 “圣诞老人行情”指的是在每年最后五个交易日及新年头两个交易日,美股往往会上涨。自1950年以来,标普500指数在该期间上涨概率为79%,平均涨幅达到1.3%。
    作者  Alison Ho
    2025 年 12 月 23 日
    “圣诞老人行情”指的是在每年最后五个交易日及新年头两个交易日,美股往往会上涨。自1950年以来,标普500指数在该期间上涨概率为79%,平均涨幅达到1.3%。
    placeholder
    12月23日财经早餐:金、银、铜创新高!WTI原油涨超2%,美股三连涨、Alphabet加码AI布局得益于地缘政治风险升温、美联储降息预期发酵以及美元走弱,金属牛市全面铺开,金、银、铜创新高!黄金涨2.43%,突破4400美元关口,最高触及4449美元。白银涨2.82%,最高至69.44美元,逼近70美元关口;伦敦期铜价格一度升至每吨11996.18美元,升幅为1.01%;现货钯金三年来再次突破历史高位,曾见每盎斯1800.85美元,涨4.86%。现货铂金亦破顶,一度高见每盎斯2096.81美元,涨6.07%。乌美和平谈判未取得突破,WTI原油涨超2%。
    作者  Insights
    2025 年 12 月 23 日
    得益于地缘政治风险升温、美联储降息预期发酵以及美元走弱,金属牛市全面铺开,金、银、铜创新高!黄金涨2.43%,突破4400美元关口,最高触及4449美元。白银涨2.82%,最高至69.44美元,逼近70美元关口;伦敦期铜价格一度升至每吨11996.18美元,升幅为1.01%;现货钯金三年来再次突破历史高位,曾见每盎斯1800.85美元,涨4.86%。现货铂金亦破顶,一度高见每盎斯2096.81美元,涨6.07%。乌美和平谈判未取得突破,WTI原油涨超2%。
    placeholder
    12.19精選策略分享:美元/日元、歐元/美元、黃金、美光科技(MU.US)技術分析 美光科技盤後公佈第一財季業績顯示,該公司不但上季度業績高於分析師預期,而且第二財季營收、毛利率、每股收益指引也大超預期,並將2026財年資本開支預期從180億美元提高至200億美元。美光財報顯示內存晶片需求強勁,緩解了投資者對數據中心建設可能放緩的擔憂。另一方面,美國11月CPI意外下滑,為聯准會降息提供基礎。加之日央行加息落地,市場整體風險偏好有望回升。
    作者  Insights
    2025 年 12 月 19 日
    美光科技盤後公佈第一財季業績顯示,該公司不但上季度業績高於分析師預期,而且第二財季營收、毛利率、每股收益指引也大超預期,並將2026財年資本開支預期從180億美元提高至200億美元。美光財報顯示內存晶片需求強勁,緩解了投資者對數據中心建設可能放緩的擔憂。另一方面,美國11月CPI意外下滑,為聯准會降息提供基礎。加之日央行加息落地,市場整體風險偏好有望回升。
    placeholder
    “三巫日”来袭!7万亿美元期权到期,美股、比特币迎巨震?“三巫日”通常会放大交易量和波动性,叠加日本央行加息,市场预计迎巨震。
    作者  Alison Ho
    2025 年 12 月 19 日
    “三巫日”通常会放大交易量和波动性,叠加日本央行加息,市场预计迎巨震。
    实时行情报价
    名称/代码走势图涨跌幅/价格
    MSFT
    MSFT
    0.00%0.00
    TSLA
    TSLA
    0.00%0.00

    美股 相关文章

    • 美股走势分析教学,新手怎么看美股走势?有哪些技巧?需要看什么技术指标?
    • 美国股市大跌的原因有哪些?对股市、黄金和债券都有什么影响?投资人如何应对?
    • 涨幅超1000%!辉达(NVDA)股票怎么买?新手、小资族如何选择投资管道?
    • 【2025热门美股ETF推荐】美股ETF有哪些?怎么选?新手投资指南
    • 美股怎么买?如何开户?美股证券开户推荐及比较
    • 美股盘前交易是什么?美股盘前盘后交易有什么区别?盘前交易对股价的影响有哪些?

    点击查看更多文章