60秒一镜到底！Sora技术报告揭秘 6大核心优势AGI或在一年内实现

e世博官方地址

联系我们CONTACT

地址：中国浙江义乌市廿三里街道埠头村5号
电话：86 0574 65183870
q q：6026669
邮箱：6026669@qq.com
联系人：王英女士
手机：13486026669
网址：http://www.sanyale.com

您当前的位置： > e世博官方地址 > e世博官方地址

60秒一镜到底！Sora技术报告揭秘 6大核心优势AGI或在一年内实现

上传时间：2024-02-22阅读次数：次编辑：admin

　　◎当地时间2月15日，OpenAI发布了最新的视频生成模型Sora。出色的视频制作能力瞬间“点燃”科技圈。英伟达人工智能研究院首席研究科学家Jim Fan直言，这是视频生成领域的GPT-3时刻。360集团创始人、董事长周鸿祎则称，随着Sora的到来，人类离AGI线年的问题，可能一两年很快就可以实现。

　　◎本周，日本内阁府公布的初步统计结果显示，从2023年的名义GDP来看，日本被德国反超，丢掉了世界第三大经济体的地位。疲软的经济数据让日本的货币政策正常化之路面临挑战。日本央行能否如市场预期在今年4月退出负利率政策？每经连线牛津经济研究院高级日本经济学家山口範大解读。

　　60秒一镜到底，文生视频的GPT-3时刻！Sora技术报告揭秘 6大核心优势，AGI或在1年内实现？

　　“在一个与自然和谐共生，同时又有超强朋克气质和高科技属性的未来城市漫游……”

　　根据上述提示词，OpenAI首席执行官阿尔特曼在X平台上发布了一系列视频，精美的场景让用户惊叹不已。而这些视频全都是通过OpenAI 2月15日发布的最新视频生成模型Sora制作的，用户震惊之余，也给予了Sora高度评价，将其描述为“绝无仅有”和“游戏规则改变者”。

　　Sora采用了OpenAI文生图模型DALL-E 3背后的强大技术，可将简短的文本描述转化成长达1分钟的高清视频。业界大佬Gabor Cselle将Sora和Pika、RunwayML和Stable Video进行对比后发现，在输入相同的提示后，其他主流工具生成的视频都大约只有5秒钟，Sora可以在一段长达17秒视频场景中，保持动作和画面一致性。

　　英伟达人工智能研究院首席研究科学家Jim Fan也对Sora的能力发出感叹，称这是视频生成领域的GPT-3时刻。他表示，Sora是一个“数据驱动的物理引擎”，一个可学习的模拟器或“世界模型”。360集团创始人、董事长周鸿祎则称，随着Sora的到来，人类离AGI线年的问题，可能一两年很快就可以实现。

　　在随后发布的技术报告中，OpenAI介绍了Sora的强大性能以及背后的支撑技术，也对Sora的局限性进行了客观的分析。《每日经济新闻》记者通过梳理，总结出了Sora的六大核心优势。

　　从技术上看，Sora有望将数字内容的创造力和真实感提升到新的水平，但凡事总有两面性，影视、广告制作和视频等行业也将面临严重的冲击。另外，有专家对于技术的迅猛发展也表示出了担忧，称这类技术可能会导致“深度伪造”视频，让人难以识别，产生滥用等问题。

　　值得注意的是，Sora推出的同一天，谷歌发布了Gemini多模态模型的更新版本，而三天前，Stability AI推出了新的图像生成模型Stable Cascade。OpenAI的最新举动无疑将加剧生成式AI图片和视频领域的竞争。

　　而在Sora推出后不久，OpenAI发布了这款新工具的技术报告。在报告中，OpenAI首先重点介绍了如何将不同类型的视觉数据转化为统一的格式，以便于对生成模型进行大规模训练的方法，并对Sora的能力和局限性进行了评价。

　　（1）准确性和多样性：Sora的显著特征之一是能够准确解释长达135个单词的长提示。它可以准确地解释用户提供的文本输入，并生成具有各种场景和人物的高质量视频剪辑。这一新工具可将简短的文本描述转化成长达1分钟的高清视频。它涵盖了广泛的主题，从人物和动物到郁郁葱葱的风景、城市场景、花园，甚至是水下的纽约市，可根据用户的要求提供多样化的内容。

　　（2）强大的语言理解：OpenAI利用Dall-E模型的re-captioning（重述要点）技术，生成视觉训练数据的描述性字幕，不仅能提高文本的准确性，还能提升视频的整体质量。此外，与DALL·E 3类似，OpenAI还利用GPT技术将简短的用户提示转换为更长的详细转译，并将其发送到视频模型。这使Sora能够精确地按照用户提示生成高质量的视频。

　　（3）以图/视频生成视频：Sora除了可以将文本转化为视频，还能接受其他类型的输入提示，如已经存在的图像或视频。这使Sora能够执行广泛的图像和视频编辑任务，如创建完美的循环视频职能科室、将静态图像转化为动画、向前或向后扩展视频等。OpenAI在报告中展示了基于DALL·E 2和DALL·E 3的图像生成的demo视频。这不仅证明了Sora的强大功能，还展示了它在图像和视频编辑领域的无限潜力。

　　（4）视频扩展功能：由于可接受多样化的输入提示，用户可以根据图像创建视频或补充现有视频。作为基于Transformer的扩散模型，Sora还能沿时间线向前或向后扩展视频。从OpenAI提供的4个demo视频看，都从同一个视频片段开始，向时间线的过去进行延伸。因此，尽管开头不同，但视频结局都是相同的。

　　（5）优异的设备适配性：Sora具备出色的采样能力，从宽屏的1920x1080p到竖屏的1080x1920，两者之间的任何视频尺寸都能轻松应对。这意味着Sora能够为各种设备生成与其原始纵横比完美匹配的内容双摇杆机构。而在生成高分辨率内容之前，Sora还能以小尺寸迅速创建内容原型筛孔。

　　（6）场景和物体的一致性和连续性：Sora可以生成带有动态视角变化的视频，人物和场景元素在三维空间中的移动会显得更加自然。Sora 能够很好地处理遮挡问题。现有模型的一个问题是，当物体离开视野时，它们可能无法对其进行追踪。而通过一次性提供多帧预测，Sora可确保画面主体即使暂时离开视野也能保持不变。

　　据外媒报道，Sora的推出标志着AI研究的一个重要里程碑。凭借其模拟和理解现实世界的能力，Sora为未来实现通用人工智能（AGI）奠定了基础。从本质上讲，Sora不仅仅是生成视频，而是在突破AI所能完成的极限。

　　伊利诺伊大学厄巴纳-香槟分校信息科学教授Ted Underwood表示：“就算是在未来的2-3年，我也没想过视频制作可以达到这样持续基本偏差、连贯的水平。”他表示，与其他文本到视频工具相比，“容量似乎有所提升”。

　　OpenAI CEO阿尔特曼在X平台上透露，Sora目前已向红队成员（red teamers，指的是误导信息、仇恨内容和偏见内容等方面的专家）和部分创意人士开放。

　　英伟达人工智能研究院首席研究科学家Jim Fan则在X平台发文表示，“如果你还是把Sora看成DALLE那样的生成式玩具，还是好好想想吧，这是一个数据驱动的物理引擎。他是对许多世界的模拟，无论是真实的还是幻想的。”他认为，Sora是一个可学习的模拟器，或“世界模型”。

　　在他看来，Sora代表了文本生成视频的GPT-3 时刻。而针对部分称“Sora并没有学习物理，仅仅是在二维空间里对像素进行操作”的声音，他表示，Sora所展现的软物理仿真实际上是一种随着规模扩大而出现的特性。Sora 必须学习一些隐式的文本到 3D、3D 变换、光线追踪渲染和物理规则，才有可能精确地模拟视频像素。它必须理解游戏引擎的概念，才有可能生成视频。

　　在前女友格莱姆斯的一条推文下方，马斯克回应称：“有了AI加持的人类将在未来几年里创造出最好的作品。” 格莱姆斯在X平台上发布了多条推文，讨论OpenAI这项新技术对电影以及更广泛的艺术创作的影响。此外，有网友在评论Sora生成的60秒时尚女子在东京街头散步时称，“gg Pixar（皮克斯动画制作公司）”（编注：gg为Good Games缩写，代指“打得好，我认输” ），随后马斯克回复，“gg humans（人类）”。

　　对于Sora的最大优势，360集团创始人、董事长周鸿祎说，“这次OpenAI利用它的大语言模型优势，让Sora实现了对现实世界的理解和对世界的模拟两层能力，这样产生的视频才是线D的范围模拟真实的物理世界。”他同时称，“一旦人工智能接上摄像头，把所有的电影都看一遍，把YouTube上和 TikTok 的视频都看一遍，对世界的理解将远远超过文字学习，一幅图胜过千言万语，这就离AGI线年的问题涡轮液力转矩，可能一两年很快就可以实现。”

　　然而，Sora在带来无限可能的同时，也将对部分行业产生巨大的影响，包括影视、广告制作、教育、游戏、新闻和动画等领域。

　　谈及Sora的行业冲击时，Jim Fan评价道，Sora的物理学理解目前还是脆弱的，远非完美。它仍然会产生幻觉，生成与物理常识不符的事物，还没有很好地掌握物体交互的原理。

　　周鸿祎对此也深以为然，他指出，AI不一定那么快颠覆所有行业，但它能激发更多人的创作力。他表示，“Sora只是小试牛刀，它展现的不仅仅是一个视频制作的能力，而是大模型对真实世界有了理解和模拟之后，会带来新的成果和突破。”

　　他解释说，“机器能生产一个好视频，但视频的主题、脚本和分镜头策划、台词的配合，都需要人的创意至少需要人给提示词。”他强调，科技竞争最终比拼的是人才密度和深厚积累。

　　而对于Sora当前存在的弱点，OpenAI也明确指出，它可能难以准确模拟复杂场景的物理原理，并且可能无法理解因果关系。该模型还可能混淆提示的空间细节，例如混淆左右，并且可能难以精确描述随着时间推移发生的事件，如遵循特定的相机轨迹。而这些缺陷可能导致Sora生成一些不合逻辑的东西，比如一个人在跑步机上跑错方向，以不自然的方式改变主题，甚至出现凭空消失的现象。

　　随着名人、政客等人物的深度造假视频在网上变得越来越普遍，相应的伦理和安全问题也让人心惊，尤其是在总统选举年和紧张的政治局势背景下。

　　Gartner分析师Arun Chandrasekaran表示，“鉴于这项技术确实非常新，他们必须对其进行充分控制，以防止其被滥用和误用，甚至客户在没有认识到这项新兴技术所有局限性的情况下使用它。”他补充道，OpenAI为该模型设置的防护措施以及确定谁可以获得访问权限至关重要。

　　牛津互联网学院客座政策研究员Mutale Nkonde也表示，任何人都可以轻松地将文本转换为视频这一想法令人兴奋。但同时，她也担心这些工具可能会植入社会偏见和仇恨内容，对人们生计造成影响等。

　　普林斯顿大学计算机科学教授Arvind Narayanan对此也有担忧，认为Sora这类技术可能会导致“深度伪造”视频，让人们难以识别。虽然AI制作的视频仍会有一些不一致的地方，但普通人可能不会注意到这些细节。“迟早，我们需要适应现实主义不再是真实性的标志这一事实。”

　　针对业界的担忧，与此同时，监管机构也在加强管理。美国联邦贸易委员会（FTC）2月15日提出了禁止使用AI工具冒充个人的规则。FTC表示，它正在提议修改一项已经禁止冒充企业或政府机构的规则，将保护范围扩大到所有个人。

　　2月15日公布的数据显示，日本GDP在2023年第四季度意外下滑，连续两季度下滑进入技术性衰退。从2023年全年来看，日本的名义GDP虽然增长了5.7%，但经济总量却低于德国，丢掉了世界第三大经济体的地位。

　　日本经济在二战后的迅速崛起创造了一个经济奇迹，在1968年至2009年，日本一直是仅次于美国的全球第二大经济体，直到2010年被中国超越。此番GDP总量再遭德国超越，对日本社会无疑将造成一定的心理冲击。东京大学经济学教授冈崎哲二（Tetsuji Okazaki）认为，日本在国际舞台的活跃度可能会下滑。

　　技术性衰退，以及国内消费和企业投资连续三个季度下滑，让日本央行实现货币政策正常化的计划左右为难。对此，牛津经济研究院高级日本经济学家山口範大对《每日经济新闻》记者表示，GDP是向后看的数据，如果日本民众实际收入改善，日本央行仍然大概率将在４月结束负利率。

　　当地时间2月15日，日本内阁府公布的初步统计结果显示，2023年日本名义国内生产总值（GDP）初步统计数据为591.482万亿日元（约合42106亿美元），低于德国的44561亿美元，降至世界第四位，被德国反超。

　　结果同时显示，2023年日本名义GDP增长5.7%，实际GDP同比增长1.9%。名义GDP是按当年市场价格计算的一年所生产的全部产品和劳务的价值，相较实际GDP，名义GDP更易受到市场价格波动影响。尽管德国2023年的GDP萎缩0.3%，但由于物价上涨以及欧元兑美元升值推高了德国GDP，因此仍然超越了日本。

　　2023年，日元对美元汇率大幅度贬值。本周，日元兑美元一度触及1美元兑150.5~150.9日元的水平，是大约三个月来的低位。而在日元贬值之外，日本的人口减少和老龄化问题，以及生产效率和竞争力的停滞，被经济学家视为其跌落第三大经济体的结构性因素。“数年前，日本以强大的工业如汽车为傲摇杆。但随着电动汽车时代的来临，这一优势也被动摇。展望未来几十年，日本的前景比较暗淡。”冈崎哲二对表示。

　　实际上，国际货币基金组织在2023年10月就曾预测日本将失去世界第三的位置e世博官方地址，而且到2026年，日本经济规模还将被印度赶超。

　　日本内阁府公布的数据还显示，日本2023年第四季度实际GDP环比下降0.1%，换算成年率下降0.4%。这一数据颇为意外，据市场信息公司日经QUICK，民间预测中间值为年率增长1.0%。加上2023年第三季度GDP修正后下滑3.3%，日本经济已经连续两个季度负增长，符合技术性衰退的标准。

　　牛津经济研究院的高级日本经济学家山口範大对《每日经济新闻》记者表示，日本经济下滑的主要原因是国内需求疲软，去年第四季度收缩了0.3个百分点，相比之下净出口则增加了0.2个百分点。“最拖后腿的是消费，已经连续下滑了三个季度，特别是服务业消费（下降0.6%，上一季度增长0.3%）自2022年第一季度来首次下滑，说明（疫情）积压的需求已经在减弱。”

　　山口範大指出，消费之外，企业投资也在下滑。2023年第四季度日本的设备投资下降0.1%，也是连续第三个季度下降，主要是由于高昂的原材料价格和严重的劳动力短缺拖累了企业投资计划的实施。但实际上，日本企业的投资意愿较强，大企业预期将在3月结束的财年里将资本支出提高13.5%。

　　“总体而言，2023年第四季度的疲软GDP数据支撑了我们对2024年日本经济增长0.6%的预测，这一预测低于共识。” 山口範大表示。

　　此前市场普遍预测，日本央行很有可能在4月份的政策会议上开始退出施行多年的负利率政策。一方面，通胀率超过日本央行设定的2%目标已经长达一年多，是打压国内消费的关键因素之一，日美的利率差也造成了日元持续的贬值压力。另一方面，疲软的日本经济仍然需要超宽松货币政策的刺激。去年刚上任的日本央行行长植田和男面临着严峻考验。

　　“据我判断，日本银行将在4月份退出负利率政策。GDP数据反映的是过去的情况当量圆柱齿轮副，而不是前景。随着实际收入恢复，消费者信心也在改善，我认为日本银行将坚持‘日本经济可能会继续温和复苏’的判断，因此去年第四季度的GDP不太可能会对他们的决策产生重大影响。” 山口範大对《每日经济新闻》记者表示。

　　山口範大的分析也得到了新闻报道的印证。路透社2月16日报道称，知情人士透露，GDP只是日本央行关注的多个数据之一，重要的是经济整体趋势和前景，因此日本央行仍将在未来几个月里结束负利率。2024年春季的年度工资协商是否会提高工资收入水平将是重要指标。由于劳动力紧缺，许多企业已经释放出将大幅提高工资的信号。日本央行希望工资提高和物价上涨的压力放缓能够为货币政策正常化创造空间。

　　而与经济数据形成鲜明对比的是火热的日本股市。2月16日，东京证券交易所日经平均指数继续上涨，收于38487.24点，盘中一度与1989年12月底创下的历史最高价（38915.87点）相差仅50点。开年以来，日经平均指数已经上涨15%。

　　《日本经济新闻》报道指出，日本股市上涨的动力来自于日企的海外盈利能力。2月15日，信越化学和富士电机的股价均创下上市以来新高，两家公司的海外销售额分别占80%和30%。日元贬值提高了日企海外子公司的利润，推动股价上涨。此外，随着AI技术的热潮，日本半导体股票也受到投资者追捧。

　　山口範大对每经记者解释说，“我认为经济数据不会恶化市场信心。2023年第四季度实际GDP下滑了，但名义GDP仍然增长节距，这一数据对企业的盈利影响更大。此外，日元持续疲软，加上IT行业进入正周期，意味着企业盈利将会保持坚挺，特别是那些全球运营的企业。日元贬值同样意味着入境游客数量和消费仍将强劲。”

　　据科技报道The Verge，随着14天的“尝鲜期”结束，苹果Vision Pro开始遭遇退货潮（注：苹果允许用户在14天内退货）。报道称，不舒适、头痛和眼睛疲劳是退货的主要原因。有用户表示，Vision Pro让他们头痛并引发运动晕眩症。

　　苹果并未公开销售数据，但苹果非官方新闻网站 Cult of Mac 的一项民意调查显示，45% 的受访者计划退回这款耳机。

　　作为苹果头显领域的对手之一，Meta CEO扎克伯格发布了一段大约3分30秒长的视频，对Vision Pro作出“测评”，并将这一设备与自家产品Quest 3作对比。

　　在视频中，扎克伯格称，“苹果的屏幕确实有更高的分辨率，这确实非常好，但令我惊讶的是，他们必须在设备的质量、舒适度、人体工学以及显示屏和其他方面做出大量的权衡才能达到这一目标。”对他来说，售价500美元的Quest 3毫无疑问是更好的“买卖”，毕竟Vision Pro的价格是Quest 3的7倍。

　　尽管Vision Pro受到部分用户诟病，但有机构仍给予了较高的销售预期。Statista在近期的一份报告中预估，Vision Pro头显上市首年出货量为35万台，第二年将达到148万台。

　　随着美股市场13F文件的披露，多家知名投资机构最新的调仓换股情况浮出水面。

　　数据显示，截至2023年年底，对冲基金桥水在美股的持仓总市值达到179亿美元。去年第四季度，桥水加仓了强生、Alphabet、Meta、默克、礼来、英伟达等多只标的，减持了百事可乐、宝洁、可口可乐、开市客、拼多多等多只标的。

　　值得一提的是，桥水对礼来的加仓幅度高达413%左右，去年四季度买进25.56万股，持股数量增至31.76万股，期末持仓市值为1.85亿美元。桥水对英伟达的加仓幅度也高达458%左右，去年四季度增持22.03万股左右，持仓增至26.85万股，持仓市值为1.33亿美元。

　　据晨星报道，截至2023年12月31日，AI仍然是前索罗斯副手、亿万富翁斯坦利·德鲁肯米勒的家族办公室投资组合中的重要主题。英伟达是德鲁肯米勒最大的持仓，他的基金持有价值近5.5亿美元的英伟达股票，约占其总股本的16%。

　　巴菲特旗下伯克希尔哈撒韦公布的13F文件显示，伯克希尔哈撒韦去年第四季度减持苹果1000万股，并增持雪佛龙1600万股。截至该季度末，该基金持仓总规模为3470亿美元，较上季度增加340亿美元，苹果在投资组合中占比为50.19%，仍为其第一重仓股。

　　据路透社报道，至少九位知情人士透露，英伟达正在建立一个新的业务部门，专注于为云计算等公司设计定制芯片，包括先进的AI处理器。

　　这一最新举动有望进一步巩固英伟达在AI芯片方面的领导地位。英伟达控制着约 80% 的高端 AI 芯片市场，在人工智能浪潮的推动下，其市值在 2023 年增长了两倍多。微软、OpenAI、Meta等公司竞相采购英伟达高端AI芯片，以寻求在快速增长的AI领域保持竞争力。

　　当前英伟达A100、H100、H200等最先进AI GPU供不应求。今年迄今，英伟达股价已经累计上涨了50.75%，市值达到 1.79 万亿美元，超过谷歌（1.76万亿美元），成为美股市值第三大的公司。

　　据彭博社援引知情人士报道，软银集团创始人孙正义正寻求筹措1000亿美元资金成立一家芯片企业，以与英伟达竞争。

　　该计划项目代号为“伊邪那岐”（Izanagi），是自软银大幅削减初创企业投资以来，这位亿万富翁的最新重大尝试。报道称，软银考虑向该项目注入300亿美元资金，另外700亿美元可能来自中东的机构。

　　软银已经在芯片设计公司Arm中持有90%的股份。本周，受上周公布的超预期财报刺激，Arm股价连续大涨，三个交易日内涨幅超过90%。Arm的起飞也让背后的软银回了一波血。自Arm公布财报以来，软银股价已经上涨超过20%。

　　据彭博社，截至去年年底，20多家美国区域银行拥有的商业地产贷款规模过大垃圾焚烧炉，美联储、联邦存款保险公司（FDIC）和货币监理署（Office of the Comptroller of the Currency）已指示这些贷款应受到更多的审查。分析认为，这一信号表明可能会有更多的银行面临监管的压力，要求增加准备金。

　　美联储负责银行监管的副主席Michael Barr当地时间2月16日在纽约哥伦比亚大学的讲话中说，监管机构正在“密切关注”商业地产贷款中的风险，并且已经开始下调财务压力较大的银行的监管评级。

　　彭博社的调查发现，22家资产规模在100亿到1000亿美元的区域银行所持有的商业地产贷款是其资本的三倍以上。在资产少于100亿美元的社区银行中，这一数字甚至更高：47家拥有规模过大的贷款组合，其中13家增速过快。（注：分析不包括针对业主自用的非住宅建筑的贷款。）

e世博官方地址

联系我们CONTACT

您当前的位置： > e世博官方地址 > e世博官方地址

60秒一镜到底！Sora技术报告揭秘 6大核心优势AGI或在一年内实现

X请用手机扫描微信二维码