【科普向】Sora是什么?Sora原理?
基本概念
OpenAI是个头头是道的人工智能研究大户,自2015年打开摊子以来,一直在深度学习、搞懂人话啥意思这些方面闯出了新路。
凭借GPT-4这样的大脑筋急转弯模型,OpenAI在AI技术创新和实用发展这块地盘上占了个好位置,还特别强调要安全搞科研,讲究伦理,目的是让全球的大伙都能沾点光。
(PS:如果你需要开通ChatGPT-4.0的话,请查看:订阅GPT4保姆级教程)
OpenAI的最新成果Sora,一个先进的文生视频大模型,于2024年2月18日发布,标志着OpenAI在视频生成技术方面的重大进步。Sora的发布展现了OpenAI在生成视频质量、分辨率、文本语义还原等方面的卓越能力。
什么是Sora
Sora是OpenAI于2024年2月18日凌晨发布的新的文生视频大模型,名为 “ Sora
“。
从OpenAI在官网展示的Sora生成视频的效果来看,在生成视频质量、分辨率、文本语义还原、视频动作一致性、可控性、细节、色彩等方面非常好!
特别是可以生成最长1分钟的视频!生成的画面可以很好的展现场景中的光影关系、各个物体间的物理遮挡、碰撞关系,并且镜头丝滑可变。超过Gen-2、SVD-XT、Pika等主流产品,一出手就是王炸。
Sora引发全球的关注
Sora的横空出世引发了全球的关注,网民纷纷惊叹于人工智能的高速发展,一众大V也发表观点。
360创始人周鸿祎对Sora给予了极高的评价,他认为,Sora的诞生意味着AGI(通用人工智能)实现可能从10年缩短至一两年。
周鸿祎认为,科技竞争最终比拼的是让人才密度和深厚积累,”很多人说Sora的效果吊打Pika和Runway。这很正常,和创业者团队比,OpenAl这种有核心技术的公司实力还是非常强劲的。有人认为有了AI以后创业公司只需要做个体户就行,实际今天再次证明这种想法是非常可笑的。”
他还提到,尽管国内大模型发展水平表面看已经接近GPT-3.5,但实际上跟4.0比还有一年半的差距。OpenAl手里应该还有一些秘密武器,无论是GPT-5,还是机器自我学习自动产生内容,”奥特曼(OpenAI
CEO)是个营销大师,知道怎样掌握节奏,他们手里的武器并没有全拿出来。这样看来中国跟美国的AI差距可能还在加大。
Sora发布后数小时,马斯克在社交媒体上回复了”gg humans”,gg为Good
Games缩写,代指”打得好,我认输”
。之后马斯克还称,通过AI增强的人类将在未来几年创造出最好的作品。
GPT商店中有Sora GPT吗?
目前没有任何GPT可以使用SoraAI。有些可能使用”Sora”这个关键词来吸引注意,但实际上是不可用的。
Sora的能力
只需在提示框中输入单词、短语或句子,Sora就会根据这些信息自动生成场景。它目前可以达到这些效果:
- 生成具有多个角色和特定动作的复杂场景。
- 根据用户提示准确详细描述主题和背景。
- 理解在生成的场景中请求元素的物理存在。
OpenAI表示,Sora可以生成包含几个角色、特定类型的动作以及详细的主题和背景的复杂场景。模型”不仅理解用户在提示中请求的内容,还理解这些事物在物理世界中是如何存在的”。
OpenAI的Sora有替代品吗?
目前没有。它在视频质量方面超越了其他产品,如Runway、Pika、Stable video。
Sora有多厉害?
根据OpenAI在twitter上发布的初始示例和创作者在社交媒体平台上的建议,Sora能够根据提示准确地创建视频。
但openai也承认,当前的Sora模型存在不足之处。即”它可能在准确模拟复杂场景的物理特性方面存在困难,可能不理解特定的因果关系实例。”
我可以在ChatGPT上使用Sora AI吗?
Sora目前还不能在ChatGPT系统或其他OpenAI产品中使用。由于访问权限仍然限于选定的测试组,因此尚未启用与公共工具如ChatGPT的集成。
Sora的当前限制
- 在准确模拟复杂物理过程方面存在困难。
- 有时会误解空间细节和特定事件序列。
- 在创建合理的运动和准确建模对象与角色之间的交互方面存在问题。
Sora对未来影响几何?哪些人会因此失业
说白了,技术更新换代就像是把双面锋利的刀,既有人对新鲜事物兴奋不已,也有人担心自己的饭碗不保。
特别是那些干影视这一行的朋友们,比如剪辑大神、后期魔术师之类的岗位,可能要面临挑战。像Sora这样的视频模型,能自己动手,半自动半手动地做出视频来,让传统的剪辑和制作职位感受到了压力。后期制作的各个环节,包括剪接、特效、音效啥的,AI技术也能来一把,实现自动化或者半自动化。
不过,Sora的横空出世也让人们看到了AI的潜力无限。2024年,AI界迎来了一个重要的进展,给人类带来的更多是希望而不是绝望。所以,也不见得就会引发失业潮。反倒是,这个变化可能会推动视频行业往更高大上、更创新的方向发展。
如何使用Sora
Sora是否向公众开放,是否免费?
OpenAI表示,目前Sora向”红队成员”开放,即能够评估风险并识别潜在问题(如错误信息、偏见和仇恨内容)的专家。他们将”对抗性”地测试模型。
Sora还将对一些视觉艺术家、设计师和电影制作人开放——根据OpenAI首席执行官Sam
Altman的说法,这是”有限数量的创作者”,以获取反馈,以改进平台,使其对创意专业人士更有用。
目前,对这些用户而言,Sora是免费的,他们将获得模型的早期访问权限。
然而,目前尚不清楚一旦Sora向公众开放,OpenAI是否会收取费用。OpenAI已经推出了ChatGPT和其图像创建工具Dall-E的付费模型。
如何获取Sora的访问权限并使用Sora?
您现在还无法登录使用Sora AI。目前还没有请求访问的方式。
Sora的访问权限目前仅限于一小部分测试者。OpenAI已授权给红队研究员、视觉艺术家、设计师和电影制作人,以评估潜在的危害、收集创意反馈,并推进Sora模型的能力。
然而,目前还没有公共API或更广泛的可用性。
OpenAI网站上展示的能力展示了这种文本到视频生成模型的潜力,但实际的手动访问权限仍限于内部测试和某些外部试点组。
OpenAI指出,他们可能会在将来将Sora集成到商业产品中时考虑更广泛的访问权限,但任何公共访问的时间表仍然未定义。
目前,创新的Sora模型仅对OpenAI之外的一小组测试用户启用。更广泛的公共访问可能取决于OpenAI自己的使用政策和风险容忍度,因为这项技术继续发展。
Sora的安全性
Sora是否安全?
就跟别的AI平台一样,对于Sora能做出来的东西,大家心里都有点小慌。OpenAI说,他们正使劲儿想办法解决这事儿。
他们不仅找了红队的大佬们头脑风暴,还说要弄个工具出来,帮助识别那些误导人的内容,比如一个能辨认出视频是不是Sora搞的“鉴别大师”。
OpenAI的文本鉴别器会“审查并打回违反我们使用规则的文本提示”,就是说如果用户想要搞些极端暴力、黄色内容、仇恨图像、名人肖像或者侵犯别人知识产权的东西,这个系统会直接拒绝。
OpenAI还说,他们打算跟全球的政策制定者、教育家、艺术家啥的合作,听听他们有啥担心的,同时也找找这项新技术能有啥好的用处。
Sora的内容限制
Sora遵循伦理指南和安全协议,限制推广暴力、侵犯版权或被认为有害的内容。它鼓励在一个安全、尊重的框架内创造力。
安全措施
- 与红队合作评估潜在危害或风险。
- 开发用于检测误导内容的工具。
- 应用来自DALL·E
3的现有安全方法,包括文本和图像分类器,以确保遵守使用政策。
Sora API相关
OpenAI Sora API
根据OpenAI介绍Sora的博客文章,Sora模型目前没有公开的API可用。
这意味着目前Sora的访问权限仅限于特定的测试用户,并未向公众开放。这主要是考虑到潜在的风险。
该帖子还提到了将来可能在OpenAI的产品中部署Sora的计划。这表明从长远来看,OpenAI可能会为用户通过商业产品开放Sora的访问权限,但目前还没有公开的API或其他访问渠道。
总之,Sora模型目前没有启用任何形式的公开API,仅限于内部测试和选定用户。OpenAI是否决定开放API访问可能取决于他们的未来商业计划。如果需要对这个英文解释进行任何额外的澄清,请让我知道!
Sora定价及Sora API的定价
Sora AI是否免费使用?我不这么认为,因为生成视频需要GPU。
围绕OpenAI将对公开发布的Sora模型收取多少费用有很多好奇心。在回顾了OpenAI发布的有关Sora能力的研究之后,我预测他们将采取基于输出分辨率等因素的分层定价方法。对于需要最多计算资源的全高清质量视频,价格可能从每分钟生成10美元起;更高的价格也不会令人意外。我的感觉是,初始需求将最强烈地来自电影、流媒体节目和游戏开发等娱乐领域,这些领域可以充分利用视频AI助手。但成本将决定除这些行业之外的专业创作者能多广泛地利用Sora。
随着我们等待OpenAI正式的定价公告,围绕这个开创性但昂贵的模型可能对多个领域产生的影响有很多猜测。
Sora和其他工具的比较
Sora VS Diffusion
Sora与以前的扩散模型相比,在长达1分钟的视频中展现出了令人印象深刻的连贯性。DALL-E专注于图像,而Sora展示了将书面提示不
仅转化为独立场景,而且平滑过渡、多视角视频序列的能力。
这代表了从静态图像扩散技术向前的重大飞跃。通过在帧之间保持时间连贯性,Sora解决了其他生成视频方法所面临的核心挑战——在动态上下文中保持身份和物理可能性。
研究团队归功于变压器架构的使用,使得在空间和时间上更好地整合,以及新颖的基于补丁的训练方法,为解锁Sora的强大视频能力打开了大门。
虽然图像质量和保真度继续迅速进步,但Sora在连贯、连续生成视频方面取得了进展,这是其他扩散实现所缺乏的。其运动建模和物理意识显示了对长形式视频应用的独特前景。
展望未来,Sora似乎为进一步探索扩散方法在复制我们周围可见世界的核心原则方面的能力设定了基准。
Sora VS Midjourney
尽管Sora和Midjourney都展示了引人注目的文本到图像/视频生成能力,但他们的方法目前不允许直接比较。
Midjourney专注于使广泛的公众能够访问其图像扩散模型,在此过程中建立了一个强大的艺术社区。
然而,Sora的访问仍然受到严格限制,仅限于内部测试,限制了对其方法论强弱点的可见性。我们还没有观察到Midjourney为每个用户在提示和风格方面赋予的细微控制和定制程度。
而且,视频本身就比单个图像复杂。也就是说,Sora在连贯的长形视频平滑和视角方面的明显专业性似乎与Midjourney的核心竞争力不同。
最终,缺乏公共Sora访问意味着与Midjourney等创意平台的强健基准测试还不可行。
评估Sora的技术在多大程度上可能增强、扩展或取代像Midjourney这样的解决方案,将不得不等到OpenAI开放正式访问或提供更多透明度。
目前,两者都指向AI创造力的未来,但比较输出将需要Sora首先提供更多的公开可用性。
Sora VS DALL·E 3
Sora是OpenAI能够生成长达一分钟的高保真视频的最大模型。它是一个生成模型,经过训练,可以处理不同持续时间、分辨率和宽高比的视频和图像数据,使用基于变换器的架构,操作视频和图像潜在代码的时空补丁。Sora的开发是扩大视频生成模型规模努力的一部分,这被视为构建物理世界通用模拟器的有希望的路径。
Sora和DALL-E
3之间的关系主要在于它们对生成建模的共享方法以及它们在模拟物理世界方面的使用。
DALL-E
3以根据文本描述生成图像而闻名,使用了与Sora类似的方法来利用大规模生成模型。
Sora将这一能力扩展到视频生成,允许创建动态视觉内容。两个模型都展示了使用生成模型创建多样化和复杂的媒体输出的
潜力,为AI驱动的内容创建做出了贡献。
Sora VS Pika, Runway, Stable Video Diffusion 比较
模型 | 发布日期 | 使用便捷性 | 特点 | 价格 |
---|---|---|---|---|
OpenAI Sora | 2024年2月 | 未知 | 强大、多功能 | 尚未开放 |
Pika | 2023年1月 | 简单 | 用户友好,多种风格和效果 | 订阅制 |
Runway | 2023年 | 困难 | 强大、多功能 | 订阅制 |
Stable Video Diffusion | 2023年 | 困难 | 视频稳定和增强 | 自托管/订阅制 |
不同点
- OpenAI
Sora是最强大的文本到视频生成模型,但它仍在开发中,可能难以使用。 - Pika是Sora的一个更用户友好的替代品,可用于生成具有多种风格和效果的视频。
- Runway和Stable Video
Diffusion是视频编辑平台,提供创建和编辑视频的多种工具,包括文本到视频生成。
Sora技术相关
Sora最大的技术突破是什么?
目前,文生视频领域因为帧间依赖处理、训练数据、算力资源、过拟合等原因,一直无法生成高质量的长视频。
Sora最大技术突破是,可以在保持质量的前提下,生成1分钟的视频,在业内非常罕见。这也再次展示了OpenAI在大模型领域超强的技术研发能力。
Sora原理概述
Sora是一种扩散模型,主要通过静态噪音的视频开始生成视频,然后再通过多个步骤去除噪音,逐渐转换视频。
Sora与ChatGPT一样采用的是Transformer架构,并使用了DALL-E
3中的重述技术,是一种为视觉训练数据生成高精准描述性的字幕。所以,Sora在生成视频过程中精准还原用户的文本提示语义。
Sora未来发展
未来计划
Sora这个项目在未来的发展计划中,看来是打算走一条集合创意与技术于一体的道路。首先,他们想要吸引红队、视觉艺术家、设计师还有电影制作人来访问Sora,这个做法很有意思,因为这样可以从各个角度收集到反馈。这不仅可以提高Sora的技术质量,还能确保它在艺术和设计方面也能得到专业的指导和建议。
再说到计划将C2PA元数据加入到未来的部署中,这个决定也非常前瞻。C2PA元数据是用来确保内容的真实性和安全性的,这对于打击假信息和保护版权尤为重要。通过这种方式,Sora能够为用户提供一个更加可靠和安全的平台。
最后,Sora还打算和全球的政策制定者、教育工作者以及艺术家合作。这样的合作不仅能帮助Sora更好地理解各种潜在的积极用途,也能让他们对可能的担忧有所了解。这种开放和合作的态度,无疑会使Sora在未来的发展道路上走得更远,也能促进它在全球范围内的影响力和认可度。
总之,Sora的未来计划显示了他们对技术和艺术融合的高度重视,以及他们对创建一个安全、可靠且具有影响力的平台的承诺。这样的发展方向,不仅能推动技术和艺术的发展,也能对社会产生积极的影响。
总结如下:
- 让红队、视觉艺术家和设计师以及电影制作人访问Sora,以获取反馈。
- 后续计划在未来部署中加入C2PA元数据。
- 与全球的政策制定者、教育工作者和艺术家等合作,了解潜在的积极用例和关切。