从Luma AI官方放出的视频看,Dream Machine生成视频的质量颇高。例如,眼部特写可看清眼球中变幻的色彩,老虎在雪地中行走动作自然,脸部特写光影斑驳、镜头移动自然,人物动作衔接流畅。已有网友在社交平台上放出用Dream Machine制作的视频,画面看上去颇为真实,例如,北极熊在野外行走时毛发自然,沙漠中的汽车扬起沙粒。
据Luma AI官网介绍,Dream Machine可生成120秒120帧的视频。Luma AI同时指出Dream Machine的限制所在,包括画面中动作还会变形,主体运动动作不够合理等,例如一条狗在路上行走时脚不沾地、北极熊的头更换了位置。目前,免费用户每个月可生成30次视频,付费用户一个月有120~2000次机会生成视频,一个月收费29.99~499.99美元。
Luma AI成立于2021年,创始人兼CEO Amit Jain曾是苹果计算机视觉工程师,联合创始人Alex Yu毕业于加州大学伯克利分校。Luma AI经历多轮融资,A轮融资筹集了2000万美元,英伟达投资部门参与了此轮融资。B轮融资筹集金额4300万美元,英伟达、风投机构Andreessen Horowitz参与了此轮融资。2023年,Luma AI曾推出一款名为Genie的工具,用于将2D图片生成3D模型。
文生视频、文生图领域进展近日有所加快。当地时间6月12日,Stability AI开源了Stable Diffusion 3 Medium。Stability AI称,该模型是Stable Diffusion 3系列中最新、最先进的文本转图像模型,有20亿参数,在非商业情况下可免费试用,商用场景下面向艺术家、设计师等提供创作者许可证。Stable Diffusion 3采用与Sora相同的底层架构DiT(融合了Transformer和Diffusion)。文生图和视频生成模型迈向成熟的一个关键是,技术路线都朝着Transformer+Diffusion的方向演进,相比Diffusion,Transformer+Diffusion可实现较好的扩展性。从文生图到视频生成模型则存在一定的演进关系。
与Luma AI相似,国内AI创业企业生数科技在进入视频生成领域前聚焦的方向也是3D,其选择的技术路径也是融合Transformer和Diffusion的U-ViT框架。除了Stable Diffusion 3 Medium开源,5月腾讯也开源了DiT架构的混元文生图模型Hunyuan-DiT。