在这里插入图片描述

简介

在快速发展的生成式人工智能领域,Lightricks 大胆发布了 LTX Video (LTXV),一个有望彻底改变视频生成的开源人工智能模型。本文将探讨此次发布的意义、对行业的影响以及它为创作者和研究人员带来的潜力。

LTX 视频模型

LTXV 是一种突破性的视频生成模型,由 Lightricks 公司开发,该公司因其创新的照片编辑应用程序 Facetune 而闻名。LTX-Video 是首个基于 DiT 的视频生成模型,能够实时生成高质量视频。它能以比观看速度更快的速度生成分辨率为 768x512 的 24 FPS 视频。该模型在大规模的各种视频数据集上进行了训练,可生成内容逼真、丰富多彩的高分辨率视频。我们提供的模型既适用于文本到视频,也适用于图像+文本到视频的用例

开源战略

Lightricks 决定以开源方式发布 LTXV,这是一项战略举措,旨在挑战科技巨头专有人工智能系统的主导地位。通过免费提供该模型,该公司旨在促进创新和采用,让开发人员和研究人员在其能力的基础上进行开发。这种做法不禁让人想起 Meta 发布的开源 Llama 语言模型,该模型在人工智能社区广受欢迎。

速度与质量

LTXV 的突出特点之一是其快如闪电的速度。在 Nvidia 的 H100 GPU 上,该模型只需 4 秒钟就能生成 5 秒钟的视频(121 帧,分辨率为 768x512)。我希望在 RTX 4090 这样的消费级硬件上,LTXV 也能提供接近实时的性能,使其成为创作者可以使用的高效工具(这个需要等官方优化,目前测试显存溢出)。得益于其 Diffusion Transformer 架构,LTXV 在保证帧间平滑运动和结构一致性的同时,还能在不影响质量的情况下实现这一速度。

人工智能视频生成的民主化

Lightricks 的开源方法具有使人工智能视频生成民主化的潜力。通过让小型工作室、独立创作者和研究人员都能使用 LTXV,该公司使他们无需昂贵的硬件或专有系统就能创建高质量的内容。这种民主化可带来创造力和创新的激增,因为用户可以快速进行实验和迭代,为各行各业带来新的可能性。

文本生成视频

在这里插入图片描述

图像生成视频
在这里插入图片描述
视频生成视频
在这里插入图片描述

应用和影响

LTXV 的功能具有深远的影响。在游戏领域,它可用于提升旧游戏的图形质量,增强视觉体验。在电子商务领域,该模型的速度和效率可帮助企业创建数千种广告变体,进行有针对性的 A/B 测试,从而彻底改变营销策略。将 LTXV 整合到 Lightricks 的 LTX Studio 中有望进一步增强其功能,使用户能够精确地生成更长、更动态的视频。

我也想展示Demo可是gif均超过5MB。。。无奈

结论

Lightricks 发布 LTX-Video 是向开放和协作式人工智能开发迈出的重要一步。通过免费提供其先进技术,该公司挑战了现状,并鼓励以社区为导向的人工智能创新方法。随着人工智能视频生成竞赛的白热化,LTXV 的开源性质可能是释放其全部潜力和塑造这一激动人心领域未来的关键。

https://huggingface.co/Lightricks/LTX-Video
https://github.com/Lightricks/ComfyUI-LTXVideo/
https://github.com/Lightricks/LTX-Video

感谢大家花时间阅读我的文章,你们的支持是我不断前进的动力。点赞并关注,获取最新科技动态,不落伍!🤗🤗🤗

Logo

为开发者提供按需使用的算力基础设施。

更多推荐