【生成视频大爆发】LTX-Video：利用开源人工智能革新视频生成技术

在快速发展的生成式人工智能领域，Lightricks 大胆发布了 LTX Video (LTXV)，一个有望彻底改变视频生成的开源人工智能模型。本文将探讨此次发布的意义、对行业的影响以及它为创作者和研究人员带来的潜力。

DisonTangor

722人浏览 · 2024-11-25 07:58:46

DisonTangor · 2024-11-25 07:58:46 发布

在这里插入图片描述

简介

LTX 视频模型

LTXV 是一种突破性的视频生成模型，由 Lightricks 公司开发，该公司因其创新的照片编辑应用程序 Facetune 而闻名。LTX-Video 是首个基于 DiT 的视频生成模型，能够实时生成高质量视频。它能以比观看速度更快的速度生成分辨率为 768x512 的 24 FPS 视频。该模型在大规模的各种视频数据集上进行了训练，可生成内容逼真、丰富多彩的高分辨率视频。我们提供的模型既适用于文本到视频，也适用于图像+文本到视频的用例

开源战略

Lightricks 决定以开源方式发布 LTXV，这是一项战略举措，旨在挑战科技巨头专有人工智能系统的主导地位。通过免费提供该模型，该公司旨在促进创新和采用，让开发人员和研究人员在其能力的基础上进行开发。这种做法不禁让人想起 Meta 发布的开源 Llama 语言模型，该模型在人工智能社区广受欢迎。

速度与质量

LTXV 的突出特点之一是其快如闪电的速度。在 Nvidia 的 H100 GPU 上，该模型只需 4 秒钟就能生成 5 秒钟的视频（121 帧，分辨率为 768x512）。我希望在 RTX 4090 这样的消费级硬件上，LTXV 也能提供接近实时的性能，使其成为创作者可以使用的高效工具（这个需要等官方优化，目前测试显存溢出）。得益于其 Diffusion Transformer 架构，LTXV 在保证帧间平滑运动和结构一致性的同时，还能在不影响质量的情况下实现这一速度。

人工智能视频生成的民主化

Lightricks 的开源方法具有使人工智能视频生成民主化的潜力。通过让小型工作室、独立创作者和研究人员都能使用 LTXV，该公司使他们无需昂贵的硬件或专有系统就能创建高质量的内容。这种民主化可带来创造力和创新的激增，因为用户可以快速进行实验和迭代，为各行各业带来新的可能性。

文本生成视频

在这里插入图片描述

图像生成视频
在这里插入图片描述
视频生成视频

应用和影响

LTXV 的功能具有深远的影响。在游戏领域，它可用于提升旧游戏的图形质量，增强视觉体验。在电子商务领域，该模型的速度和效率可帮助企业创建数千种广告变体，进行有针对性的 A/B 测试，从而彻底改变营销策略。将 LTXV 整合到 Lightricks 的 LTX Studio 中有望进一步增强其功能，使用户能够精确地生成更长、更动态的视频。

我也想展示Demo可是gif均超过5MB。。。无奈