FramePack, yalnızca 6GB VRAM’e sahip ekran kartlarıyla 60 saniyelik yapay zeka videoları oluşturmayı mümkün hale getiriyor. FramePack, sabit uzunlukta zamansal bağlam kullanan bir video difüzyon yöntemi sayesinde hesaplama yükünü azaltıyor ve yeni sistemle birlikte 13 milyar parametreli bir model, sadece 6 GB video belleği kullanarak 60 saniyelik bir video klibi oluşturabiliyor.
FramePack – Nasıl çalışıyor?
FramePack, yapay zekâ destekli video üretiminde kullanılan geleneksel difüzyon modellerine göre daha verimli bir çözüm sunmayı amaçlıyor. Normalde difüzyon sistemleri, her bir kareyi bir öncekinden biraz daha az gürültülü hâle getirerek tahmin ettiği için, süreçte çok sayıda önceki kareyi hesaba katmak için geniş VRAM kapasitesine ihtiyaç duyuyor. 12 GB VRAM, bu tarz modellerde genellikle asgari sınır olarak kabul ediliyor. Daha az bellekle çalışmak mümkün olsa da bu, kalite kaybı, kısa video süresi ve uzun işlem süresi gibi dezavantajları beraberinde getiriyor.
FramePack’in getirdiği yenilik, tüm giriş karelerinin sabit bir bağlam uzunluğuna sıkıştırılmasından ibaret. Bu sıkıştırma, her karenin önem düzeyine göre yapılıyor ve sistemin toplam belleğe olan ihtiyacını ciddi ölçüde azaltıyor. Hesaplama yükü açısından sistemin görüntü difüzyon modellerine benzer düzeyde çalıştığı belirtiliyor. Kalitenin uzun videolarda zamanla bozulmasını ifade eden “drifting” sorunu da, bu mimaride çeşitli tekniklerle azaltılmış durumda.
FramePack, şu anda FP16 ve BF16 veri biçimlerini destekleyen RTX 30, 40 ve 50 serisi ekran kartlarıyla uyumlu. Turing mimarisi ve daha eski NVIDIA modelleriyle uyumluluk ise henüz test edilmiş değil. Aynı şekilde AMD ve Intel ekran kartları için de destek bilgisi bilinmiyor. İşletim sistemi tarafında ise Linux desteği mevcut.
Bugün piyasada bulunan RTX 3050 4 GB modeli dışında çoğu modern ekran kartı minimum 6 GB VRAM gereksinimini karşılıyor. RTX 4090 gibi yüksek donanımlı sistemlerde, teacache optimizasyonu kullanıldığında saniyede yaklaşık 0.6 kare üretilebiliyor. Her kare üretildikçe anında görüntülenebildiği için kullanıcılar gerçek zamanlı ilerleme takibi yapabiliyor.
Modelin 30 FPS sınırlamasına sahip olması, bazı kullanıcılar için kısıtlayıcı olabilir. Buna rağmen FramePack, pahalı hizmet sağlayıcılarına ihtiyaç duymadan bireysel kullanıcıların da yapay zekâ destekli video içerikleri üretebilmesinin önünü açıyor. Teknik bilgiye sahip olmasa bile, bu sistemle kullanıcılar GIF, meme ya da basit video üretimleri yapabilecek seviyeye gelebiliyor.