Spaces:

rahul7star
/

Image2Video

Paused

rahul7star commited on 15 days ago

Commit

d18408d

verified ·

1 Parent(s): 342566d

Update app_quant_latent.py

Files changed (1) hide show

app_quant_latent.py CHANGED Viewed

@@ -705,15 +705,23 @@ def generate_image(prompt, height, width, steps, seed, guidance_scale=0.0):
         latents = latents.float()
         num_previews = min(10, steps)
-        preview_steps = torch.linspace(0, 1, num_previews)
-        for alpha in preview_steps:
             try:
                 with torch.no_grad():
-                    preview_latent = latents * alpha + latents * 0  # simple progression
-                    preview_latent = preview_latent.to(pipe.vae.device).to(pipe.vae.dtype)
-                    decoded = pipe.vae.decode(preview_latent, return_dict=False)[0]
                     decoded = (decoded / 2 + 0.5).clamp(0, 1)
                     decoded = decoded.cpu().permute(0, 2, 3, 1).float().numpy()
                     decoded = (decoded * 255).round().astype("uint8")
@@ -726,7 +734,7 @@ def generate_image(prompt, height, width, steps, seed, guidance_scale=0.0):
             latent_gallery.append(latent_img)
             # Keep last 5 latents
-            last_latents.append(preview_latent.cpu().clone())
             if len(last_latents) > 5:
                 last_latents.pop(0)

         latents = latents.float()
         num_previews = min(10, steps)
+        preview_indices = torch.linspace(0, steps - 1, num_previews).long()
+        # clone latents for preview
+        preview_latents = latents.clone()
+        for i, step_idx in enumerate(preview_indices):
             try:
                 with torch.no_grad():
+                    # --- Denoising step simulation ---
+                    noise_scale = 1.0 - (i / num_previews)
+                    preview_latent_step = preview_latents + torch.randn_like(preview_latents) * noise_scale
+                    # move to VAE device and match dtype
+                    preview_latent_step = preview_latent_step.to(pipe.vae.device).to(pipe.vae.dtype)
+                    # decode latent to image
+                    decoded = pipe.vae.decode(preview_latent_step, return_dict=False)[0]
                     decoded = (decoded / 2 + 0.5).clamp(0, 1)
                     decoded = decoded.cpu().permute(0, 2, 3, 1).float().numpy()
                     decoded = (decoded * 255).round().astype("uint8")
             latent_gallery.append(latent_img)
             # Keep last 5 latents
+            last_latents.append(preview_latent_step.cpu().clone())
             if len(last_latents) > 5:
                 last_latents.pop(0)