Spaces:

VeuReu
/

demo

Sleeping

App Files Files Community

VeuReu commited on Nov 10, 2025

Commit

09e41fd

1 Parent(s): f026f25

Upload 7 files

Browse files

Files changed (2) hide show

api_client.py +27 -14
page_modules/process_video.py +512 -447

api_client.py CHANGED Viewed

@@ -466,23 +466,36 @@ def describe_image_with_svision(image_path: str, is_face: bool = True) -> Tuple[
         print(f"[svision] Enviant petició (pot trigar si ZeroGPU està en cold start)...")
         print(f"[svision] Image path: {image_path}")
-        # Llamar al endpoint /describe con timeout aumentado para ZeroGPU cold start
-        # El primer request puede tardar 30-60 segundos en ZeroGPU
         import time
         start_time = time.time()
-        # IMPORTANTE: usar file() de gradio_client para enviar el archivo correctamente
-        # Ajustar max_new_tokens según el tipo (escenas más breves)
         max_tokens = 256 if is_face else 128
-        result = client.predict(
-            handle_file(image_path),  # Enviar el archivo usando el helper de gradio
-            prompt,  # texto
-            max_tokens,  # max_new_tokens (128 para escenas, 256 para caras)
-            0.7,  # temperature
-            api_name="/describe"
-        )
         elapsed = time.time() - start_time
         print(f"[svision] Resposta rebuda en {elapsed:.1f}s")

         print(f"[svision] Enviant petició (pot trigar si ZeroGPU està en cold start)...")
         print(f"[svision] Image path: {image_path}")
         import time
         start_time = time.time()
         max_tokens = 256 if is_face else 128
+        max_attempts = int(os.getenv("SVISION_MAX_ATTEMPTS", "5"))
+        wait_seconds = int(os.getenv("SVISION_RETRY_WAIT", "5"))
+        result = None
+        last_error: Exception | None = None
+        for attempt in range(1, max_attempts + 1):
+            try:
+                print(f"[svision] Attempt {attempt}/{max_attempts} (wait={wait_seconds}s)")
+                result = client.predict(
+                    handle_file(image_path),
+                    prompt,
+                    max_tokens,
+                    0.7,
+                    api_name="/describe",
+                    timeout=int(os.getenv("SVISION_TIMEOUT", "180")),
+                )
+                if result and isinstance(result, str) and result.strip():
+                    break
+                raise RuntimeError("Resposta buida de svision")
+            except Exception as exc:
+                last_error = exc
+                print(f"[svision] Error attempt {attempt}/{max_attempts}: {exc}")
+                if attempt == max_attempts:
+                    raise
+                time.sleep(wait_seconds)
+                wait_seconds = min(wait_seconds * 2, 40)
         elapsed = time.time() - start_time
         print(f"[svision] Resposta rebuda en {elapsed:.1f}s")

page_modules/process_video.py CHANGED Viewed

@@ -118,453 +118,518 @@ def _transcode_video(input_path: str, output_path: str, max_duration: int | None
         "+faststart",
         output_path,
     ]
-    result = subprocess.run(cmd, capture_output=True, text=True)
-    if result.returncode != 0:
-        raise RuntimeError(result.stderr.strip() or "ffmpeg failed")
-def render_process_video_page(api, backend_base_url: str) -> None:
-    st.header("Processar un nou clip de vídeo")
-    # Inicializar el estado de la página si no existe
-    if "video_uploaded" not in st.session_state:
-        st.session_state.video_uploaded = None
-    if "characters_detected" not in st.session_state:
-        st.session_state.characters_detected = None
-    if "audio_segments" not in st.session_state:
-        st.session_state.audio_segments = None
-    if "voice_labels" not in st.session_state:
-        st.session_state.voice_labels = None
-    if "face_labels" not in st.session_state:
-        st.session_state.face_labels = None
-    if "scene_clusters" not in st.session_state:
-        st.session_state.scene_clusters = None
-    if "scene_detection_done" not in st.session_state:
-        st.session_state.scene_detection_done = False
-    if "detect_done" not in st.session_state:
-        st.session_state.detect_done = False
-    if "casting_finalized" not in st.session_state:
-        st.session_state.casting_finalized = False
-    if "video_name_from_engine" not in st.session_state:
-        st.session_state.video_name_from_engine = None
-    if "diarization_info" not in st.session_state:
-        st.session_state.diarization_info = {}
-    if "characters_saved" not in st.session_state:
-        st.session_state.characters_saved = False
-    # --- 1. Subida del vídeo ---
-    MAX_SIZE_MB = 20
-    MAX_DURATION_S = 240  # 4 minutos
-    uploaded_file = st.file_uploader(
-        "Puja un clip de vídeo (MP4, < 20MB, < 4 minuts)",
-        type=["mp4"],
-        key="video_uploader",
-    )
-    if uploaded_file is not None:
-        # Resetear el estado si se sube un nuevo archivo
-        if st.session_state.video_uploaded is None or uploaded_file.name != st.session_state.video_uploaded.get(
-            "original_name"
-        ):
-            st.session_state.video_uploaded = {"original_name": uploaded_file.name, "status": "validating"}
-            st.session_state.characters_detected = None
-            st.session_state.characters_saved = False
-        if st.session_state.video_uploaded["status"] == "validating":
-            is_valid = True
-            if uploaded_file.size > MAX_SIZE_MB * 1024 * 1024:
-                st.error(f"El vídeo supera el límit de {MAX_SIZE_MB}MB.")
-                is_valid = False
-            if is_valid:
-                with st.spinner("Processant el vídeo..."):
-                    temp_path = Path("temp_video.mp4")
-                    with temp_path.open("wb") as f:
-                        f.write(uploaded_file.getbuffer())
-                    was_truncated = False
-                    final_video_path = None
-                    try:
-                        duration = _get_video_duration(str(temp_path))
-                        duration_unknown = False
-                        if not duration:
-                            st.warning(
-                                "No s'ha pogut obtenir la durada del vídeo. Es continuarà assumint un màxim de 4 minuts."
-                            )
-                            duration = float(MAX_DURATION_S)
-                            duration_unknown = True
-                        if is_valid:
-                            if duration > MAX_DURATION_S:
-                                was_truncated = True
-                            video_name = Path(uploaded_file.name).stem
-                            video_dir = Path("/tmp/data/videos") / video_name
-                            video_dir.mkdir(parents=True, exist_ok=True)
-                            final_video_path = video_dir / f"{video_name}.mp4"
-                            try:
-                                _transcode_video(
-                                    str(temp_path),
-                                    str(final_video_path),
-                                    MAX_DURATION_S if (was_truncated or duration_unknown) else None,
-                                )
-                            except RuntimeError as exc:
-                                st.error(f"No s'ha pogut processar el vídeo: {exc}")
-                                is_valid = False
-                        if is_valid and final_video_path is not None:
-                            st.session_state.video_uploaded.update(
-                                {
-                                    "status": "processed",
-                                    "path": str(final_video_path),
-                                    "was_truncated": was_truncated or duration_unknown,
-                                    "duration_unknown": duration_unknown,
-                                    "bytes": uploaded_file.getvalue(),
-                                    "name": uploaded_file.name,
-                                }
-                            )
-                            st.rerun()
-                    finally:
-                        if temp_path.exists():
-                            temp_path.unlink()
-    if st.session_state.video_uploaded and st.session_state.video_uploaded["status"] == "processed":
-        st.success(f"Vídeo '{st.session_state.video_uploaded['original_name']}' pujat i processat correctament.")
-        if st.session_state.video_uploaded["was_truncated"]:
-            st.warning("El vídeo s'ha truncat a 4 minuts.")
-    # --- 2. Form de detecció amb sliders ---
-    st.markdown("---")
-    with st.form("detect_form"):
-        col_btn, col_face, col_voice, col_scene = st.columns([1, 1, 1, 1])
-        with col_face:
-            st.markdown("**Cares**")
-            face_max_groups = st.slider("Límit de grups (cares)", 1, 10, 5, 1, key="face_max_groups")
-            face_min_cluster = st.slider("Mida mínima (cares)", 1, 5, 3, 1, key="face_min_cluster")
-            face_sensitivity = st.slider("Sensibilitat (cares)", 0.0, 1.0, 0.5, 0.05, key="face_sensitivity",
-                                      help="0.0 = menys clusters (més agressiu), 0.5 = balancejat, 1.0 = més clusters (més permissiu)")
-        with col_voice:
-            st.markdown("**Veus**")
-            voice_max_groups = st.slider("Límit de grups (veus)", 1, 10, 5, 1, key="voice_max_groups")
-            voice_min_cluster = st.slider("Mida mínima (veus)", 1, 5, 3, 1, key="voice_min_cluster")
-            voice_sensitivity = st.slider("Sensibilitat (veus)", 0.0, 1.0, 0.5, 0.05, key="voice_sensitivity",
-                                        help="0.0 = menys clusters (més agressiu), 0.5 = balancejat, 1.0 = més clusters (més permissiu)")
-        with col_scene:
-            st.markdown("**Escenes**")
-            scene_max_groups = st.slider("Límit de grups (escenes)", 1, 10, 3, 1, key="scene_max_groups")
-            scene_min_cluster = st.slider("Mida mínima (escenes)", 5, 20, 12, 1, key="scene_min_cluster")
-            scene_sensitivity = st.slider("Sensibilitat (escenes)", 0.0, 1.0, 0.5, 0.05, key="scene_sensitivity",
-                                        help="0.0 = menys clusters (més agressiu), 0.5 = balancejat, 1.0 = més clusters (més permissiu)")
-        with col_btn:
-            max_frames = st.number_input("Nombre de frames a processar", min_value=10, max_value=500, value=100, step=10,
-                                        help="Nombre de fotogrames equiespaciats a extreure del vídeo per detectar cares")
-            can_detect = st.session_state.video_uploaded is not None
-            submit_detect = st.form_submit_button("Detectar Personatges", disabled=not can_detect)
-            if not can_detect:
-                st.caption("📹 Necessites pujar un vídeo primer")
-        if submit_detect:
-            try:
-                v = st.session_state.video_uploaded
-                # Reset estat abans de començar
-                st.session_state.scene_clusters = None
-                st.session_state.scene_detection_done = False
-                st.session_state.detect_done = False
-                st.session_state.casting_finalized = False
-                resp = api.create_initial_casting(
-                    video_bytes=v["bytes"],
-                    video_name=v["name"],
-                    face_max_groups=face_max_groups,
-                    face_min_cluster_size=face_min_cluster,
-                    face_sensitivity=face_sensitivity,
-                    voice_max_groups=voice_max_groups,
-                    voice_min_cluster_size=voice_min_cluster,
-                    voice_sensitivity=voice_sensitivity,
-                    max_frames=max_frames,
-                )
-                if not isinstance(resp, dict) or not resp.get("job_id"):
-                    st.error("No s'ha pogut crear el job al servidor.")
-                else:
-                    job_id = resp["job_id"]
-                    with st.spinner("Processant al servidor…"):
-                        time.sleep(3)
-                        attempt, max_attempts = 0, 120
-                        progress_placeholder = st.empty()
-                        while attempt < max_attempts:
-                            stt = api.get_job(job_id)
-                            status = stt.get("status")
-                            if status in ("queued", "processing"):
-                                if attempt % 10 == 0:
-                                    elapsed_min = (attempt * 5) // 60
-                                    progress_placeholder.info(f"⏳ Processant al servidor... (~{elapsed_min} min)")
-                                time.sleep(5)
-                                attempt += 1
-                                continue
-                            if status == "failed":
-                                progress_placeholder.empty()
-                                st.error("El processament ha fallat al servidor.")
-                                break
-                            # Success
-                            res = stt.get("results", {})
-                            chars = res.get("characters", [])
-                            fl = res.get("face_labels", [])
-                            segs = res.get("audio_segments", [])
-                            vl = res.get("voice_labels", [])
-                            base_dir = res.get("base_dir")
-                            vname = os.path.basename(base_dir) if base_dir else None
-                            diar_info = res.get("diarization_info", {})
-                            st.session_state.characters_detected = chars or []
-                            st.session_state.face_labels = fl or []
-                            st.session_state.audio_segments = segs or []
-                            st.session_state.voice_labels = vl or []
-                            st.session_state.video_name_from_engine = vname
-                            st.session_state.engine_base_dir = base_dir
-                            st.session_state.diarization_info = diar_info or {}
-                            progress_placeholder.empty()
-                            if chars:
-                                st.success(f"✓ Detecció completada! Trobades {len(chars)} cares.")
-                                st.info("💡 Usa els botons '🎨 Generar descripció' a sota de cada personatge per obtenir descripcions automàtiques amb Salamandra Vision.")
-                            else:
-                                st.info("No s'han detectat cares en aquest vídeo.")
-                            # Detect scenes
-                            try:
-                                scene_out = api.detect_scenes(
-                                    video_bytes=v["bytes"],
-                                    video_name=v["name"],
-                                    max_groups=scene_max_groups,
-                                    min_cluster_size=scene_min_cluster,
-                                    scene_sensitivity=scene_sensitivity,
-                                    frame_interval_sec=0.5,
-                                )
-                                scs = scene_out.get("scene_clusters") if isinstance(scene_out, dict) else None
-                                if isinstance(scs, list):
-                                    st.session_state.scene_clusters = scs
-                                else:
-                                    st.session_state.scene_clusters = []
-                            except Exception:
-                                st.session_state.scene_clusters = []
-                            finally:
-                                st.session_state.scene_detection_done = True
-                            st.session_state.detect_done = True
-                            st.success("✅ Processament completat!")
-                            break
-                        else:
-                            progress_placeholder.empty()
-                            st.warning(f"⏱️ El servidor no ha completat el job en {max_attempts * 5 // 60} minuts.")
-            except Exception as e:
-                st.error(f"Error inesperat: {e}")
-    # --- 3. Carruseles de cares ---
-    if st.session_state.get("characters_detected") is not None:
-        st.markdown("---")
-        n_face_clusters = len(st.session_state.get("characters_detected") or [])
-        st.subheader(f"🖼️ Cares — clústers: {n_face_clusters}")
-        if n_face_clusters == 0:
-            st.info("No s'han detectat clústers de cara en aquest clip.")
-        for idx, ch in enumerate(st.session_state.characters_detected or []):
-            try:
-                folder_name = Path(ch.get("folder") or "").name
-            except Exception:
-                folder_name = ""
-            char_id = ch.get("id") or folder_name or f"char{idx+1}"
-            def _safe_key(s: str) -> str:
-                k = re.sub(r"[^0-9a-zA-Z_]+", "_", s or "")
-                return k or f"cluster_{idx+1}"
-            key_prefix = _safe_key(f"char_{idx+1}_{char_id}")
-            if f"{key_prefix}_idx" not in st.session_state:
-                st.session_state[f"{key_prefix}_idx"] = 0
-            if f"{key_prefix}_discard" not in st.session_state:
-                st.session_state[f"{key_prefix}_discard"] = set()
-            faces_all = ch.get("face_files") or ([ch.get("image_url")] if ch.get("image_url") else [])
-            faces_all = [f for f in faces_all if f]
-            discard_set = st.session_state[f"{key_prefix}_discard"]
-            faces = [f for f in faces_all if f not in discard_set]
-            if not faces:
-                st.write(f"- {idx+1}. {ch.get('name','(sense nom)')} — sense imatges seleccionades")
-                continue
-            cur = st.session_state[f"{key_prefix}_idx"]
-            if cur >= len(faces):
-                cur = 0
-            st.session_state[f"{key_prefix}_idx"] = cur
-            fname = faces[cur]
-            if fname.startswith("/files/"):
-                img_url = f"{backend_base_url}{fname}"
-            else:
-                base = ch.get("image_url") or ""
-                base_dir = "/".join((base or "/").split("/")[:-1])
-                img_url = f"{backend_base_url}{base_dir}/{fname}" if base_dir else f"{backend_base_url}{fname}"
-            st.markdown(f"**{idx+1}. {ch.get('name','(sense nom)')} — {ch.get('num_faces', 0)} cares**")
-            c1, c2 = st.columns([1, 3])
-            with c1:
-                st.image(img_url, width=150)
-                st.caption(f"Imatge {cur+1}/{len(faces)}")
-                bcol1, bcol2, bcol3 = st.columns(3)
-                with bcol1:
-                    if st.button("⬅️", key=f"prev_{key_prefix}", help="Anterior"):
-                        st.session_state[f"{key_prefix}_idx"] = (cur - 1) % len(faces)
-                        st.rerun()
-                with bcol2:
-                    if st.button("🗑️", key=f"del_{key_prefix}", help="Eliminar aquesta imatge del clúster"):
-                        st.session_state[f"{key_prefix}_discard"].add(fname)
-                        new_list = [f for f in faces if f != fname]
-                        new_idx = cur if cur < len(new_list) else 0
-                        st.session_state[f"{key_prefix}_idx"] = new_idx
-                        st.rerun()
-                with bcol3:
-                    if st.button("➡️", key=f"next_{key_prefix}", help="Següent"):
-                        st.session_state[f"{key_prefix}_idx"] = (cur + 1) % len(faces)
-                        st.rerun()
-            with c2:
-                name_key = f"{key_prefix}_name"
-                desc_key = f"{key_prefix}_desc"
-                default_name = ch.get("name", "")
-                default_desc = ch.get("description", "")
-                if default_name and (name_key not in st.session_state or not st.session_state.get(name_key)):
-                    st.session_state[name_key] = default_name
-                elif name_key not in st.session_state:
-                    st.session_state[name_key] = default_name or ""
-                if default_desc and (desc_key not in st.session_state or not st.session_state.get(desc_key)):
-                    st.session_state[desc_key] = default_desc
-                elif desc_key not in st.session_state:
-                    st.session_state[desc_key] = default_desc or ""
-                pending_desc_key = f"{key_prefix}_pending_desc"
-                pending_name_key = f"{key_prefix}_pending_name"
-                if pending_desc_key in st.session_state:
-                    if desc_key not in st.session_state:
-                        st.session_state[desc_key] = ""
-                    st.session_state[desc_key] = st.session_state[pending_desc_key]
-                    del st.session_state[pending_desc_key]
-                if pending_name_key in st.session_state:
-                    if name_key not in st.session_state:
-                        st.session_state[name_key] = ""
-                    if not st.session_state.get(name_key):
-                        st.session_state[name_key] = st.session_state[pending_name_key]
-                    del st.session_state[pending_name_key]
-                st.text_input("Nom del clúster", key=name_key)
-                st.text_area("Descripció", key=desc_key, height=80)
-                if st.button("🎨 Generar descripció amb Salamandra Vision", key=f"svision_{key_prefix}"):
-                    with st.spinner("Generant descripció..."):
-                        from api_client import describe_image_with_svision
-                        import requests as _req
-                        try:
-                            resp = _req.get(img_url, timeout=10)
-                            if resp.status_code == 200:
-                                with tempfile.NamedTemporaryFile(delete=False, suffix=".jpg") as tmp:
-                                    tmp.write(resp.content)
-                                    tmp_path = tmp.name
-                                desc, name = describe_image_with_svision(tmp_path, is_face=True)
-                                if desc:
-                                    st.session_state[pending_desc_key] = desc
-                                    st.success("✅ Descripció generada!")
-                                else:
-                                    st.warning("⚠️ No s'ha pogut generar una descripció.")
-                                if name and not st.session_state.get(name_key):
-                                    st.session_state[pending_name_key] = name
-                                os.unlink(tmp_path)
-                                st.rerun()
-                            else:
-                                st.error(f"No s'ha pogut descarregar la imatge (status: {resp.status_code})")
-                        except Exception as e:
-                            st.error(f"Error generant descripció: {e}")
-    # --- 4. Carruseles de veus ---
-    if st.session_state.get("audio_segments") is not None:
-        st.markdown("---")
-        used_names_home = []
-        used_names_dona = []
-        noms_home_all, noms_dona_all = get_all_catalan_names()
-        for ch in (st.session_state.characters_detected or []):
-            ch_name = ch.get("name", "")
-            if ch_name in noms_home_all:
-                used_names_home.append(ch_name)
-            elif ch_name in noms_dona_all:
-                used_names_dona.append(ch_name)
-        segs = st.session_state.audio_segments or []
-        vlabels = st.session_state.voice_labels or []
-        valid_indices = [i for i, l in enumerate(vlabels) if isinstance(l, int) and l >= 0]
-        clusters = {}
-        for i in valid_indices:
-            lbl = int(vlabels[i])
-            clusters.setdefault(lbl, []).append(i)
-        n_vclusters = len(clusters)
-        st.subheader(f"🎙️ Empremtes de veu — clústers: {n_vclusters}")
-        di = st.session_state.get("diarization_info") or {}
-        if isinstance(di, dict) and not di.get("diarization_ok", True):
-            st.warning("No s'ha pogut fer la diarització amb pyannote (s'ha aplicat un sol segment de reserva).")
-        if not segs:
-            st.info("No s'han detectat mostres de veu.")
-        elif n_vclusters == 0:
-            st.info("No s'han format clústers de veu.")
-        else:
-            vname = st.session_state.video_name_from_engine
-            for lbl, idxs in sorted(clusters.items(), key=lambda x: x[0]):
-                key_prefix = f"voice_{lbl:02d}"
-                if f"{key_prefix}_idx" not in st.session_state:
-                    st.session_state[f"{key_prefix}_idx"] = 0
-                if f"{key_prefix}_discard" not in st.session_state:
-                    st.session_state[f"{key_prefix}_discard"] = set()
-                discard_set = st.session_state[f"{key_prefix}_discard"]
-                files = []
-                for i in idxs:
-                    clip_local = (segs[i] or {}).get("clip_path")
-                    fname = os.path.basename(clip_local) if clip_local else None
-                    if fname:
-                        files.append(fname)
-                files = [f for f in files if f and f not in discard_set]
-                if not files:
-                    st.write(f"- SPEAKER_{lbl:02d} — sense clips seleccionats")
-                    continue
-                cur = st.session_state[f"{key_prefix}_idx"]
-                if cur >= len(files):
-                    cur = 0
-                st.session_state[f"{key_prefix}_idx"] = cur
-                fname = files[cur]
-                audio_url = f"{backend_base_url}/audio/{vname}/{fname}" if (vname and fname) else None
-                st.markdown(f"**SPEAKER_{lbl:02d} — {len(files)} clips**")
-                c1, c2 = st.columns([1, 2])
-                with c1:
-                    if audio_url:
-                        st.audio(audio_url, format="audio/wav")
-                    st.caption(f"Clip {cur+1}/{len(files)}")
-                    bcol1, bcol2, bcol3 = st.columns(3)
-                    with bcol1:
-                        if st.button("⬅️", key=f"prev_{key_prefix}", help="Anterior"):
-                            st.session_state[f"{key_prefix}_idx"] = (cur - 1) % len(files)
                             st.rerun()
                     with bcol2:
                         if st.button("🗑️", key=f"del_{key_prefix}", help="Eliminar aquest clip del clúster"):

         "+faststart",
         output_path,
     ]
+    result = subprocess.run(cmd, capture_output=True, text=True)
+    if result.returncode != 0:
+        raise RuntimeError(result.stderr.strip() or "ffmpeg failed")
+def render_process_video_page(api, backend_base_url: str) -> None:
+    st.header("Processar un nou clip de vídeo")
+    if not st.session_state.get("process_video_css_applied"):
+        st.markdown(
+            """
+            <style>
+            /* Estabilitzar carrusels per evitar vibracions de layout */
+            .stImage {
+                min-height: 200px;
+                max-height: 250px;
+                display: flex;
+                align-items: center;
+                justify-content: center;
+                overflow: hidden;
+            }
+            .stImage > img {
+                max-width: 100%;
+                height: auto;
+                object-fit: contain;
+            }
+            .stAudio {
+                min-height: 54px;
+                max-height: 80px;
+            }
+            .stCaption {
+                min-height: 20px;
+            }
+            .stTextInput > div,
+            .stTextArea > div {
+                transition: none !important;
+            }
+            .stButton button {
+                transition: background-color 0.2s, color 0.2s;
+                min-height: 38px;
+                white-space: nowrap;
+            }
+            div[data-testid="column"] > div {
+                contain: layout style;
+            }
+            [data-testid="stVerticalBlock"] > div {
+                will-change: auto;
+            }
+            </style>
+            """,
+            unsafe_allow_html=True,
+        )
+        st.session_state.process_video_css_applied = True
+    msg_detect = st.empty()
+    msg_finalize = st.empty()
+    msg_ad = st.empty()
+    # Inicializar el estado de la página si no existe
+    if "video_uploaded" not in st.session_state:
+        st.session_state.video_uploaded = None
+    if "characters_detected" not in st.session_state:
+        st.session_state.characters_detected = None
+    if "audio_segments" not in st.session_state:
+        st.session_state.audio_segments = None
+    if "voice_labels" not in st.session_state:
+        st.session_state.voice_labels = None
+    if "face_labels" not in st.session_state:
+        st.session_state.face_labels = None
+    if "scene_clusters" not in st.session_state:
+        st.session_state.scene_clusters = None
+    if "scene_detection_done" not in st.session_state:
+        st.session_state.scene_detection_done = False
+    if "detect_done" not in st.session_state:
+        st.session_state.detect_done = False
+    if "casting_finalized" not in st.session_state:
+        st.session_state.casting_finalized = False
+    if "video_name_from_engine" not in st.session_state:
+        st.session_state.video_name_from_engine = None
+    if "diarization_info" not in st.session_state:
+        st.session_state.diarization_info = {}
+    if "characters_saved" not in st.session_state:
+        st.session_state.characters_saved = False
+    # --- 1. Subida del vídeo ---
+    MAX_SIZE_MB = 20
+    MAX_DURATION_S = 240  # 4 minutos
+    uploaded_file = st.file_uploader(
+        "Puja un clip de vídeo (MP4, < 20MB, < 4 minuts)",
+        type=["mp4"],
+        key="video_uploader",
+    )
+    if uploaded_file is not None:
+        # Resetear el estado si se sube un nuevo archivo
+        if st.session_state.video_uploaded is None or uploaded_file.name != st.session_state.video_uploaded.get(
+            "original_name"
+        ):
+            st.session_state.video_uploaded = {"original_name": uploaded_file.name, "status": "validating"}
+            st.session_state.characters_detected = None
+            st.session_state.characters_saved = False
+        if st.session_state.video_uploaded["status"] == "validating":
+            is_valid = True
+            if uploaded_file.size > MAX_SIZE_MB * 1024 * 1024:
+                st.error(f"El vídeo supera el límit de {MAX_SIZE_MB}MB.")
+                is_valid = False
+            if is_valid:
+                with st.spinner("Processant el vídeo..."):
+                    temp_path = Path("temp_video.mp4")
+                    with temp_path.open("wb") as f:
+                        f.write(uploaded_file.getbuffer())
+                    was_truncated = False
+                    final_video_path = None
+                    try:
+                        duration = _get_video_duration(str(temp_path))
+                        duration_unknown = False
+                        if not duration:
+                            st.warning(
+                                "No s'ha pogut obtenir la durada del vídeo. Es continuarà assumint un màxim de 4 minuts."
+                            )
+                            duration = float(MAX_DURATION_S)
+                            duration_unknown = True
+                        if is_valid:
+                            if duration > MAX_DURATION_S:
+                                was_truncated = True
+                            video_name = Path(uploaded_file.name).stem
+                            video_dir = Path("/tmp/data/videos") / video_name
+                            video_dir.mkdir(parents=True, exist_ok=True)
+                            final_video_path = video_dir / f"{video_name}.mp4"
+                            try:
+                                _transcode_video(
+                                    str(temp_path),
+                                    str(final_video_path),
+                                    MAX_DURATION_S if (was_truncated or duration_unknown) else None,
+                                )
+                            except RuntimeError as exc:
+                                st.error(f"No s'ha pogut processar el vídeo: {exc}")
+                                is_valid = False
+                        if is_valid and final_video_path is not None:
+                            st.session_state.video_uploaded.update(
+                                {
+                                    "status": "processed",
+                                    "path": str(final_video_path),
+                                    "was_truncated": was_truncated or duration_unknown,
+                                    "duration_unknown": duration_unknown,
+                                    "bytes": uploaded_file.getvalue(),
+                                    "name": uploaded_file.name,
+                                }
+                            )
+                            st.rerun()
+                    finally:
+                        if temp_path.exists():
+                            temp_path.unlink()
+    if st.session_state.video_uploaded and st.session_state.video_uploaded["status"] == "processed":
+        st.success(f"Vídeo '{st.session_state.video_uploaded['original_name']}' pujat i processat correctament.")
+        if st.session_state.video_uploaded["was_truncated"]:
+            st.warning("El vídeo s'ha truncat a 4 minuts.")
+    # --- 2. Form de detecció amb sliders ---
+    st.markdown("---")
+    with st.form("detect_form"):
+        col_btn, col_face, col_voice, col_scene = st.columns([1, 1, 1, 1])
+        with col_face:
+            st.markdown("**Cares**")
+            face_max_groups = st.slider("Límit de grups (cares)", 1, 10, 5, 1, key="face_max_groups")
+            face_min_cluster = st.slider("Mida mínima (cares)", 1, 5, 3, 1, key="face_min_cluster")
+            face_sensitivity = st.slider("Sensibilitat (cares)", 0.0, 1.0, 0.5, 0.05, key="face_sensitivity",
+                                      help="0.0 = menys clusters (més agressiu), 0.5 = balancejat, 1.0 = més clusters (més permissiu)")
+        with col_voice:
+            st.markdown("**Veus**")
+            voice_max_groups = st.slider("Límit de grups (veus)", 1, 10, 5, 1, key="voice_max_groups")
+            voice_min_cluster = st.slider("Mida mínima (veus)", 1, 5, 3, 1, key="voice_min_cluster")
+            voice_sensitivity = st.slider("Sensibilitat (veus)", 0.0, 1.0, 0.5, 0.05, key="voice_sensitivity",
+                                        help="0.0 = menys clusters (més agressiu), 0.5 = balancejat, 1.0 = més clusters (més permissiu)")
+        with col_scene:
+            st.markdown("**Escenes**")
+            scene_max_groups = st.slider("Límit de grups (escenes)", 1, 10, 3, 1, key="scene_max_groups")
+            scene_min_cluster = st.slider("Mida mínima (escenes)", 5, 20, 12, 1, key="scene_min_cluster")
+            scene_sensitivity = st.slider("Sensibilitat (escenes)", 0.0, 1.0, 0.5, 0.05, key="scene_sensitivity",
+                                        help="0.0 = menys clusters (més agressiu), 0.5 = balancejat, 1.0 = més clusters (més permissiu)")
+        with col_btn:
+            max_frames = st.number_input("Nombre de frames a processar", min_value=10, max_value=500, value=100, step=10,
+                                        help="Nombre de fotogrames equiespaciats a extreure del vídeo per detectar cares")
+            can_detect = st.session_state.video_uploaded is not None
+            submit_detect = st.form_submit_button("Detectar Personatges", disabled=not can_detect)
+            if not can_detect:
+                st.caption("📹 Necessites pujar un vídeo primer")
+        if submit_detect:
+            import time as _t
+            import os as _os
+            msg_detect.empty()
+            msg_finalize.empty()
+            msg_ad.empty()
+            try:
+                v = st.session_state.video_uploaded
+                # Reset estat abans de començar
+                st.session_state.scene_clusters = None
+                st.session_state.scene_detection_done = False
+                st.session_state.detect_done = False
+                st.session_state.casting_finalized = False
+                resp = api.create_initial_casting(
+                    video_bytes=v["bytes"],
+                    video_name=v["name"],
+                    face_max_groups=face_max_groups,
+                    face_min_cluster_size=face_min_cluster,
+                    face_sensitivity=face_sensitivity,
+                    voice_max_groups=voice_max_groups,
+                    voice_min_cluster_size=voice_min_cluster,
+                    voice_sensitivity=voice_sensitivity,
+                    max_frames=max_frames,
+                )
+                if not isinstance(resp, dict) or not resp.get("job_id"):
+                    msg_detect.error("No s'ha pogut crear el job al servidor. Torna-ho a intentar.")
+                else:
+                    job_id = resp["job_id"]
+                    msg_detect.info(f"Job creat: {job_id}. Iniciant polling en 3s…")
+                    with st.spinner("Processant al servidor…"):
+                        _t.sleep(3)
+                        attempt, max_attempts = 0, 120
+                        progress_placeholder = st.empty()
+                        while attempt < max_attempts:
+                            stt = api.get_job(job_id)
+                            status = stt.get("status")
+                            if status in ("queued", "processing"):
+                                if attempt % 10 == 0:
+                                    elapsed_min = (attempt * 5) // 60
+                                    progress_placeholder.info(f"⏳ Processant al servidor... (~{elapsed_min} min)")
+                                _t.sleep(5)
+                                attempt += 1
+                                continue
+                            if status == "failed":
+                                progress_placeholder.empty()
+                                msg_detect.error("El processament ha fallat al servidor.")
+                                break
+                            # Success
+                            res = stt.get("results", {})
+                            chars = res.get("characters", [])
+                            fl = res.get("face_labels", [])
+                            segs = res.get("audio_segments", [])
+                            vl = res.get("voice_labels", [])
+                            base_dir = res.get("base_dir")
+                            vname = _os.path.basename(base_dir) if base_dir else None
+                            diar_info = res.get("diarization_info", {})
+                            st.session_state.characters_detected = chars or []
+                            st.session_state.face_labels = fl or []
+                            st.session_state.audio_segments = segs or []
+                            st.session_state.voice_labels = vl or []
+                            st.session_state.video_name_from_engine = vname
+                            st.session_state.engine_base_dir = base_dir
+                            st.session_state.diarization_info = diar_info or {}
+                            progress_placeholder.empty()
+                            if chars:
+                                msg_detect.success(
+                                    f"✓ Detecció completada! Trobades {len(chars)} cares.\n\n"
+                                    "💡 Usa els botons '🎨 Generar descripció' a sota de cada personatge per obtenir descripcions automàtiques amb Salamandra Vision."
+                                )
+                            else:
+                                msg_detect.info("No s'han detectat cares en aquest vídeo.")
+                            # Detect scenes
+                            try:
+                                scene_out = api.detect_scenes(
+                                    video_bytes=v["bytes"],
+                                    video_name=v["name"],
+                                    max_groups=scene_max_groups,
+                                    min_cluster_size=scene_min_cluster,
+                                    scene_sensitivity=scene_sensitivity,
+                                    frame_interval_sec=0.5,
+                                )
+                                scs = scene_out.get("scene_clusters") if isinstance(scene_out, dict) else None
+                                if isinstance(scs, list):
+                                    st.session_state.scene_clusters = scs
+                                else:
+                                    st.session_state.scene_clusters = []
+                            except Exception:
+                                st.session_state.scene_clusters = []
+                            finally:
+                                st.session_state.scene_detection_done = True
+                            st.session_state.detect_done = True
+                            msg_detect.success("✅ Processament completat!")
+                            break
+                        else:
+                            progress_placeholder.empty()
+                            msg_detect.warning(f"⏱️ El servidor no ha completat el job en {max_attempts * 5 // 60} minuts.")
+            except Exception as e:
+                msg_detect.error(f"Error inesperat: {e}")
+    # --- 3. Carruseles de cares ---
+    if st.session_state.get("characters_detected") is not None:
+        st.markdown("---")
+        n_face_clusters = len(st.session_state.get("characters_detected") or [])
+        st.subheader(f"🖼️ Cares — clústers: {n_face_clusters}")
+        if n_face_clusters == 0:
+            st.info("No s'han detectat clústers de cara en aquest clip.")
+        for idx, ch in enumerate(st.session_state.characters_detected or []):
+            try:
+                folder_name = Path(ch.get("folder") or "").name
+            except Exception:
+                folder_name = ""
+            char_id = ch.get("id") or folder_name or f"char{idx+1}"
+            def _safe_key(s: str) -> str:
+                k = re.sub(r"[^0-9a-zA-Z_]+", "_", s or "")
+                return k or f"cluster_{idx+1}"
+            key_prefix = _safe_key(f"char_{idx+1}_{char_id}")
+            if f"{key_prefix}_idx" not in st.session_state:
+                st.session_state[f"{key_prefix}_idx"] = 0
+            if f"{key_prefix}_discard" not in st.session_state:
+                st.session_state[f"{key_prefix}_discard"] = set()
+            faces_all = ch.get("face_files") or ([ch.get("image_url")] if ch.get("image_url") else [])
+            faces_all = [f for f in faces_all if f]
+            discard_set = st.session_state[f"{key_prefix}_discard"]
+            faces = [f for f in faces_all if f not in discard_set]
+            if not faces:
+                st.write(f"- {idx+1}. {ch.get('name','(sense nom)')} — sense imatges seleccionades")
+                continue
+            cur = st.session_state[f"{key_prefix}_idx"]
+            if cur >= len(faces):
+                cur = 0
+            st.session_state[f"{key_prefix}_idx"] = cur
+            fname = faces[cur]
+            if fname.startswith("/files/"):
+                img_url = f"{backend_base_url}{fname}"
+            else:
+                base = ch.get("image_url") or ""
+                base_dir = "/".join((base or "/").split("/")[:-1])
+                img_url = f"{backend_base_url}{base_dir}/{fname}" if base_dir else f"{backend_base_url}{fname}"
+            st.markdown(f"**{idx+1}. {ch.get('name','(sense nom)')} — {ch.get('num_faces', 0)} cares**")
+            c1, c2 = st.columns([1, 3])
+            with c1:
+                st.image(img_url, width=150)
+                st.caption(f"Imatge {cur+1}/{len(faces)}")
+                bcol1, bcol2, bcol3 = st.columns(3)
+                with bcol1:
+                    if st.button("⬅️", key=f"prev_{key_prefix}", help="Anterior"):
+                        st.session_state[f"{key_prefix}_idx"] = (cur - 1) % len(faces)
+                        st.rerun()
+                with bcol2:
+                    if st.button("🗑️", key=f"del_{key_prefix}", help="Eliminar aquesta imatge del clúster"):
+                        st.session_state[f"{key_prefix}_discard"].add(fname)
+                        new_list = [f for f in faces if f != fname]
+                        new_idx = cur if cur < len(new_list) else 0
+                        st.session_state[f"{key_prefix}_idx"] = new_idx
+                        st.rerun()
+                with bcol3:
+                    if st.button("➡️", key=f"next_{key_prefix}", help="Següent"):
+                        st.session_state[f"{key_prefix}_idx"] = (cur + 1) % len(faces)
+                        st.rerun()
+            with c2:
+                name_key = f"{key_prefix}_name"
+                desc_key = f"{key_prefix}_desc"
+                default_name = ch.get("name", "")
+                default_desc = ch.get("description", "")
+                if default_name and (name_key not in st.session_state or not st.session_state.get(name_key)):
+                    st.session_state[name_key] = default_name
+                elif name_key not in st.session_state:
+                    st.session_state[name_key] = default_name or ""
+                if default_desc and (desc_key not in st.session_state or not st.session_state.get(desc_key)):
+                    st.session_state[desc_key] = default_desc
+                elif desc_key not in st.session_state:
+                    st.session_state[desc_key] = default_desc or ""
+                pending_desc_key = f"{key_prefix}_pending_desc"
+                pending_name_key = f"{key_prefix}_pending_name"
+                if pending_desc_key in st.session_state:
+                    if desc_key not in st.session_state:
+                        st.session_state[desc_key] = ""
+                    st.session_state[desc_key] = st.session_state[pending_desc_key]
+                    del st.session_state[pending_desc_key]
+                if pending_name_key in st.session_state:
+                    if name_key not in st.session_state:
+                        st.session_state[name_key] = ""
+                    if not st.session_state.get(name_key):
+                        st.session_state[name_key] = st.session_state[pending_name_key]
+                    del st.session_state[pending_name_key]
+                st.text_input("Nom del clúster", key=name_key)
+                st.text_area("Descripció", key=desc_key, height=80)
+                if st.button("🎨 Generar descripció amb Salamandra Vision", key=f"svision_{key_prefix}"):
+                    with st.spinner("Generant descripció..."):
+                        from api_client import describe_image_with_svision
+                        import requests as _req
+                        try:
+                            resp = _req.get(img_url, timeout=10)
+                            if resp.status_code == 200:
+                                with tempfile.NamedTemporaryFile(delete=False, suffix=".jpg") as tmp:
+                                    tmp.write(resp.content)
+                                    tmp_path = tmp.name
+                                desc, name = describe_image_with_svision(tmp_path, is_face=True)
+                                if desc:
+                                    st.session_state[pending_desc_key] = desc
+                                    st.success("✅ Descripció generada!")
+                                else:
+                                    st.warning("⚠️ No s'ha pogut generar una descripció.")
+                                if name and not st.session_state.get(name_key):
+                                    st.session_state[pending_name_key] = name
+                                os.unlink(tmp_path)
+                                st.rerun()
+                            else:
+                                st.error(f"No s'ha pogut descarregar la imatge (status: {resp.status_code})")
+                        except Exception as e:
+                            st.error(f"Error generant descripció: {e}")
+    # --- 4. Carruseles de veus ---
+    if st.session_state.get("audio_segments") is not None:
+        st.markdown("---")
+        used_names_home = []
+        used_names_dona = []
+        noms_home_all, noms_dona_all = get_all_catalan_names()
+        for ch in (st.session_state.characters_detected or []):
+            ch_name = ch.get("name", "")
+            if ch_name in noms_home_all:
+                used_names_home.append(ch_name)
+            elif ch_name in noms_dona_all:
+                used_names_dona.append(ch_name)
+        segs = st.session_state.audio_segments or []
+        vlabels = st.session_state.voice_labels or []
+        valid_indices = [i for i, l in enumerate(vlabels) if isinstance(l, int) and l >= 0]
+        clusters = {}
+        for i in valid_indices:
+            lbl = int(vlabels[i])
+            clusters.setdefault(lbl, []).append(i)
+        n_vclusters = len(clusters)
+        st.subheader(f"🎙️ Empremtes de veu — clústers: {n_vclusters}")
+        di = st.session_state.get("diarization_info") or {}
+        if isinstance(di, dict) and not di.get("diarization_ok", True):
+            st.warning("No s'ha pogut fer la diarització amb pyannote (s'ha aplicat un sol segment de reserva).")
+        if not segs:
+            st.info("No s'han detectat mostres de veu.")
+        elif n_vclusters == 0:
+            st.info("No s'han format clústers de veu.")
+        else:
+            vname = st.session_state.video_name_from_engine
+            for lbl, idxs in sorted(clusters.items(), key=lambda x: x[0]):
+                key_prefix = f"voice_{lbl:02d}"
+                if f"{key_prefix}_idx" not in st.session_state:
+                    st.session_state[f"{key_prefix}_idx"] = 0
+                if f"{key_prefix}_discard" not in st.session_state:
+                    st.session_state[f"{key_prefix}_discard"] = set()
+                discard_set = st.session_state[f"{key_prefix}_discard"]
+                files = []
+                for i in idxs:
+                    clip_local = (segs[i] or {}).get("clip_path")
+                    fname = os.path.basename(clip_local) if clip_local else None
+                    if fname:
+                        files.append(fname)
+                files = [f for f in files if f and f not in discard_set]
+                if not files:
+                    st.write(f"- SPEAKER_{lbl:02d} — sense clips seleccionats")
+                    continue
+                cur = st.session_state[f"{key_prefix}_idx"]
+                if cur >= len(files):
+                    cur = 0
+                st.session_state[f"{key_prefix}_idx"] = cur
+                fname = files[cur]
+                audio_url = f"{backend_base_url}/audio/{vname}/{fname}" if (vname and fname) else None
+                st.markdown(f"**SPEAKER_{lbl:02d} — {len(files)} clips**")
+                c1, c2 = st.columns([1, 2])
+                with c1:
+                    if audio_url:
+                        st.audio(audio_url, format="audio/wav")
+                    st.caption(f"Clip {cur+1}/{len(files)}")
+                    bcol1, bcol2, bcol3 = st.columns(3)
+                    with bcol1:
+                        if st.button("⬅️", key=f"prev_{key_prefix}", help="Anterior"):
+                            st.session_state[f"{key_prefix}_idx"] = (cur - 1) % len(files)
                             st.rerun()
                     with bcol2:
                         if st.button("🗑️", key=f"del_{key_prefix}", help="Eliminar aquest clip del clúster"):