Spaces:

VeuReu
/

demo

Sleeping

App Files Files Community

VeuReu commited on Nov 25, 2025

Commit

0aa5080

1 Parent(s): 4ec5881

Upload 6 files

Browse files

Files changed (2) hide show

api_client.py +11 -19
page_modules/process_video.py +11 -9

api_client.py CHANGED Viewed

@@ -602,18 +602,14 @@ def describe_image_with_svision(image_path: str, is_face: bool = True) -> Tuple[
     try:
         from gradio_client import Client, handle_file
-        # Conectar al space svision con timeout generoso para cold start de ZeroGPU
         svision_url = os.getenv("SVISION_URL", "https://veureu-svision.hf.space")
         print(f"[svision] Connectant a {svision_url}...")
-        # Autenticar con HuggingFace token para obtener más cuota de ZeroGPU
-        hf_token = os.getenv("HF_TOKEN")
-        if hf_token:
-            client = Client(svision_url, hf_token=hf_token)
-            print(f"[svision] Autenticat amb token HF")
-        else:
-            client = Client(svision_url)
-            print(f"[svision] Sense autenticació (cuota limitada)")
         # Preparar prompt según el tipo
         if is_face:
@@ -759,15 +755,11 @@ def generate_short_scene_name(description: str) -> str:
         # URL del space schat
         schat_url = os.getenv("SCHAT_URL", "https://veureu-schat.hf.space")
         print(f"[schat] Connectant a {schat_url}...")
-        # Autenticar con HuggingFace token
-        hf_token = os.getenv("HF_TOKEN")
-        if hf_token:
-            client = Client(schat_url, hf_token=hf_token)
-            print(f"[schat] Autenticat amb token HF")
-        else:
-            client = Client(schat_url)
-            print(f"[schat] Sense autenticació")
         # Preparar prompt
         prompt = f"Basant-te en aquesta descripció d'una escena, genera un nom curt de menys de 3 paraules que la resumeixi:\n\n{description}\n\nNom de l'escena:"

     try:
         from gradio_client import Client, handle_file
+        # Conectar al space svision con timeout generoso per al cold start de ZeroGPU
         svision_url = os.getenv("SVISION_URL", "https://veureu-svision.hf.space")
         print(f"[svision] Connectant a {svision_url}...")
+        # La versió actual de gradio_client al Space no accepta el paràmetre hf_token al constructor.
+        # Confiem en la configuració d'entorn del Space per a l'autenticació (si s'escau).
+        client = Client(svision_url)
+        print("[svision] Client creat (sense hf_token explícit)")
         # Preparar prompt según el tipo
         if is_face:
         # URL del space schat
         schat_url = os.getenv("SCHAT_URL", "https://veureu-schat.hf.space")
         print(f"[schat] Connectant a {schat_url}...")
+        # La versió actual de gradio_client al Space no accepta el paràmetre hf_token.
+        # Confiem en la configuració d'entorn per a l'autenticació si és necessari.
+        client = Client(schat_url)
+        print("[schat] Client creat (sense hf_token explícit)")
         # Preparar prompt
         prompt = f"Basant-te en aquesta descripció d'una escena, genera un nom curt de menys de 3 paraules que la resumeixi:\n\n{description}\n\nNom de l'escena:"

page_modules/process_video.py CHANGED Viewed

@@ -1066,19 +1066,21 @@ def render_process_video_page(api, backend_base_url: str) -> None:
                 voice_clusters = {}
                 for i, seg in enumerate(segs):
                     lbl = vlabels[i] if i < len(vlabels) else -1
                     clip_local = seg.get("clip_path")
                     fname = os.path.basename(clip_local) if clip_local else None
                     if fname:
-                        default_voice_name = get_catalan_name_for_speaker(int(lbl), used_names_home_fin, used_names_dona_fin) if isinstance(lbl, int) and lbl >= 0 else "UNKNOWN"
                         voice_clusters.setdefault(lbl, {"label": lbl, "name": default_voice_name, "description": "", "clips": []})
-                        if isinstance(lbl, int) and lbl >= 0:
-                            vpref = f"voice_{int(lbl):02d}"
-                            vname_custom = st.session_state.get(f"{vpref}_name")
-                            vdesc_custom = st.session_state.get(f"{vpref}_desc")
-                            if vname_custom:
-                                voice_clusters[lbl]["name"] = vname_custom
-                            if vdesc_custom is not None:
-                                voice_clusters[lbl]["description"] = vdesc_custom
                         voice_clusters[lbl]["clips"].append(fname)
                 payload = {

                 voice_clusters = {}
                 for i, seg in enumerate(segs):
                     lbl = vlabels[i] if i < len(vlabels) else -1
+                    # Només considerem clústers de veu amb etiqueta vàlida (enter >= 0)
+                    if not (isinstance(lbl, int) and lbl >= 0):
+                        continue
                     clip_local = seg.get("clip_path")
                     fname = os.path.basename(clip_local) if clip_local else None
                     if fname:
+                        default_voice_name = get_catalan_name_for_speaker(int(lbl), used_names_home_fin, used_names_dona_fin)
                         voice_clusters.setdefault(lbl, {"label": lbl, "name": default_voice_name, "description": "", "clips": []})
+                        vpref = f"voice_{int(lbl):02d}"
+                        vname_custom = st.session_state.get(f"{vpref}_name")
+                        vdesc_custom = st.session_state.get(f"{vpref}_desc")
+                        if vname_custom:
+                            voice_clusters[lbl]["name"] = vname_custom
+                        if vdesc_custom is not None:
+                            voice_clusters[lbl]["description"] = vdesc_custom
                         voice_clusters[lbl]["clips"].append(fname)
                 payload = {