Spaces:

VeuReu
/

demo

Running

App Files Files Community

VeuReu commited on Nov 1

Commit

0476e3d

1 Parent(s): c2f0391

Upload 2 files

Browse files

Files changed (2) hide show

api_client.py +23 -6
app.py +2 -2

api_client.py CHANGED Viewed

@@ -482,31 +482,48 @@ def describe_image_with_svision(image_path: str, is_face: bool = True) -> Tuple[
         full_description = result.strip() if result else ""
-        # Limpiar prefijos no deseados de forma más agresiva
         # Lista de prefijos comunes que aparecen
         prefixes_to_remove = [
             "user:", "user ", "user\n", "user\t",
-            "assistant:", "assistant ", "assistant\n",
             "User:", "User ", "User\n",
             "Assistant:", "Assistant ", "Assistant\n",
             "system:", "system ",
         ]
         # Intentar limpiar múltiples veces por si hay varios prefijos
-        cleaned = False
-        for _ in range(3):  # Máximo 3 iteraciones
             original = full_description
             for prefix in prefixes_to_remove:
                 if full_description.lower().startswith(prefix.lower()):
                     full_description = full_description[len(prefix):].strip()
-                    cleaned = True
                     break
             if original == full_description:
                 break  # No hubo cambios, salir
-        # Limpiar espacios en blanco múltiples y saltos de línea al inicio
         full_description = full_description.lstrip()
         if not full_description:
             return ("", "")

         full_description = result.strip() if result else ""
+        # PASO 1: Eliminar el prompt original que puede aparecer en la respuesta
+        prompt_markers = [
+            "Descriu aquesta persona. Inclou: edat aproximada (jove/adult), gènere, característiques físiques notables (ulleres, barba, bigoti, etc.), expressió i vestimenta.",
+            "Descriu aquesta escena. Inclou: tipus de localització (interior/exterior), elements principals, ambient, il·luminació.",
+            "Descriu aquesta persona.",
+            "Descriu aquesta escena.",
+        ]
+        for marker in prompt_markers:
+            if marker in full_description:
+                # Eliminar el prompt y todo lo que esté antes
+                parts = full_description.split(marker, 1)
+                if len(parts) > 1:
+                    full_description = parts[1].strip()
+        # PASO 2: Limpiar prefijos no deseados de forma más agresiva
         # Lista de prefijos comunes que aparecen
         prefixes_to_remove = [
             "user:", "user ", "user\n", "user\t",
+            "assistant:", "assistant ", "assistant\n", "assistant\t",
             "User:", "User ", "User\n",
             "Assistant:", "Assistant ", "Assistant\n",
             "system:", "system ",
         ]
         # Intentar limpiar múltiples veces por si hay varios prefijos
+        for _ in range(5):  # Máximo 5 iteraciones
             original = full_description
             for prefix in prefixes_to_remove:
                 if full_description.lower().startswith(prefix.lower()):
                     full_description = full_description[len(prefix):].strip()
                     break
             if original == full_description:
                 break  # No hubo cambios, salir
+        # PASO 3: Limpiar espacios en blanco múltiples y saltos de línea al inicio
         full_description = full_description.lstrip()
+        # PASO 4: Si empieza con salto de línea o tabulación, limpiar
+        while full_description and full_description[0] in ['\n', '\t', '\r', ' ']:
+            full_description = full_description[1:]
         if not full_description:
             return ("", "")

app.py CHANGED Viewed

@@ -402,11 +402,11 @@ if page == "Processar vídeo nou":
         col_btn, col_face, col_voice, col_scene = st.columns([1, 1, 1, 1])
         with col_face:
             st.markdown("**Cares**")
-            face_max_groups = st.slider("Límit de grups (cares)", 1, 10, 3, 1, key="face_max_groups")
             face_min_cluster = st.slider("Mida mínima (cares)", 1, 5, 3, 1, key="face_min_cluster")
         with col_voice:
             st.markdown("**Veus**")
-            voice_max_groups = st.slider("Límit de grups (veus)", 1, 10, 3, 1, key="voice_max_groups")
             voice_min_cluster = st.slider("Mida mínima (veus)", 1, 5, 3, 1, key="voice_min_cluster")
         with col_scene:
             st.markdown("**Escenes**")

         col_btn, col_face, col_voice, col_scene = st.columns([1, 1, 1, 1])
         with col_face:
             st.markdown("**Cares**")
+            face_max_groups = st.slider("Límit de grups (cares)", 1, 10, 5, 1, key="face_max_groups")
             face_min_cluster = st.slider("Mida mínima (cares)", 1, 5, 3, 1, key="face_min_cluster")
         with col_voice:
             st.markdown("**Veus**")
+            voice_max_groups = st.slider("Límit de grups (veus)", 1, 10, 5, 1, key="voice_max_groups")
             voice_min_cluster = st.slider("Mida mínima (veus)", 1, 5, 3, 1, key="voice_min_cluster")
         with col_scene:
             st.markdown("**Escenes**")