Spaces:

VeuReu
/

demo

Running

App Files Files Community

VeuReu commited on Oct 27

Commit

048c619

1 Parent(s): 153f06f

Upload 5 files

Browse files

Files changed (3) hide show

app.py +183 -22
scripts/client_example.py +33 -0
sources/UNE-153020.txt +73 -0

app.py CHANGED Viewed

@@ -507,33 +507,194 @@ if page == "Processar vídeo nou":
                 # ]
                 # st.session_state.characters_saved = False
-    # --- 3. Formularios de personajes ---
     if st.session_state.characters_detected:
-        st.subheader("Personatges detectats")
-        for char in st.session_state.characters_detected:
-            with st.form(key=f"form_{char['id']}"):
-                col1, col2 = st.columns(2)
                 with col1:
-                    st.image(char['image_path'], width=150)
                 with col2:
-                    st.caption(char['description'])
-                    st.text_input("Nom del personatge", key=f"name_{char['id']}")
-                    st.form_submit_button("Cercar")
-        st.markdown("---_**")
-        # --- 4. Guardar y Generar ---
-        col1, col2, col3 = st.columns([1,1,2])
-        with col1:
-            if st.button("Desar", type="primary"):
-                # Aquí iría la lógica para guardar los nombres de los personajes
-                st.session_state.characters_saved = True
-                st.success("Personatges desats correctament.")
-        with col2:
-            if st.session_state.characters_saved:
-                st.button("Generar Audiodescripció")
 elif page == "Analitzar audio-descripcions":
     require_login()

                 # ]
                 # st.session_state.characters_saved = False
+    # --- 3. Formularios de personajes (apilados) ---
     if st.session_state.characters_detected:
+        st.markdown("---")
+        st.subheader(f"📋 Personatges detectats: {len(st.session_state.characters_detected)}")
+        st.info("Edita cada personatge i confirma el fine-tuning manual al final. Els personatges amb el mateix nom es fusionaran.")
+        # Inicializar datos de personajes si no existe
+        if 'character_data' not in st.session_state:
+            st.session_state.character_data = {}
+            # Inicializar con datos por defecto
+            for char in st.session_state.characters_detected:
+                char_id = char['id']
+                st.session_state.character_data[char_id] = {
+                    'name': char.get('name', ''),
+                    'description': '',
+                    'selected_faces': list(range(char.get('num_faces', 0))),  # Todas seleccionadas por defecto
+                    'selected_voices': [],  # Por ahora vacío
+                    'current_face_idx': 0,
+                    'current_voice_idx': 0
+                }
+        # Mostrar formulario para cada personaje
+        for idx, char in enumerate(st.session_state.characters_detected):
+            char_id = char['id']
+            char_data = st.session_state.character_data[char_id]
+            # Contenedor con borde para cada personaje
+            with st.container():
+                st.markdown(f"### Personatge {idx + 1}: {char_data['name'] or char_id}")
+                col1, col2 = st.columns([1, 1])
+                # --- Columna 1: Visualizadores ---
                 with col1:
+                    # Visualizador de caras
+                    st.markdown("**🖼️ Mostres de cara:**")
+                    num_faces = char.get('num_faces', 0)
+                    if num_faces > 0 and char_data['selected_faces']:
+                        current_face_idx = char_data['current_face_idx']
+                        selected_faces = char_data['selected_faces']
+                        # Navegación de caras
+                        col_nav1, col_nav2, col_nav3, col_nav4 = st.columns([1, 2, 1, 1])
+                        with col_nav1:
+                            if st.button("◀", key=f"face_prev_{char_id}", disabled=(current_face_idx == 0)):
+                                st.session_state.character_data[char_id]['current_face_idx'] = max(0, current_face_idx - 1)
+                                st.rerun()
+                        with col_nav2:
+                            st.caption(f"Cara {current_face_idx + 1} de {len(selected_faces)}")
+                        with col_nav3:
+                            if st.button("▶", key=f"face_next_{char_id}", disabled=(current_face_idx >= len(selected_faces) - 1)):
+                                st.session_state.character_data[char_id]['current_face_idx'] = min(len(selected_faces) - 1, current_face_idx + 1)
+                                st.rerun()
+                        with col_nav4:
+                            if st.button("❌", key=f"face_delete_{char_id}", disabled=(len(selected_faces) <= 1)):
+                                # Eliminar cara actual
+                                face_to_remove = selected_faces[current_face_idx]
+                                st.session_state.character_data[char_id]['selected_faces'].remove(face_to_remove)
+                                st.session_state.character_data[char_id]['current_face_idx'] = min(current_face_idx, len(selected_faces) - 2)
+                                st.rerun()
+                        # Mostrar imagen de la cara actual
+                        if 'folder' in char:
+                            try:
+                                # Construir URL de la cara
+                                face_filename = f"face_{selected_faces[current_face_idx]:03d}.jpg"
+                                face_url = f"{BACKEND_BASE_URL}/files/{st.session_state.video_name}/{char_id}/{face_filename}"
+                                st.image(face_url, width=250)
+                            except Exception as e:
+                                st.info(f"Imatge no disponible: {e}")
+                    else:
+                        st.info("No hi ha mostres de cara")
+                    st.markdown("---")
+                    # Visualizador de voces
+                    st.markdown("**🎤 Mostres de veu:**")
+                    st.info("🚧 Funcionalitat de veu en desenvolupament")
+                    # TODO: Implementar visualizador de voces similar al de caras
+                # --- Columna 2: Datos del personaje ---
                 with col2:
+                    st.markdown("**📝 Informació del personatge:**")
+                    # Nombre del personaje
+                    char_name = st.text_input(
+                        "Nom del personatge:",
+                        value=char_data['name'],
+                        key=f"name_input_{char_id}",
+                        placeholder="Ex: Maria, Joan, etc.",
+                        help="Personatges amb el mateix nom es fusionaran"
+                    )
+                    # Actualizar nombre en tiempo real
+                    if char_name != char_data['name']:
+                        st.session_state.character_data[char_id]['name'] = char_name
+                    # Descripción
+                    char_description = st.text_area(
+                        "Descripció (text lliure):",
+                        value=char_data['description'],
+                        key=f"desc_input_{char_id}",
+                        placeholder="Ex: Dona d'uns 30 anys, cabell ros, ulleres...",
+                        height=150
+                    )
+                    # Actualizar descripción en tiempo real
+                    if char_description != char_data['description']:
+                        st.session_state.character_data[char_id]['description'] = char_description
+                    # Información adicional
+                    st.caption(f"**ID original:** {char_id}")
+                    st.caption(f"**Caras seleccionades:** {len(char_data['selected_faces'])} de {num_faces}")
+                st.markdown("---")
+        # --- 4. Botón de confirmación de fine-tuning ---
+        st.markdown("### 🎯 Confirmació del fine-tuning manual")
+        if st.button("✅ Confirmar fine-tuning i fusionar personatges", type="primary", use_container_width=True):
+            # Agrupar personajes por nombre
+            merged_characters = {}
+            for char in st.session_state.characters_detected:
+                char_id = char['id']
+                char_data = st.session_state.character_data[char_id]
+                char_name = char_data['name'].strip()
+                if not char_name:
+                    char_name = f"Personatge sense nom {char_id}"
+                if char_name not in merged_characters:
+                    merged_characters[char_name] = {
+                        'id': f"merged_{len(merged_characters) + 1}",
+                        'name': char_name,
+                        'description': char_data['description'],
+                        'selected_faces': [],
+                        'selected_voices': [],
+                        'original_ids': []
+                    }
+                # Fusionar datos
+                merged_characters[char_name]['selected_faces'].extend(char_data['selected_faces'])
+                merged_characters[char_name]['selected_voices'].extend(char_data['selected_voices'])
+                merged_characters[char_name]['original_ids'].append(char_id)
+                # Fusionar descripciones (concatenar si hay múltiples)
+                if char_data['description'] and char_data['description'] not in merged_characters[char_name]['description']:
+                    if merged_characters[char_name]['description']:
+                        merged_characters[char_name]['description'] += " | " + char_data['description']
+                    else:
+                        merged_characters[char_name]['description'] = char_data['description']
+            # Actualizar personajes con los fusionados
+            st.session_state.characters_detected = list(merged_characters.values())
+            # Reinicializar character_data con los nuevos personajes
+            st.session_state.character_data = {}
+            for char in st.session_state.characters_detected:
+                char_id = char['id']
+                st.session_state.character_data[char_id] = {
+                    'name': char['name'],
+                    'description': char['description'],
+                    'selected_faces': char['selected_faces'],
+                    'selected_voices': char['selected_voices'],
+                    'current_face_idx': 0,
+                    'current_voice_idx': 0
+                }
+            # Marcar como guardados
+            st.session_state.characters_saved = True
+            st.success(f"✅ Fine-tuning confirmat! {len(merged_characters)} personatges finals.")
+            st.balloons()
+            st.rerun()
+        # --- 5. Botón para generar audiodescripción (solo si están guardados) ---
+        if st.session_state.characters_saved:
+            st.markdown("---")
+            st.markdown("### 🎬 Generar audiodescripció")
+            if st.button("🎬 Generar Audiodescripció", type="primary", use_container_width=True):
+                st.info("🚧 Funcionalitat en desenvolupament...")
+                # Aquí iría la lógica para generar la audiodescripción
 elif page == "Analitzar audio-descripcions":
     require_login()

scripts/client_example.py ADDED Viewed

	@@ -0,0 +1,33 @@

+# =====================================
+# File: client_example.py (opcional)
+# =====================================
+import requests
+class VeureuEngineClient:
+    def __init__(self, base_url: str):
+        self.base = base_url.rstrip("/")
+    def process_video(self, video_path: str, **kwargs):
+        with open(video_path, "rb") as f:
+            files = {"video_file": (Path(video_path).name, f, "video/mp4")}
+            data = {"config_path": kwargs.get("config_path", "config_veureu.yaml"),
+                    "out_root": kwargs.get("out_root", "results"),
+                    "db_dir": kwargs.get("db_dir", "chroma_db")}
+            r = requests.post(f"{self.base}/process_video", files=files, data=data, timeout=3600)
+            r.raise_for_status()
+            return r.json()
+    def load_casting(self, faces_dir: str, voices_dir: str, db_dir: str = "chroma_db", drop_collections: bool = False):
+        data = {"faces_dir": faces_dir, "voices_dir": voices_dir, "db_dir": db_dir, "drop_collections": str(drop_collections)}
+        r = requests.post(f"{self.base}/load_casting", data=data, timeout=600)
+        r.raise_for_status(); return r.json()
+    def refine_narration(self, dialogues_srt: str, frame_descriptions: list, model_url: str, une_guidelines_path: str):
+        data = {
+            "dialogues_srt": dialogues_srt,
+            "frame_descriptions_json": json.dumps(frame_descriptions, ensure_ascii=False),
+            "model_url": model_url,
+            "une_guidelines_path": une_guidelines_path,
+        }
+        r = requests.post(f"{self.base}/refine_narration", data=data, timeout=600)
+        r.raise_for_status(); return r.json()

sources/UNE-153020.txt ADDED Viewed

	@@ -0,0 +1,73 @@

+1.	DEFINICIÓN Y OBJETIVO
+La audiodescripción (AD) es un servicio de apoyo a la comunicación para las personas ciegas o con baja visión, regulado por la norma UNE 153020 y que consiste en compensar la falta de información visual relevante para la comprensión global y el disfrute del producto audiovisual con la descripción objetiva, clara y sucinta de las imágenes, de modo que las personas con discapacidad visual lo perciban de la forma más parecida posible a como lo hacen las personas videntes.
+2.	PAUTAS
+2.1. ¿QUÉ INFORMACIÓN SE AUDIODESCRIBE?
+Se debe tratar de informar de:
+●	CUÁNDO Y DÓNDE (Describir lugares y dimensiones, hora del día, si está oscuro…)
+“En un callejón oscuro…”
+“Es de día, una señora anda por la calle”.
+●	QUIÉN (Describir e identificar, ropa, atributos físicos, etnia si es relevante…)
+●	QUÉ (Respuestas no verbales, relacionadas con el diálogo)
+●	CÓMO
+Solo se audiodescribe la información que aporta algo.
+2.2. ¿CUÁNDO SE AUDIODESCRIBE?
+Se audiodescribe en los huecos o silencios. Si las personas en escena están hablando, no podemos audiodescribir por encima. En los programas de televisión, sobre todo en los más dinámicos, suele haber poca cabida para audiodescribir.
+En ocasiones, hay silencios relevantes para la trama y hay que respetarlos (Para generar sensación de suspense, por motivos cómicos…). Esas veces hay que dejar que el programa audiovisual “respire” por sí mismo, evitando audiodescribir lo que es obvio o ya viene transmitido en la pista sonora (diálogos o ruidos)
+2.2. LENGUAJE EN LA AUDIODESCRIPCIÓN
+●	Siempre desde la perspectiva del espectador. Describimos lo que nosotros vemos como espectadores, sin información privilegiada.
+●	Se describe en PRESENTE
+“Broncano se agacha”.
+●	VALOR NARRATIVO: Se describe el lenguaje corporal, las expresiones faciales, los movimientos…
+“María lo mira asombrada”.
+“Kevin guiña un ojo”.
+●	El vocabulario debe ser EXPRESIVO: lleno de significado
+●	Objetividad y claridad
+●	Se premia la riqueza léxica. Adjetivos específicos (“astuto” mejor que “malo”).
+●	Lenguaje conciso
+●	Adaptarse al tono y estilo del contenido (sin lenguaje ofensivo, a menos que aparezca como texto en pantalla)
+●	Los logotipos y títulos se describen
+●	Evitar la voz pasiva.
+●	Si hay cortes o cambios de tiempo, se indica. (Característica de películas y series)
+“3 años después…”.
+“Valencia, 1995”.
+●	También se audiodescriben las cabeceras, aunque siempre sea la misma.
+●	También se audiodescribe el texto en pantalla
+2.3. ERRORES A EVITAR
+-	Evitar: metáforas, coloquialismos, regionalismos, léxico cinematográfico, los verbos “aparecer, ver…”.
+Las siguientes descripciones serían incorrectas:
+“Ramón aparece en escena…”
+“Vemos al niño saltar…”
+“En primer plano, Lucía…”
+-	No interpretar, debemos ser neutros y objetivos
+-	No explicar más de lo que se ve ni hacer suposiciones
+-	No ser demasiado literario ni didáctico.
+3. LOCUCIÓN
+En cuanto a la locución, se recomienda el uso de voz profesional, neutra y con buena dicción. No obstante, en el ámbito educativo, así como en otros contextos como los museos o el teatro, se ha utilizado motores de síntesis de voz para generar la locución de audiodescripción. Esta práctica no está recogida en la norma.
+“Las locuciones deben ser neutras y la dicción correcta (entonación, ritmo y vocalización adecuados), debiendo evitarse la entonación afectiva". Para obras infantiles, "se recomienda que el locutor o locutora utilice una entonación adecuada para niños, pudiendo ser algo más expresiva" (AENOR, 2005, p. 9).
+4. FORMATO
+Formato ESEF (*.esf) El formato ESEF es un estándar de la industria audiovisual para la producción y reproducción la audiodescripción en entornos de emisión de televisión.
+Este formato maneja archivos de audio en formato Broadcast WAV (BWF).
+Una de las ventajas de este formato es que almacena toda la información de la audiodescripción de manera independiente del contenido audiodescrito. Este formato contiene por separado la información del guión (texto temporizado), los contenidos de la locución en ficheros independientes y la configuración para garantizar una mezcla de la banda sonora en el destino.
+Este formato debe manipularse solamente con herramientas profesionales específicas de audiodescripción.