Spaces:

VeuReu
/

engine

Running

VeuReu commited on Nov 1

Commit

9709560

verified ·

1 Parent(s): c0a953e

Upload 2 files

Files changed (2) hide show

api.py CHANGED Viewed

@@ -180,8 +180,9 @@ def hierarchical_cluster_with_min_size(X, max_groups: int, min_cluster_size: int
         # Si hay menos muestras que el mínimo, todo es ruido
         return np.full(len(X), -1, dtype=int)
-    # Linkage usando distancia euclidiana con método 'ward'
-    Z = linkage(X, method='ward', metric='euclidean')
     # Encontrar el número óptimo de clusters usando silhouette score
     best_n_clusters = 2
@@ -201,9 +202,11 @@ def hierarchical_cluster_with_min_size(X, max_groups: int, min_cluster_size: int
             # Solo evaluar si hay al menos 2 clusters válidos
             if valid_clusters >= 2:
                 try:
-                    score = silhouette_score(X, trial_labels, metric='euclidean')
-                    # Penalizar ligeramente configuraciones con muchos clusters para evitar overfitting
-                    adjusted_score = score - (n_clusters * 0.01)
                     if adjusted_score > best_score:
                         best_score = adjusted_score

         # Si hay menos muestras que el mínimo, todo es ruido
         return np.full(len(X), -1, dtype=int)
+    # Linkage usando average linkage (más flexible que ward, menos sensible a outliers)
+    # Esto ayuda a agrupar mejor la misma persona con diferentes ángulos/expresiones
+    Z = linkage(X, method='average', metric='cosine')  # Cosine similarity para embeddings
     # Encontrar el número óptimo de clusters usando silhouette score
     best_n_clusters = 2
             # Solo evaluar si hay al menos 2 clusters válidos
             if valid_clusters >= 2:
                 try:
+                    score = silhouette_score(X, trial_labels, metric='cosine')
+                    # Penalizar configuraciones con muchos clusters para evitar overfitting
+                    # Penalización más fuerte para reducir duplicados
+                    # Si siguen apareciendo duplicados, aumentar a 0.05 o 0.07
+                    adjusted_score = score - (n_clusters * 0.03)
                     if adjusted_score > best_score:
                         best_score = adjusted_score

character_detection.py CHANGED Viewed

@@ -197,8 +197,9 @@ class CharacterDetector:
             # Si hay menos muestras que el mínimo, todo es ruido
             return np.full(len(X), -1, dtype=int)
-        # Linkage usando distancia euclidiana con método 'ward'
-        Z = linkage(X, method='ward', metric='euclidean')
         # Encontrar el número óptimo de clusters usando silhouette score
         from sklearn.metrics import silhouette_score
@@ -216,8 +217,10 @@ class CharacterDetector:
                 if valid_clusters >= 2:
                     try:
-                        score = silhouette_score(X, trial_labels, metric='euclidean')
-                        adjusted_score = score - (n_clusters * 0.01)
                         if adjusted_score > best_score:
                             best_score = adjusted_score

             # Si hay menos muestras que el mínimo, todo es ruido
             return np.full(len(X), -1, dtype=int)
+        # Linkage usando average linkage (más flexible que ward, menos sensible a outliers)
+        # Esto ayuda a agrupar mejor la misma persona con diferentes ángulos/expresiones
+        Z = linkage(X, method='average', metric='cosine')  # Cosine similarity para embeddings
         # Encontrar el número óptimo de clusters usando silhouette score
         from sklearn.metrics import silhouette_score
                 if valid_clusters >= 2:
                     try:
+                        score = silhouette_score(X, trial_labels, metric='cosine')
+                        # Penalización más fuerte para reducir duplicados
+                        # Si siguen apareciendo duplicados, aumentar a 0.05 o 0.07
+                        adjusted_score = score - (n_clusters * 0.03)
                         if adjusted_score > best_score:
                             best_score = adjusted_score