Spaces:

aelsaeed
/

LibrarySearchSpace

Running

App Files Files Community

aelsaeed commited on 12 days ago

Commit

1c4ea2c

verified ·

1 Parent(s): 9010851

Update app.py

Browse files

Files changed (1) hide show

app.py +163 -57

app.py CHANGED Viewed

@@ -1,59 +1,165 @@
-import joblib
 import gradio as gr
 import numpy as np
-from sentence_transformers import SentenceTransformer
-from sklearn.metrics.pairwise import cosine_similarity
-# =========================
-# تحميل البيانات
-# =========================
-books = joblib.load("books.pkl")
-theses = joblib.load("theses.pkl")
-books_emb = joblib.load("books_embeddings.pkl")
-theses_emb = joblib.load("theses_embeddings.pkl")
-# =========================
-# تحميل الموديل المحلي
-# =========================
-model = SentenceTransformer("AI_Library_Model")
-# =========================
-# دمج البيانات
-# =========================
-all_embeddings = np.vstack([books_emb, theses_emb])
-all_texts = books + theses
-# =========================
-# دالة البحث
-# =========================
-def search_library(query, top_k=5):
-    if not query.strip():
-        return "من فضلك اكتب سؤالًا"
-    query_emb = model.encode(query)
-    scores = cosine_similarity([query_emb], all_embeddings)[0]
-    top_indices = scores.argsort()[-top_k:][::-1]
-    results = []
-    for i in top_indices:
-        results.append(f"- {all_texts[i]}")
-    return "\n".join(results)
-# =========================
-# واجهة Gradio
-# =========================
-demo = gr.Interface(
-    fn=search_library,
-    inputs=gr.Textbox(
-        label="اكتب سؤالك",
-        placeholder="مثال: organic chemistry synthesis"
-    ),
-    outputs=gr.Textbox(label="النتائج"),
-    title="📚 AI Library Explorer",
-    description="بحث ذكي في الكتب والرسائل العلمية (عربي / إنجليزي)"
-)
-demo.launch()

+# ================== imports ==================
 import gradio as gr
+import pandas as pd
 import numpy as np
+import os, pickle, tempfile
+from sentence_transformers import SentenceTransformer, util
+import gdown
+# ================== إعدادات ==================
+BOOKS_FILE = "book.xlsx"
+THESES_FILE = "theses.xlsx"
+DRIVE_BOOKS_ID = "1FElHiASfiVLeuHWYaqd2Q5foxWRlJT-O"
+DRIVE_THESES_ID = "1K2Mtze6ZdvfKUsFMCOWlRBjDq-ZnJNrv"
+EMB_DIR = "embeddings"
+os.makedirs(EMB_DIR, exist_ok=True)
+MODEL_NAME = "paraphrase-multilingual-MiniLM-L12-v2"
+model = SentenceTransformer(MODEL_NAME)
+# ================== تحميل من Drive ==================
+def download_from_drive(file_id, output):
+    if not os.path.exists(output):
+        url = f"https://drive.google.com/uc?id={file_id}"
+        try:
+            gdown.download(url, output, quiet=True)
+        except Exception:
+            pass
+download_from_drive(DRIVE_BOOKS_ID, BOOKS_FILE)
+download_from_drive(DRIVE_THESES_ID, THESES_FILE)
+# ================== تحميل ودمج الملفات ==================
+def load_and_merge():
+    if not os.path.exists(BOOKS_FILE) or not os.path.exists(THESES_FILE):
+        raise FileNotFoundError("❌ تأكدي من وجود book.xlsx و theses.xlsx")
+    books = pd.read_excel(BOOKS_FILE).fillna("")
+    theses = pd.read_excel(THESES_FILE).fillna("")
+    # توحيد عمود العنوان
+    def normalize_title(df):
+        if "Title" not in df.columns:
+            if "العنوان" in df.columns:
+                df["Title"] = df["العنوان"].astype(str)
+            else:
+                df["Title"] = df.iloc[:, 0].astype(str)
+        return df
+    books = normalize_title(books)
+    theses = normalize_title(theses)
+    # إضافة نوع المصدر
+    books["المصدر"] = "كتاب"
+    theses["المصدر"] = "رسالة"
+    # دمج
+    merged = pd.concat([books, theses], ignore_index=True)
+    return merged
+library_df = load_and_merge()
+# ================== Embeddings ==================
+def emb_path(name):
+    return os.path.join(EMB_DIR, f"{name}.pkl")
+def build_or_load_embeddings(df, name):
+    path = emb_path(name)
+    if os.path.exists(path):
+        with open(path, "rb") as f:
+            emb = pickle.load(f)
+        if len(emb) == len(df):
+            return emb
+    texts = df["Title"].astype(str).tolist()
+    emb = model.encode(texts, convert_to_numpy=True, show_progress_bar=True)
+    with open(path, "wb") as f:
+        pickle.dump(emb, f)
+    return emb
+library_embeddings = build_or_load_embeddings(library_df, "library")
+# ================== عرض النتائج HTML ==================
+def results_to_html(df):
+    return df.to_html(index=False, escape=False)
+# ================== البحث ==================
+def local_search_df(query, mode, source_filter):
+    if not query or not query.strip():
+        return "<p>⚠️ اكتب كلمة أو جملة للبحث</p>", pd.DataFrame()
+    df_search = library_df.copy()
+    # فلترة حسب المصدر
+    if source_filter != "الكل":
+        df_search = df_search[df_search["المصدر"] == source_filter]
+    # ---- بحث نصي ----
+    if mode == "نصي":
+        col = "العنوان" if "العنوان" in df_search.columns else "Title"
+        df = df_search[df_search[col].astype(str).str.contains(query, case=False, na=False)]
+    # ---- بحث دلالي ----
+    else:
+        q_emb = model.encode([query], convert_to_numpy=True)
+        scores = util.cos_sim(q_emb, library_embeddings)[0].cpu().numpy()
+        df_search = df_search.copy()
+        df_search["score"] = scores
+        df = df_search.sort_values("score", ascending=False)
+    if df.empty:
+        df = pd.DataFrame([{"نتيجة": "❌ لم يتم العثور على نتائج"}])
+    if "Title" in df.columns:
+        df = df.drop(columns=["Title"])
+    return results_to_html(df), df
+# ================== حفظ النتائج Excel ==================
+def save_to_excel(df):
+    tmp = tempfile.NamedTemporaryFile(delete=False, suffix=".xlsx")
+    if df is None or df.empty:
+        pd.DataFrame().to_excel(tmp.name, index=False)
+    else:
+        df.to_excel(tmp.name, index=False)
+    return tmp.name
+# ================== الواجهة ==================
+with gr.Blocks(title="البحث الدلالي بالمكتبة") as app:
+    gr.Markdown("## 🔍 البحث بالمكتبة (ملف موحد)")
+    query = gr.Textbox(label="اكتب كلمة أو موضوع البحث")
+    mode = gr.Radio(
+        ["نصي", "دلالي (Semantic)"],
+        value="نصي",
+        label="نوع البحث"
+    )
+    source_filter = gr.Radio(
+        ["الكل", "كتاب", "رسالة"],
+        value="الكل",
+        label="فلترة حسب المصدر"
+    )
+    btn_search = gr.Button("🔎 بحث")
+    df_state = gr.State()
+    output_html = gr.HTML()
+    file_out = gr.File(label="⬇️ تحميل النتائج")
+    btn_search.click(
+        local_search_df,
+        inputs=[query, mode, source_filter],
+        outputs=[output_html, df_state]
+    )
+    gr.Button("📥 حفظ النتائج").click(
+        save_to_excel,
+        inputs=df_state,
+        outputs=file_out
+    )
+app.launch()