Spaces:

AbhinavGavireddi
/

Document_intelligence

Running

App Files Files Community

Abhinav Gavireddi commited on Jun 19

Commit

69979b2

1 Parent(s): 7c8a700

[fix]: fixed streamlit application slow startup

Browse files

Files changed (8) hide show

Dockerfile +7 -7
requirements.txt +1 -6
src/__init__.py +45 -28
src/config.py +0 -38
src/gpp.py +25 -32
src/qa.py +5 -15
src/retriever.py +6 -13
src/utils.py +2 -7

Dockerfile CHANGED Viewed

@@ -15,21 +15,21 @@ RUN apt-get update && \
     # for hnswlib (needed for OpenMP)
     libgomp1 \
     curl \
-    git \
-    && rm -rf /var/lib/apt/lists/*
 # Copy and install Python dependencies
 COPY requirements.txt ./
-RUN pip install --no-cache-dir -r requirements.txt
-# Install/patch MinerU and download models
-RUN pip uninstall -y magic-pdf && \
-    pip install git+https://github.com/opendatalab/MinerU.git@dev && \
-    curl -L https://github.com/opendatalab/MinerU/raw/dev/scripts/download_models_hf.py -o download_models_hf.py && \
     python download_models_hf.py
 # Copy application code
 COPY src/ ./src/
 # COPY tests/ ./tests/
 COPY app.py .

     # for hnswlib (needed for OpenMP)
     libgomp1 \
     curl \
+    git && \
+    rm -rf /var/lib/apt/lists/*
 # Copy and install Python dependencies
 COPY requirements.txt ./
+RUN pip install uv && \
+    uv pip install --no-cache-dir -r requirements.txt
+# Download models (if needed at build time)
+RUN curl -L https://github.com/opendatalab/MinerU/raw/dev/scripts/download_models_hf.py -o download_models_hf.py && \
     python download_models_hf.py
 # Copy application code
 COPY src/ ./src/
 # COPY tests/ ./tests/
 COPY app.py .

requirements.txt CHANGED Viewed

@@ -26,7 +26,6 @@ ultralytics>=8.3.48
 rapid-table>=1.0.3,<2.0.0
 doclayout-yolo==0.0.2b1
 dill>=0.3.9,<1
-rapid_table>=1.0.3,<2.0.0
 PyYAML>=6.0.2,<7
 ftfy>=6.3.1,<7
 openai>=1.70.0,<2
@@ -37,9 +36,5 @@ shapely>=2.0.7,<3
 pyclipper>=1.3.0,<2
 omegaconf>=2.3.0,<3
 tqdm>=4.67.1
 # MinerU
-git+https://github.com/opendatalab/MinerU.git@dev
-# Testing
-pytest>=7.0

 rapid-table>=1.0.3,<2.0.0
 doclayout-yolo==0.0.2b1
 dill>=0.3.9,<1
 PyYAML>=6.0.2,<7
 ftfy>=6.3.1,<7
 openai>=1.70.0,<2
 pyclipper>=1.3.0,<2
 omegaconf>=2.3.0,<3
 tqdm>=4.67.1
 # MinerU
+git+https://github.com/opendatalab/MinerU.git@dev

src/__init__.py CHANGED Viewed

@@ -2,37 +2,54 @@ import os
 from dotenv import load_dotenv
 import bleach
-import logging
-import sys
-import structlog
 load_dotenv()
-os.system('python src/ghm.py')
-def configure_logging():
-    structlog.configure(
-        processors=[
-            structlog.processors.TimeStamper(fmt="iso"),
-            structlog.processors.JSONRenderer()
-        ],
-        context_class=dict,
-        logger_factory=structlog.stdlib.LoggerFactory(),
-        wrapper_class=structlog.stdlib.BoundLogger,
-        cache_logger_on_first_use=True,
-    )
-    if not logging.getLogger().handlers:
-        logging.basicConfig(stream=sys.stdout, level=logging.INFO)
-def get_env(name):
-    val = os.getenv(name)
-    if not val:
-        raise RuntimeError(f"Missing required secret: {name}")
-    return val
 def sanitize_html(raw):
     # allow only text and basic tags
     return bleach.clean(raw, tags=[], strip=True)
-configure_logging()
-logger = structlog.get_logger()

 from dotenv import load_dotenv
 import bleach
 load_dotenv()
 def sanitize_html(raw):
     # allow only text and basic tags
     return bleach.clean(raw, tags=[], strip=True)
+"""
+Central configuration for the entire Document Intelligence app.
+All modules import from here rather than hard-coding values.
+"""
+OPENAI_EMBEDDING_MODEL = os.getenv(
+        "OPENAI_EMBEDDING_MODEL", "text-embedding-ada-002"
+    )
+class EmbeddingConfig:
+    PROVIDER = os.getenv("EMBEDDING_PROVIDER",'HF')
+    TEXT_MODEL = os.getenv('TEXT_EMBED_MODEL', 'sentence-transformers/all-MiniLM-L6-v2')
+    META_MODEL = os.getenv('META_EMBED_MODEL', 'sentence-transformers/all-MiniLM-L6-v2')
+class RetrieverConfig:
+    PROVIDER = os.getenv("EMBEDDING_PROVIDER",'HF')
+    TOP_K = int(os.getenv('RETRIEVER_TOP_K', 10))
+    DENSE_MODEL = 'sentence-transformers/all-MiniLM-L6-v2'
+    ANN_TOP = int(os.getenv('ANN_TOP', 50))
+class RerankerConfig:
+    @staticmethod
+    def get_device():
+        import torch
+        return 'cuda' if torch.cuda.is_available() else 'cpu'
+    MODEL_NAME = os.getenv('RERANKER_MODEL', 'BAAI/bge-reranker-v2-Gemma')
+    DEVICE = get_device()
+class GPPConfig:
+    CHUNK_TOKEN_SIZE = int(os.getenv('CHUNK_TOKEN_SIZE', 256))
+    DEDUP_SIM_THRESHOLD = float(os.getenv('DEDUP_SIM_THRESHOLD', 0.9))
+    EXPANSION_SIM_THRESHOLD = float(os.getenv('EXPANSION_SIM_THRESHOLD', 0.85))
+    COREF_CONTEXT_SIZE = int(os.getenv('COREF_CONTEXT_SIZE', 3))
+class GPPConfig:
+    """
+    Configuration for GPP pipeline.
+    """
+    CHUNK_TOKEN_SIZE = 256
+    DEDUP_SIM_THRESHOLD = 0.9
+    EXPANSION_SIM_THRESHOLD = 0.85
+    COREF_CONTEXT_SIZE = 3
+    HNSW_EF_CONSTRUCTION = int(os.getenv("HNSW_EF_CONSTRUCTION", "200"))
+    HNSW_M = int(os.getenv("HNSW_M", "16"))
+    HNSW_EF_SEARCH = int(os.getenv("HNSW_EF_SEARCH", "50"))

src/config.py DELETED Viewed

@@ -1,38 +0,0 @@
-"""
-Central configuration for the entire Document Intelligence app.
-All modules import from here rather than hard-coding values.
-"""
-import os
-# class RedisConfig:
-#     HOST = os.getenv('REDIS_HOST', 'localhost')
-#     PORT = int(os.getenv('REDIS_PORT', 6379))
-#     DB = int(os.getenv('REDIS_DB', 0))
-#     VECTOR_INDEX = os.getenv('REDIS_VECTOR_INDEX', 'gpp_vectors')
-OPENAI_EMBEDDING_MODEL = os.getenv(
-        "OPENAI_EMBEDDING_MODEL", "text-embedding-ada-002"
-    )
-class EmbeddingConfig:
-    PROVIDER = os.getenv("EMBEDDING_PROVIDER",'HF')
-    TEXT_MODEL = os.getenv('TEXT_EMBED_MODEL', 'sentence-transformers/all-MiniLM-L6-v2')
-    META_MODEL = os.getenv('META_EMBED_MODEL', 'sentence-transformers/all-MiniLM-L6-v2')
-    # TEXT_MODEL = OPENAI_EMBEDDING_MODEL
-    # META_MODEL = OPENAI_EMBEDDING_MODEL
-class RetrieverConfig:
-    PROVIDER = os.getenv("EMBEDDING_PROVIDER",'HF')
-    TOP_K = int(os.getenv('RETRIEVER_TOP_K', 10))  # number of candidates per retrieval path
-    DENSE_MODEL = 'sentence-transformers/all-MiniLM-L6-v2'
-    # DENSE_MODEL = OPENAI_EMBEDDING_MODEL
-    ANN_TOP = int(os.getenv('ANN_TOP', 50))
-class RerankerConfig:
-    MODEL_NAME = os.getenv('RERANKER_MODEL', 'BAAI/bge-reranker-v2-Gemma')
-    DEVICE = os.getenv('RERANKER_DEVICE', 'cuda' if os.getenv('CUDA_VISIBLE_DEVICES') else 'cpu')
-class GPPConfig:
-    CHUNK_TOKEN_SIZE = int(os.getenv('CHUNK_TOKEN_SIZE', 256))
-    DEDUP_SIM_THRESHOLD = float(os.getenv('DEDUP_SIM_THRESHOLD', 0.9))
-    EXPANSION_SIM_THRESHOLD = float(os.getenv('EXPANSION_SIM_THRESHOLD', 0.85))
-    COREF_CONTEXT_SIZE = int(os.getenv('COREF_CONTEXT_SIZE', 3))

src/gpp.py CHANGED Viewed

@@ -18,23 +18,8 @@ import json
 from typing import List, Dict, Any, Optional
 import re
-from magic_pdf.data.data_reader_writer import FileBasedDataWriter, FileBasedDataReader
-from magic_pdf.data.dataset import PymuDocDataset
-from magic_pdf.model.doc_analyze_by_custom_model import doc_analyze
-from magic_pdf.config.enums import SupportedPdfParseMethod
-from langchain.text_splitter import RecursiveCharacterTextSplitter
-from sentence_transformers import SentenceTransformer
-from rank_bm25 import BM25Okapi
-import numpy as np
-import hnswlib
-from src.config import EmbeddingConfig
-from src.utils import OpenAIEmbedder
-# LLM client abstraction
-from src.utils import LLMClient, logger
 def parse_markdown_table(md: str) -> Optional[Dict[str, Any]]:
     """
@@ -60,23 +45,11 @@ def parse_markdown_table(md: str) -> Optional[Dict[str, Any]]:
     return {"headers": headers, "rows": rows}
-class GPPConfig:
-    """
-    Configuration for GPP pipeline.
-    """
-    CHUNK_TOKEN_SIZE = 256
-    DEDUP_SIM_THRESHOLD = 0.9
-    EXPANSION_SIM_THRESHOLD = 0.85
-    COREF_CONTEXT_SIZE = 3
-    HNSW_EF_CONSTRUCTION = int(os.getenv("HNSW_EF_CONSTRUCTION", "200"))
-    HNSW_M = int(os.getenv("HNSW_M", "16"))
-    HNSW_EF_SEARCH = int(os.getenv("HNSW_EF_SEARCH", "50"))
 class GPP:
     def __init__(self, config: GPPConfig):
         self.config = config
         # Embedding models
         if EmbeddingConfig.PROVIDER == "openai":
             self.text_embedder = OpenAIEmbedder(EmbeddingConfig.TEXT_MODEL)
@@ -97,6 +70,12 @@ class GPP:
         dumps markdown, images, layout PDF, content_list JSON.
         Returns parsed data plus file paths for UI traceability.
         """
         name = os.path.splitext(os.path.basename(pdf_path))[0]
         img_dir = os.path.join(output_dir, "images")
         os.makedirs(img_dir, exist_ok=True)
@@ -138,6 +117,9 @@ class GPP:
         Creates chunks of ~CHUNK_TOKEN_SIZE tokens, but ensures any table/image block
         becomes its own chunk (unsplittable), flushing current text chunk as needed.
         """
         chunks, current, token_count = [], {"text": "", "type": None, "blocks": []}, 0
         for blk in blocks:
             btype = blk.get("type")
@@ -185,7 +167,10 @@ class GPP:
     def deduplicate(self, chunks: List[Dict[str, Any]]) -> List[Dict[str, Any]]:
         try:
-            # embs = self.text_embedder.encode([c.get('narration', '') for c in chunks], convert_to_tensor=True)
             narrations = [c.get("narration", "") for c in chunks]
             if EmbeddingConfig.PROVIDER == "openai":
                 embs = self.text_embedder.embed(narrations)
@@ -236,6 +221,9 @@ class GPP:
         """
         Build BM25 index on token lists for sparse retrieval.
         """
         tokenized = [c["narration"].split() for c in chunks]
         self.bm25 = BM25Okapi(tokenized)
@@ -248,6 +236,11 @@ class GPP:
         4. Dump human-readable chunk metadata (incl. section_summary)
            for traceability in the UI.
         """
         # --- 1. Prepare embedder ---
         if EmbeddingConfig.PROVIDER.lower() == "openai":
             embedder = OpenAIEmbedder(EmbeddingConfig.TEXT_MODEL)

 from typing import List, Dict, Any, Optional
 import re
+from src import EmbeddingConfig, GPPConfig
+from src.utils import OpenAIEmbedder, LLMClient, logger
 def parse_markdown_table(md: str) -> Optional[Dict[str, Any]]:
     """
     return {"headers": headers, "rows": rows}
 class GPP:
     def __init__(self, config: GPPConfig):
         self.config = config
+        # Lazy import heavy libraries
+        from sentence_transformers import SentenceTransformer
         # Embedding models
         if EmbeddingConfig.PROVIDER == "openai":
             self.text_embedder = OpenAIEmbedder(EmbeddingConfig.TEXT_MODEL)
         dumps markdown, images, layout PDF, content_list JSON.
         Returns parsed data plus file paths for UI traceability.
         """
+        # Lazy import heavy libraries
+        from magic_pdf.data.data_reader_writer import FileBasedDataWriter, FileBasedDataReader
+        from magic_pdf.data.dataset import PymuDocDataset
+        from magic_pdf.model.doc_analyze_by_custom_model import doc_analyze
+        from magic_pdf.config.enums import SupportedPdfParseMethod
         name = os.path.splitext(os.path.basename(pdf_path))[0]
         img_dir = os.path.join(output_dir, "images")
         os.makedirs(img_dir, exist_ok=True)
         Creates chunks of ~CHUNK_TOKEN_SIZE tokens, but ensures any table/image block
         becomes its own chunk (unsplittable), flushing current text chunk as needed.
         """
+        # Lazy import heavy libraries
+        from langchain.text_splitter import RecursiveCharacterTextSplitter
         chunks, current, token_count = [], {"text": "", "type": None, "blocks": []}, 0
         for blk in blocks:
             btype = blk.get("type")
     def deduplicate(self, chunks: List[Dict[str, Any]]) -> List[Dict[str, Any]]:
         try:
+            # Lazy import heavy libraries
+            import numpy as np
+            from sentence_transformers import SentenceTransformer
             narrations = [c.get("narration", "") for c in chunks]
             if EmbeddingConfig.PROVIDER == "openai":
                 embs = self.text_embedder.embed(narrations)
         """
         Build BM25 index on token lists for sparse retrieval.
         """
+        # Lazy import heavy libraries
+        from rank_bm25 import BM25Okapi
         tokenized = [c["narration"].split() for c in chunks]
         self.bm25 = BM25Okapi(tokenized)
         4. Dump human-readable chunk metadata (incl. section_summary)
            for traceability in the UI.
         """
+        # Lazy import heavy libraries
+        import numpy as np
+        import hnswlib
+        from sentence_transformers import SentenceTransformer
         # --- 1. Prepare embedder ---
         if EmbeddingConfig.PROVIDER.lower() == "openai":
             embedder = OpenAIEmbedder(EmbeddingConfig.TEXT_MODEL)

src/qa.py CHANGED Viewed

@@ -11,26 +11,18 @@ Each component is modular and can be swapped or extended (e.g., add HyDE retriev
 import os
 from typing import List, Dict, Any, Tuple
-from sentence_transformers import SentenceTransformer
-from rank_bm25 import BM25Okapi
-from transformers import AutoTokenizer, AutoModelForSequenceClassification
-import torch
-from src import sanitize_html
 from src.utils import LLMClient, logger
 from src.retriever import Retriever, RetrieverConfig
-class RerankerConfig:
-    MODEL_NAME = os.getenv('RERANKER_MODEL', 'BAAI/bge-reranker-v2-Gemma')
-    DEVICE = 'cuda' if torch.cuda.is_available() else 'cpu'
 class Reranker:
     """
     Cross-encoder re-ranker using a transformer-based sequence classification model.
     """
     def __init__(self, config: RerankerConfig):
         try:
             self.tokenizer = AutoTokenizer.from_pretrained(config.MODEL_NAME)
             self.model = AutoModelForSequenceClassification.from_pretrained(config.MODEL_NAME)
             self.model.to(config.DEVICE)
@@ -44,6 +36,7 @@ class Reranker:
             logger.warning('No candidates provided to rerank.')
             return []
         try:
             inputs = self.tokenizer(
                 [query] * len(candidates),
                 [c.get('narration', '') for c in candidates],
@@ -59,10 +52,7 @@ class Reranker:
                 logits = logits.squeeze(-1)  # only squeeze if it's (batch, 1)
             probs = torch.sigmoid(logits).cpu().numpy().flatten()  # flatten always ensures 1D array
-            paired = []
-            for idx, c in enumerate(candidates):
-                score = float(probs[idx])
-                paired.append((c, score))
             ranked = sorted(paired, key=lambda x: x[1], reverse=True)
             return [c for c, _ in ranked[:top_k]]

 import os
 from typing import List, Dict, Any, Tuple
+from src import RerankerConfig
 from src.utils import LLMClient, logger
 from src.retriever import Retriever, RetrieverConfig
 class Reranker:
     """
     Cross-encoder re-ranker using a transformer-based sequence classification model.
     """
     def __init__(self, config: RerankerConfig):
         try:
+            from transformers import AutoTokenizer, AutoModelForSequenceClassification
+            import torch
             self.tokenizer = AutoTokenizer.from_pretrained(config.MODEL_NAME)
             self.model = AutoModelForSequenceClassification.from_pretrained(config.MODEL_NAME)
             self.model.to(config.DEVICE)
             logger.warning('No candidates provided to rerank.')
             return []
         try:
+            import torch
             inputs = self.tokenizer(
                 [query] * len(candidates),
                 [c.get('narration', '') for c in candidates],
                 logits = logits.squeeze(-1)  # only squeeze if it's (batch, 1)
             probs = torch.sigmoid(logits).cpu().numpy().flatten()  # flatten always ensures 1D array
+            paired = [(c, float(probs[idx])) for idx, c in enumerate(candidates)]
             ranked = sorted(paired, key=lambda x: x[1], reverse=True)
             return [c for c, _ in ranked[:top_k]]

src/retriever.py CHANGED Viewed

@@ -1,27 +1,19 @@
 import os
-import numpy as np
-import hnswlib
 from typing import List, Dict, Any
-from sentence_transformers import SentenceTransformer
-from rank_bm25 import BM25Okapi
 from src.config import RetrieverConfig
 from src.utils import logger
 class Retriever:
     """
     Hybrid retriever combining BM25 sparse and dense retrieval (no Redis).
     """
     def __init__(self, chunks: List[Dict[str, Any]], config: RetrieverConfig):
-        """
-        Initialize the retriever with chunks and configuration.
-        Args:
-        chunks (List[Dict[str, Any]]): List of chunks, where each chunk is a dictionary.
-        config (RetrieverConfig): Configuration for the retriever.
-        """
         self.chunks = chunks
         try:
             if not isinstance(chunks, list) or not all(isinstance(c, dict) for c in chunks):
@@ -58,6 +50,7 @@ class Retriever:
             return []
         tokenized = query.split()
         try:
             scores = self.bm25.get_scores(tokenized)
             top_indices = np.argsort(scores)[::-1][:top_k]
             return [self.chunks[i] for i in top_indices]

 import os
 from typing import List, Dict, Any
 from src.config import RetrieverConfig
 from src.utils import logger
 class Retriever:
     """
     Hybrid retriever combining BM25 sparse and dense retrieval (no Redis).
     """
     def __init__(self, chunks: List[Dict[str, Any]], config: RetrieverConfig):
+        # Lazy import heavy libraries
+        import numpy as np
+        import hnswlib
+        from sentence_transformers import SentenceTransformer
+        from rank_bm25 import BM25Okapi
         self.chunks = chunks
         try:
             if not isinstance(chunks, list) or not all(isinstance(c, dict) for c in chunks):
             return []
         tokenized = query.split()
         try:
+            import numpy as np  # Ensure np is defined here
             scores = self.bm25.get_scores(tokenized)
             top_indices = np.argsort(scores)[::-1][:top_k]
             return [self.chunks[i] for i in top_indices]

src/utils.py CHANGED Viewed

@@ -7,11 +7,6 @@ from typing import List
 from openai import AzureOpenAI
 from langchain_openai import AzureOpenAIEmbeddings
-try:
-    from src.utils import logger
-except ImportError:
-    import structlog
-    logger = structlog.get_logger()
 class LLMClient:
     """
@@ -26,7 +21,7 @@ class LLMClient:
         openai_model_name = model or os.getenv('OPENAI_MODEL', 'gpt-4o')
         if not (azure_api_key or azure_endpoint or azure_api_version or openai_model_name):
-            logger.error('OPENAI_API_KEY is not set')
             raise EnvironmentError('Missing OPENAI_API_KEY')
         client = AzureOpenAI(
                 api_key=azure_api_key,
@@ -45,7 +40,7 @@ class LLMClient:
             text = resp.choices[0].message.content.strip()
             return text
         except Exception as e:
-            logger.exception('LLM generation failed')
             raise

 from openai import AzureOpenAI
 from langchain_openai import AzureOpenAIEmbeddings
 class LLMClient:
     """
         openai_model_name = model or os.getenv('OPENAI_MODEL', 'gpt-4o')
         if not (azure_api_key or azure_endpoint or azure_api_version or openai_model_name):
+            print('OPENAI_API_KEY is not set')
             raise EnvironmentError('Missing OPENAI_API_KEY')
         client = AzureOpenAI(
                 api_key=azure_api_key,
             text = resp.choices[0].message.content.strip()
             return text
         except Exception as e:
+            print('LLM generation failed')
             raise