Replace embedding model with smaller one

2024-05-12 23:55:57 +08:00
parent 5693e324a4
commit cf087cfa58
1 changed files with 14 additions and 3 deletions
--- a/crawl4ai/extraction_strategy.py
+++ b/crawl4ai/extraction_strategy.py
@@ -3,12 +3,14 @@ from typing import Any, List, Dict, Optional, Union
 from scipy.cluster.hierarchy import linkage, fcluster
 from scipy.spatial.distance import pdist
 from transformers import BertTokenizer, BertModel, pipeline
+from transformers import AutoTokenizer, AutoModel
 from concurrent.futures import ThreadPoolExecutor, as_completed
 import nltk
 from nltk.tokenize import TextTilingTokenizer
 import json, time
 import torch
 import spacy
+# from optimum.intel import IPEXModel

 from .prompts import PROMPT_EXTRACT_BLOCKS
 from .config import *
@@ -130,11 +132,17 @@ class HierarchicalClusteringStrategy(ExtractionStrategy):
        self.max_dist = max_dist
        self.linkage_method = linkage_method
        self.top_k = top_k
-        self.tokenizer = BertTokenizer.from_pretrained('bert-base-uncased', resume_download=None)
-        self.model = BertModel.from_pretrained('bert-base-uncased', resume_download=None)
+        # self.tokenizer = BertTokenizer.from_pretrained('bert-base-uncased', resume_download=None)
+        # self.model = BertModel.from_pretrained('bert-base-uncased', resume_download=None)
+
        self.nlp = spacy.load("models/reuters")
        
+        # self.model = IPEXModel.from_pretrained("Intel/bge-small-en-v1.5-rag-int8-static")
+        # self.tokenizer =  AutoTokenizer.from_pretrained("Intel/bge-small-en-v1.5-rag-int8-static")
        
+        self.tokenizer = AutoTokenizer.from_pretrained('BAAI/bge-small-en-v1.5', resume_download=None)
+        self.model = AutoModel.from_pretrained('BAAI/bge-small-en-v1.5', resume_download=None)
+        self.model.eval()        

    def get_embeddings(self, sentences: List[str]):
        """
@@ -146,10 +154,13 @@ class HierarchicalClusteringStrategy(ExtractionStrategy):
        # Tokenize sentences and convert to tensor
        encoded_input = self.tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')
        # Compute token embeddings
+        t = time.time()
        with torch.no_grad():
            model_output = self.model(**encoded_input)
+            
        # Get embeddings from the last hidden state (mean pooling)
        embeddings = model_output.last_hidden_state.mean(1)
+        print(f"Embeddings computed in {time.time() - t:.2f} seconds")
        return embeddings.numpy()

    def hierarchical_clustering(self, sentences: List[str]):
@@ -224,7 +235,7 @@ class HierarchicalClusteringStrategy(ExtractionStrategy):
            top_categories = sorted(doc.cats.items(), key=lambda x: x[1], reverse=True)[:tok_k]
            cluster['tags'] = [cat for cat, _ in top_categories]
        
-        print(f"Processing done in {time.time() - t:.2f} seconds")
+        print(f"Categorization done in {time.time() - t:.2f} seconds")
        
        return cluster_list