Spaces:

ArturG9
/

Local_Lithuanian_Law_RAG_QA_ChatBot_Streamlit

Sleeping

App Files Files Community

ArturG9 commited on Jul 11

Commit

ca65ca1

•

1 Parent(s): 8be0d81

Update app.py

Browse files

Files changed (1) hide show

app.py +40 -4

app.py CHANGED Viewed

@@ -18,6 +18,8 @@ from langchain_community.document_loaders.directory import DirectoryLoader
 from HTML_templates import css, bot_template, user_template
 from langchain_core.output_parsers import StrOutputParser
 from langchain_core.runnables import RunnablePassthrough
 def create_retriever_from_chroma(vectorstore_path="docs/chroma/", search_type='mmr', k=7, chunk_size=250, chunk_overlap=20):
@@ -32,6 +34,22 @@ def create_retriever_from_chroma(vectorstore_path="docs/chroma/", search_type='m
         encode_kwargs=encode_kwargs
     )
     # Check if vectorstore exists
     if os.path.exists(vectorstore_path) and os.listdir(vectorstore_path):
         # Load the existing vectorstore
@@ -58,8 +76,26 @@ def create_retriever_from_chroma(vectorstore_path="docs/chroma/", search_type='m
             documents=split_docs, embedding=embeddings, persist_directory=vectorstore_path
         )
-    # Create and return the retriever
-    retriever = vectorstore.as_retriever(search_type=search_type, search_kwargs={"k": k})
     return retriever
@@ -132,13 +168,13 @@ def create_conversational_rag_chain(retriever):
     llm = llamacpp.LlamaCpp(
         model_path=model_path,
         n_gpu_layers=0,
-        temperature=0.0,
         top_p=0.9,
         n_ctx=22000,
         n_batch=2000,
         max_tokens=200,
         repeat_penalty=1.7,
-        #last_n_tokens_size = 200,
         # callback_manager=callback_manager,
         verbose=False,
     )

 from HTML_templates import css, bot_template, user_template
 from langchain_core.output_parsers import StrOutputParser
 from langchain_core.runnables import RunnablePassthrough
+from langchain.retrievers.self_query.base import SelfQueryRetriever
+from langchain.chains.query_constructor.base import AttributeInfo
 def create_retriever_from_chroma(vectorstore_path="docs/chroma/", search_type='mmr', k=7, chunk_size=250, chunk_overlap=20):
         encode_kwargs=encode_kwargs
     )
+    llm = llamacpp.LlamaCpp(
+        model_path=model_path,
+        n_gpu_layers=0,
+        temperature=0.0,
+        top_p=0.9,
+        n_ctx=22000,
+        n_batch=2000,
+        max_tokens=200,
+        repeat_penalty=1.7,
+        last_n_tokens_size = 1500,
+        # callback_manager=callback_manager,
+        verbose=False,
+    )
     # Check if vectorstore exists
     if os.path.exists(vectorstore_path) and os.listdir(vectorstore_path):
         # Load the existing vectorstore
             documents=split_docs, embedding=embeddings, persist_directory=vectorstore_path
         )
+    metadata_field_info = [
+    AttributeInfo(
+        name="source",
+        description="The document  chunk is from, should be one of documents in data folder`, or `docs/cs229_lectures/MachineLearning-Lecture03.pdf`",
+        type="string",
+    ),
+    AttributeInfo(
+        name="page",
+        description="The page from the document",
+        type="integer",
+    ),
+]
+    document_content_description = "Respublic of Lithuania law documents"
+    retriever = SelfQueryRetriever.from_llm(
+    llm,
+    vectorstore,
+    document_content_description,
+    metadata_field_info,
+    verbose=True
+)
     return retriever
     llm = llamacpp.LlamaCpp(
         model_path=model_path,
         n_gpu_layers=0,
+        temperature=0.4,
         top_p=0.9,
         n_ctx=22000,
         n_batch=2000,
         max_tokens=200,
         repeat_penalty=1.7,
+        last_n_tokens_size = 200,
         # callback_manager=callback_manager,
         verbose=False,
     )