Spaces:

mncai
/

chat-doctor-kr

Runtime error

App Files Files Community

ttagu99 commited on Apr 1, 2023

Commit

294ad84

•

1 Parent(s): edadc60

init

Browse files

Files changed (1) hide show

chat.py +121 -0

chat.py ADDED Viewed

	@@ -0,0 +1,121 @@

+# %%
+import os, json, itertools, bisect, gc
+from transformers import AutoModelForCausalLM, AutoTokenizer, AutoConfig
+import transformers
+import torch
+from accelerate import Accelerator
+import accelerate
+import time
+import os
+import gradio as gr
+import requests
+import random
+from dotenv import load_dotenv
+import googletrans
+translator = googletrans.Translator()
+load_dotenv()
+model = None
+tokenizer = None
+generator = None
+os.environ["CUDA_VISIBLE_DEVICES"]="1"
+def load_model(model_name, eight_bit=0, device_map="auto"):
+    global model, tokenizer, generator
+    print("Loading "+model_name+"...")
+    if device_map == "zero":
+        device_map = "balanced_low_0"
+    # config
+    gpu_count = torch.cuda.device_count()
+    print('gpu_count', gpu_count)
+    print(model_name)
+    tokenizer = transformers.LLaMATokenizer.from_pretrained(model_name)
+    model = transformers.LLaMAForCausalLM.from_pretrained(
+        model_name,
+        #device_map=device_map,
+        #device_map="auto",
+        torch_dtype=torch.float16,
+        #max_memory = {0: "14GB", 1: "14GB", 2: "14GB", 3: "14GB",4: "14GB",5: "14GB",6: "14GB",7: "14GB"},
+        #load_in_8bit=eight_bit,
+        #from_tf=True,
+        low_cpu_mem_usage=True,
+        load_in_8bit=False,
+        cache_dir="cache"
+    ).cuda()
+    generator = model.generate
+# chat doctor
+def chatdoctor(input, state):
+    # print('input',input)
+    # history = history or []
+    print('state',state)
+    invitation = "ChatDoctor: "
+    human_invitation = "Patient: "
+    fulltext = "If you are a doctor, please answer the medical questions based on the patient's description. \n\n"
+    for i in range(len(state)):
+        if i % 2:
+            fulltext += human_invitation + state[i] + "\n\n"
+        else:
+            fulltext += invitation + state[i] + "\n\n"
+    fulltext += human_invitation + input + "\n\n"
+    fulltext += invitation
+    print('fulltext: ',fulltext)
+    generated_text = ""
+    gen_in = tokenizer(fulltext, return_tensors="pt").input_ids.cuda()
+    in_tokens = len(gen_in)
+    print('len token',in_tokens)
+    with torch.no_grad():
+            generated_ids = generator(
+                gen_in,
+                max_new_tokens=200,
+                use_cache=True,
+                pad_token_id=tokenizer.eos_token_id,
+                num_return_sequences=1,
+                do_sample=True,
+                repetition_penalty=1.1, # 1.0 means 'off'. unfortunately if we penalize it it will not output Sphynx:
+                temperature=0.5, # default: 1.0
+                top_k = 50, # default: 50
+                top_p = 1.0, # default: 1.0
+                early_stopping=True,
+            )
+            generated_text = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0] # for some reason, batch_decode returns an array of one element?
+            text_without_prompt = generated_text[len(fulltext):]
+    response = text_without_prompt
+    response = response.split(human_invitation)[0]
+    response.strip()
+    print(invitation + response)
+    print("")
+    return response
+def predict(input, chatbot, state):
+    print('predict state: ', state)
+    en_input = translator.translate(input, src='ko', dest='en').text
+    response = chatdoctor(en_input, state)
+    ko_response = translator.translate(response, src='en', dest='ko').text
+    state.append(response)
+    chatbot.append((input, ko_response))
+    return chatbot, state
+load_model("./ChatDoctor/pretrained/")
+with gr.Blocks() as demo:
+    gr.Markdown("""<h1><center>챗 닥터입니다. 어디가 불편하신가요?</center></h1>
+    """)
+    chatbot = gr.Chatbot()
+    state = gr.State([])
+    with gr.Row():
+        txt = gr.Textbox(show_label=False, placeholder="여기에 질문을 쓰고 엔터").style(container=False)
+    clear = gr.Button("상담 새로 시작")
+    txt.submit(predict, inputs=[txt, chatbot, state], outputs=[chatbot, state]
+    )
+    clear.click(lambda: None, None, chatbot, queue=False)
+demo.launch(share=True)