qwen2.5

Running on Zero

CMLL commited on Jun 18

Commit

4fbe483

•

1 Parent(s): 7161b69

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -21,17 +21,27 @@ tokenizer = AutoTokenizer.from_pretrained(
 @spaces.GPU
 def single_turn_chat(question):
-    prompt = f"Question: {question}"
-    messages = [
-        {"role": "system", "content": "You are a helpful TCM medical assistant named 仲景中医大语言模型, created by 医哲未来 of Fudan University."},
-        {"role": "user", "content": prompt}
-    ]
-    input = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
-    model_inputs = tokenizer([input], return_tensors="pt").to(device)
-    generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=512)
-    generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)]
-    response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
-    return response
 @spaces.GPU
 def multi_turn_chat(question, chat_history=None):

 @spaces.GPU
 def single_turn_chat(question):
+    try:
+        prompt = f"Question: {question}"
+        messages = [
+            {"role": "system", "content": "You are a helpful TCM medical assistant named 仲景中医大语言模型, created by 医哲未来 of Fudan University."},
+            {"role": "user", "content": prompt}
+        ]
+        input = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
+        model_inputs = tokenizer([input], return_tensors="pt").to(device)
+        print("Debug: Model inputs prepared successfully.")
+        generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=512)
+        print("Debug: Model generation completed successfully.")
+        generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)]
+        response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
+        return response
+    except Exception as e:
+        print(f"Error during model invocation: {str(e)}")
+        raise
 @spaces.GPU
 def multi_turn_chat(question, chat_history=None):