divakaivan
/

llama3-finetuned-reviewer-kr

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

divakaivan commited on 25 days ago

Commit

30490d0

•

1 Parent(s): bae2fee

Update README.md

Files changed (1) hide show

README.md +7 -2

README.md CHANGED Viewed

@@ -15,8 +15,13 @@ tags:
 ```python
 from unsloth import FastLanguageModel
 model, tokenizer = FastLanguageModel.from_pretrained(
-    model_name = "divakaivan/llama3-finetuned-reviewer-kr", # YOUR MODEL YOU USED FOR TRAINING
     max_seq_length = max_seq_length,
     dtype = dtype,
     load_in_4bit = load_in_4bit,
@@ -26,7 +31,7 @@ FastLanguageModel.for_inference(model) # Enable native 2x faster inference
 inputs = tokenizer(
 [
     alpaca_prompt.format(
-        "", # input
         "", # output - leave this blank for generation!
     )
 ], return_tensors = "pt").to("cuda")

 ```python
 from unsloth import FastLanguageModel
+max_seq_length = 2048 # Choose any! We auto support RoPE Scaling internally!
+dtype = None # None for auto detection. Float16 for Tesla T4, V100, Bfloat16 for Ampere+
+load_in_4bit = True # Use 4bit quantization to reduce memory usage. Can be False.
 model, tokenizer = FastLanguageModel.from_pretrained(
+    model_name = "divakaivan/llama3-finetuned-reviewer-kr",
     max_seq_length = max_seq_length,
     dtype = dtype,
     load_in_4bit = load_in_4bit,
 inputs = tokenizer(
 [
     alpaca_prompt.format(
+        "", # input - place your input here
         "", # output - leave this blank for generation!
     )
 ], return_tensors = "pt").to("cuda")