AIDXteam commited on
Commit
5192ddd
β€’
1 Parent(s): 111032e

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +10 -5
README.md CHANGED
@@ -28,6 +28,10 @@ pipeline_tag: text-generation
28
  - KTDSbaseLM v0.11은 총 3.6GB 크기의 데이터λ₯Ό λ°”νƒ•μœΌλ‘œ ν•™μŠ΅λ˜μ—ˆμŠ΅λ‹ˆλ‹€. 총 233만 건의 QnA 데이터λ₯Ό ν¬ν•¨ν•˜λ©°,
29
  κ·Έ 쀑 133만 건은 135개 μ˜μ—­μ˜ 객관식 문제둜 κ΅¬μ„±λ˜μ—ˆμŠ΅λ‹ˆλ‹€. 이 μ˜μ—­μ—λŠ” ν•œκ΅­μ‚¬, μ‚¬νšŒ, 재무, 법λ₯ , 세무, μˆ˜ν•™, 생물, 물리, ν™”ν•™ 등이 ν¬ν•¨λ˜λ©°,
30
  Chain of Thought λ°©μ‹μœΌλ‘œ ν•™μŠ΅λ˜μ—ˆμŠ΅λ‹ˆλ‹€. λ˜ν•œ 130만 건의 주관식 λ¬Έμ œλŠ” ν•œκ΅­μ‚¬, 재무, 법λ₯ , 세무, μˆ˜ν•™ λ“± 100개 μ˜μ—­μ— 걸쳐 ν•™μŠ΅λ˜μ—ˆμŠ΅λ‹ˆλ‹€.
 
 
 
 
31
 
32
 
33
  ❸ μ‚¬μš© 사둀
@@ -46,11 +50,12 @@ pipeline_tag: text-generation
46
  편ν–₯된 데이터가 포함될 경우 편ν–₯된 응닡이 생성될 κ°€λŠ₯성도 μ‘΄μž¬ν•©λ‹ˆλ‹€.
47
 
48
  ❺ μ‚¬μš© 방법
49
- from transformers import AutoModel, AutoTokenizer
50
 
51
- tokenizer = AutoTokenizer.from_pretrained("your-model-name")
52
- model = AutoModel.from_pretrained("your-model-name")
53
 
54
- inputs = tokenizer("μ•ˆλ…•ν•˜μ„Έμš”", return_tensors="pt")
55
- outputs = model(**inputs)
 
56
 
 
28
  - KTDSbaseLM v0.11은 총 3.6GB 크기의 데이터λ₯Ό λ°”νƒ•μœΌλ‘œ ν•™μŠ΅λ˜μ—ˆμŠ΅λ‹ˆλ‹€. 총 233만 건의 QnA 데이터λ₯Ό ν¬ν•¨ν•˜λ©°,
29
  κ·Έ 쀑 133만 건은 135개 μ˜μ—­μ˜ 객관식 문제둜 κ΅¬μ„±λ˜μ—ˆμŠ΅λ‹ˆλ‹€. 이 μ˜μ—­μ—λŠ” ν•œκ΅­μ‚¬, μ‚¬νšŒ, 재무, 법λ₯ , 세무, μˆ˜ν•™, 생물, 물리, ν™”ν•™ 등이 ν¬ν•¨λ˜λ©°,
30
  Chain of Thought λ°©μ‹μœΌλ‘œ ν•™μŠ΅λ˜μ—ˆμŠ΅λ‹ˆλ‹€. λ˜ν•œ 130만 건의 주관식 λ¬Έμ œλŠ” ν•œκ΅­μ‚¬, 재무, 법λ₯ , 세무, μˆ˜ν•™ λ“± 100개 μ˜μ—­μ— 걸쳐 ν•™μŠ΅λ˜μ—ˆμŠ΅λ‹ˆλ‹€.
31
+ - ν•™μŠ΅ Instruction Format
32
+ {"prompt": "<prompt text>", "completion": "<ideal generated text>"}
33
+ {"prompt": "<prompt text>", "completion": "<ideal generated text>"}
34
+ {"prompt": "<prompt text>", "completion": "<ideal generated text>"}
35
 
36
 
37
  ❸ μ‚¬μš© 사둀
 
50
  편ν–₯된 데이터가 포함될 경우 편ν–₯된 응닡이 생성될 κ°€λŠ₯성도 μ‘΄μž¬ν•©λ‹ˆλ‹€.
51
 
52
  ❺ μ‚¬μš© 방법
53
+ >> from transformers import AutoModel, AutoTokenizer
54
 
55
+ >> tokenizer = AutoTokenizer.from_pretrained("")
56
+ >> model = AutoModel.from_pretrained("")
57
 
58
+ >> inputs = tokenizer("μ•ˆλ…•ν•˜μ„Έμš”", return_tensors="pt")
59
+ >> outputs = model(**inputs)
60
+ >>
61