File size: 1,797 Bytes
6950942 6553b90 6950942 6553b90 6950942 4c92409 6950942 6553b90 6950942 6553b90 6950942 6553b90 f0c3054 6950942 eef8bb4 6950942 f0c3054 6553b90 6950942 6553b90 6950942 6553b90 6950942 6553b90 6950942 6553b90 6950942 6553b90 6950942 6553b90 6950942 6553b90 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 |
---
language: fa
license: mit
pipeline_tag: text2text-generation
---
# BasePersianTextFormalizer
This model is fine-tuned to generate formal text from informal text based on the input provided. It has been fine-tuned on [Mohavere Dataset] (Takalli vahideh, Kalantari, Fateme, Shamsfard, Mehrnoush, Developing an Informal-Formal Persian Corpus, 2022.) using the pretrained model [parsT5-base](https://huggingface.co/Ahmad/parsT5-base).
## Usage
```python
from transformers import (T5ForConditionalGeneration, AutoTokenizer, pipeline)
import torch
model = T5ForConditionalGeneration.from_pretrained('PardisSzah/BasePersianTextFormalizer')
tokenizer = AutoTokenizer.from_pretrained('PardisSzah/BasePersianTextFormalizer')
pipe = pipeline(task='text2text-generation', model=model, tokenizer=tokenizer)
def test_model(text):
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model.to(device)
inputs = tokenizer.encode("informal: " + text, return_tensors='pt', max_length=128, truncation=True, padding='max_length')
inputs = inputs.to(device)
outputs = model.generate(inputs, max_length=128, num_beams=4)
print("Output:", tokenizer.decode(outputs[0], skip_special_tokens=True))
text = "به یکی از دوستام میگم که چرا اینکار رو میکنی چرا به فکرت نباید برسه "
print("Original:", text)
test_model(text)
# output: به یکی از دوستانم می گویم که چرا اینکار را می کنی چرا به فکرت نباید برسد
text = "اسم من پردیسه و خوشحالم که از این مدل خوشتون اومده "
print("Original:", text)
test_model(text)
# output: اسم من پردیس است و خوشحالم که از این مدل خوشتان آمده است
``` |