Spaces:

umutbozdag
/

humanizer_model

Runtime error

App Files Files Community

lucidmorto commited on Jul 15

Commit

80915e3

•

1 Parent(s): 3f7af4c

feat: Upgrade to t5-large model and adjust training params

Browse files

Upgraded model from t5-base to t5-large for improved performance. Adjusted training parameters: increased epochs, reduced batch size due to larger model, increased warmup steps and gradient accumulation, and slightly lowered learning rate to enhance training stability. Adjusted evaluation and checkpoint saving frequency to align with updated model and training settings.

Files changed (2) hide show

app.py +1 -1
humanizer.py +11 -11

app.py CHANGED Viewed

@@ -1,7 +1,7 @@
 import gradio as gr
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
-model_name = "t5-base"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

 import gradio as gr
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
+model_name = "t5-large"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

humanizer.py CHANGED Viewed

@@ -40,7 +40,7 @@ processed_dataset = {split: data.map(prepare_data) for split, data in dataset.it
 logger.info("Dataset prepared.")
 # Tokenize the dataset
-model_name = "t5-base"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 def tokenize_function(examples):
@@ -63,25 +63,25 @@ model = T5ForConditionalGeneration.from_pretrained(model_name)
 training_args = Seq2SeqTrainingArguments(
     output_dir="./results",
-    num_train_epochs=3,  # Increase number of epochs
-    per_device_train_batch_size=32,  # Increase batch size if memory allows
-    per_device_eval_batch_size=32,
-    warmup_steps=500,
     weight_decay=0.01,
     logging_dir="./logs",
     logging_steps=100,
     evaluation_strategy="steps",
-    eval_steps=1000,
-    save_steps=1000,
-    use_cpu=False,  # Use GPU if available
     load_best_model_at_end=True,
     metric_for_best_model="eval_loss",
     greater_is_better=False,
-    fp16=True,  # Enable mixed precision training if GPU supports it
-    gradient_accumulation_steps=2,  # Accumulate gradients to simulate larger batch sizes
 )
-optimizer = torch.optim.AdamW(model.parameters(), lr=5e-5)
 scheduler = get_linear_schedule_with_warmup(
     optimizer,
     num_warmup_steps=500,

 logger.info("Dataset prepared.")
 # Tokenize the dataset
+model_name = "t5-large"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 def tokenize_function(examples):
 training_args = Seq2SeqTrainingArguments(
     output_dir="./results",
+    num_train_epochs=5,  # Increased epochs
+    per_device_train_batch_size=16,  # Reduced batch size due to larger model
+    per_device_eval_batch_size=16,
+    warmup_steps=1000,  # Increased warmup steps
     weight_decay=0.01,
     logging_dir="./logs",
     logging_steps=100,
     evaluation_strategy="steps",
+    eval_steps=500,
+    save_steps=500,
+    use_cpu=False,
     load_best_model_at_end=True,
     metric_for_best_model="eval_loss",
     greater_is_better=False,
+    fp16=True,
+    gradient_accumulation_steps=4,  # Increased to simulate larger batch sizes
 )
+optimizer = torch.optim.AdamW(model.parameters(), lr=3e-5)  # Slightly lower learning rate
 scheduler = get_linear_schedule_with_warmup(
     optimizer,
     num_warmup_steps=500,