SzegedAI
/

charmen-electra

Feature Extraction

byte representation

gradient boosting

Model card Files Files and versions Community

Tamás Ficsor commited on Aug 27, 2022

Commit

28e743a

•

1 Parent(s): 21d6318

add model

Files changed (1) hide show

modeling_charmen.py +4 -5

modeling_charmen.py CHANGED Viewed

@@ -220,7 +220,7 @@ class CharmenElectraForSequenceClassification(ElectraForSequenceClassification):
         self.num_labels = config.num_labels
         self.config = config
-        self.model = CharmenElectraModel(config, compatibility_with_transformers=True)
         self.classifier = CharmenElectraClassificationHead(config)
         self.cls_loss_fct = torch.nn.CrossEntropyLoss(weight=class_weight, label_smoothing=label_smoothing)
@@ -239,7 +239,7 @@ class CharmenElectraForSequenceClassification(ElectraForSequenceClassification):
             output_hidden_states=None,
             return_dict=None,
     ):
-        output_discriminator: CharmenElectraModelOutput = self.model(input_ids, attention_mask, token_type_ids)
         if self.carmen_config.upsample_output:
             cls = self.classifier(output_discriminator.upsampled_hidden_states)
@@ -256,7 +256,7 @@ class CharmenElectraForSequenceClassification(ElectraForSequenceClassification):
     def load_state_dict(self, state_dict: OrderDictType[str, Tensor], strict: bool = True):
         model = OrderedDict()
-        prefix = "discriminator.model"
         for key, value in state_dict.items():
             if key.startswith('generator'):
@@ -270,8 +270,7 @@ class CharmenElectraForSequenceClassification(ElectraForSequenceClassification):
                     continue
                 model[key] = value
-        self.model.load_state_dict(state_dict=model, strict=False)
-        self.classifier.load_state_dict(state_dict=model, strict=False)
 class CharmenElectraForTokenClassification(ElectraForTokenClassification):

         self.num_labels = config.num_labels
         self.config = config
+        self.electra = CharmenElectraModel(config, compatibility_with_transformers=True)
         self.classifier = CharmenElectraClassificationHead(config)
         self.cls_loss_fct = torch.nn.CrossEntropyLoss(weight=class_weight, label_smoothing=label_smoothing)
             output_hidden_states=None,
             return_dict=None,
     ):
+        output_discriminator: CharmenElectraModelOutput = self.electra(input_ids, attention_mask, token_type_ids)
         if self.carmen_config.upsample_output:
             cls = self.classifier(output_discriminator.upsampled_hidden_states)
     def load_state_dict(self, state_dict: OrderDictType[str, Tensor], strict: bool = True):
         model = OrderedDict()
+        prefix = "discriminator."
         for key, value in state_dict.items():
             if key.startswith('generator'):
                     continue
                 model[key] = value
+        super(CharmenElectraForSequenceClassification, self).load_state_dict(state_dict=model, strict=False)
 class CharmenElectraForTokenClassification(ElectraForTokenClassification):