SzegedAI
/

charmen-electra

@@ -1,12 +1,11 @@
 {
   "architectures": [
-    "CharmenElectraForSequenceClassification"
   ],
   "attention_probs_dropout_prob": 0.1,
   "auto_map": {
     "AutoConfig": "config.CharmenElectraConfig",
-    "AutoModel": "modeling_charmen.CharmenElectraModel",
-    "AutoModelForSequenceClassification": "modeling_charmen.CharmenElectraForSequenceClassification"
   },
   "classifier_dropout": null,
   "downsampling_factor": 4,

 {
   "architectures": [
+    "CharmenElectraModel"
   ],
   "attention_probs_dropout_prob": 0.1,
   "auto_map": {
     "AutoConfig": "config.CharmenElectraConfig",
+    "AutoModel": "modeling_charmen.CharmenElectraModel"
   },
   "classifier_dropout": null,
   "downsampling_factor": 4,

modeling_charmen.py CHANGED Viewed

@@ -281,13 +281,13 @@ class CharmenElectraForTokenClassification(ElectraForTokenClassification):
         self.config = config
         self.carmen_config = config
-        self.model = CharmenElectraModel(config, compatibility_with_transformers=True)
         classifier_dropout = (
-            config.discriminator.classifier_dropout if config.discriminator.classifier_dropout is not None else config.discriminator.hidden_dropout_prob
         )
         self.dropout = nn.Dropout(classifier_dropout)
-        self.classifier = nn.Linear(config.discriminator.hidden_size, config.num_labels)
         self.cls_loss_fct = torch.nn.CrossEntropyLoss(weight=class_weight, label_smoothing=label_smoothing)
@@ -306,7 +306,7 @@ class CharmenElectraForTokenClassification(ElectraForTokenClassification):
             output_hidden_states=None,
             return_dict=None,
     ):
-        output_discriminator: CharmenElectraModelOutput = self.model(
             input_ids, attention_mask, token_type_ids)
         discriminator_sequence_output = self.dropout(output_discriminator.upsampled_hidden_states)
@@ -335,11 +335,15 @@ class CharmenElectraForTokenClassification(ElectraForTokenClassification):
             if key.startswith('generator'):
                 continue
             if key.startswith(prefix):
-                model[key[len(prefix):].replace('electra', 'model')] = value
             else:
                 model[key] = value
-        super(CharmenElectraForTokenClassification, self).load_state_dict(state_dict=model, strict=strict)
 class Pooler(nn.Module):
@@ -363,11 +367,11 @@ class CharmenElectraForMultipleChoice(ElectraForMultipleChoice):
         self.num_labels = config.num_labels
         self.config = config
         self.carmen_config = config
-        self.model = CharmenElectraModel(config, compatibility_with_transformers=True)
         self.pooler = Pooler(config)
         classifier_dropout = (
-            config.classifier_dropout if config.discriminator.classifier_dropout is not None else config.hidden_dropout_prob
         )
         self.dropout = nn.Dropout(classifier_dropout)
         self.classifier = nn.Linear(config.hidden_size, 1)
@@ -395,7 +399,7 @@ class CharmenElectraForMultipleChoice(ElectraForMultipleChoice):
         attention_mask = attention_mask.view(-1, attention_mask.size(-1)) if attention_mask is not None else None
         token_type_ids = token_type_ids.view(-1, token_type_ids.size(-1)) if token_type_ids is not None else None
-        output_discriminator: CharmenElectraModelOutput = self.model(
             input_ids, attention_mask, token_type_ids)
         if self.carmen_config.upsample_output:
@@ -423,8 +427,12 @@ class CharmenElectraForMultipleChoice(ElectraForMultipleChoice):
             if key.startswith('generator'):
                 continue
             if key.startswith(prefix):
-                model[key[len(prefix):].replace('electra', 'model')] = value
             else:
                 model[key] = value
-        super(CharmenElectraForMultipleChoice, self).load_state_dict(state_dict=model, strict=strict)

         self.config = config
         self.carmen_config = config
+        self.electra = CharmenElectraModel(config, compatibility_with_transformers=True)
         classifier_dropout = (
+            config.classifier_dropout if config.classifier_dropout is not None else config.hidden_dropout_prob
         )
         self.dropout = nn.Dropout(classifier_dropout)
+        self.classifier = nn.Linear(config.hidden_size, config.num_labels)
         self.cls_loss_fct = torch.nn.CrossEntropyLoss(weight=class_weight, label_smoothing=label_smoothing)
             output_hidden_states=None,
             return_dict=None,
     ):
+        output_discriminator: CharmenElectraModelOutput = self.electra(
             input_ids, attention_mask, token_type_ids)
         discriminator_sequence_output = self.dropout(output_discriminator.upsampled_hidden_states)
             if key.startswith('generator'):
                 continue
             if key.startswith(prefix):
+                if 'discriminator_predictions' in key:
+                    continue
+                model[key[len(prefix):]] = value
             else:
+                if key.startswith('sop'):
+                    continue
                 model[key] = value
+        super(CharmenElectraForTokenClassification, self).load_state_dict(state_dict=model, strict=False)
 class Pooler(nn.Module):
         self.num_labels = config.num_labels
         self.config = config
         self.carmen_config = config
+        self.electra = CharmenElectraModel(config, compatibility_with_transformers=True)
         self.pooler = Pooler(config)
         classifier_dropout = (
+            config.classifier_dropout if config.classifier_dropout is not None else config.hidden_dropout_prob
         )
         self.dropout = nn.Dropout(classifier_dropout)
         self.classifier = nn.Linear(config.hidden_size, 1)
         attention_mask = attention_mask.view(-1, attention_mask.size(-1)) if attention_mask is not None else None
         token_type_ids = token_type_ids.view(-1, token_type_ids.size(-1)) if token_type_ids is not None else None
+        output_discriminator: CharmenElectraModelOutput = self.electra(
             input_ids, attention_mask, token_type_ids)
         if self.carmen_config.upsample_output:
             if key.startswith('generator'):
                 continue
             if key.startswith(prefix):
+                if 'discriminator_predictions' in key:
+                    continue
+                model[key[len(prefix):]] = value
             else:
+                if key.startswith('sop'):
+                    continue
                 model[key] = value
+        super(CharmenElectraForMultipleChoice, self).load_state_dict(state_dict=model, strict=False)

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7fbf697109ad40b9993a69ce3081990186a0ca465eeab225871174ef39b19e0b
-size 175036189

 version https://git-lfs.github.com/spec/v1
+oid sha256:7074667cdc918bf66a2b408b6e879995964891452d4dd598f0b42fbbdc0ee60b
+size 173978597