Symato
/

deberta-v3_vi

Model card Files Files and versions Community

tiendung commited on Jul 19, 2023

Commit

eff215c

•

1 Parent(s): 9989dcd

Upload 5 files

Browse files

Files changed (5) hide show

xsmall/README.md +1 -0
xsmall/discriminator.bin +3 -0
xsmall/generator.bin +3 -0
xsmall/model_config.json +61 -0
xsmall/training_RTD.log +0 -0

xsmall/README.md ADDED Viewed

	@@ -0,0 +1 @@


1	+ Bản xmall đc train trên 30GB text

xsmall/discriminator.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:977b70cb677b737ab9d35e1e1c9e0c9730a617ad7bfc4e693ac7f0776014ef42
+size 81059807

xsmall/generator.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9be0bbd57a269c079f56fc98bd7b62b4791067e700170181e4e450cea1742d85
+size 40924839

xsmall/model_config.json ADDED Viewed

	@@ -0,0 +1,61 @@

+{
+  "attention_probs_dropout_prob": 0.1,
+  "discriminator": {
+    "attention_head_size": 64,
+    "attention_probs_dropout_prob": 0.1,
+    "hidden_act": "gelu",
+    "hidden_dropout_prob": 0.1,
+    "hidden_size": 384,
+    "initializer_range": 0.02,
+    "intermediate_size": 1536,
+    "layer_norm_eps": 1e-07,
+    "max_position_embeddings": 512,
+    "max_relative_positions": -1,
+    "norm_rel_ebd": "layer_norm",
+    "num_attention_heads": 6,
+    "num_hidden_layers": 12,
+    "pos_att_type": "p2c|c2p",
+    "position_biased_input": false,
+    "position_buckets": 256,
+    "relative_attention": true,
+    "share_att_key": true,
+    "type_vocab_size": 0,
+    "vocab_size": 24064
+  },
+  "embedding_sharing": "gdes",
+  "generator": {
+    "attention_head_size": 64,
+    "attention_probs_dropout_prob": 0.1,
+    "hidden_act": "gelu",
+    "hidden_dropout_prob": 0.1,
+    "hidden_size": 384,
+    "initializer_range": 0.02,
+    "intermediate_size": 1536,
+    "layer_norm_eps": 1e-07,
+    "max_position_embeddings": 512,
+    "max_relative_positions": -1,
+    "norm_rel_ebd": "layer_norm",
+    "num_attention_heads": 6,
+    "num_hidden_layers": 6,
+    "pos_att_type": "p2c|c2p",
+    "position_biased_input": false,
+    "position_buckets": 256,
+    "relative_attention": true,
+    "share_att_key": true,
+    "type_vocab_size": 0,
+    "vocab_size": 24064
+  },
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "padding_idx": 0,
+  "type_vocab_size": 0,
+  "vocab_size": -1
+}

xsmall/training_RTD.log ADDED Viewed

The diff for this file is too large to render. See raw diff