Bản xmall | |
- 9M backbone network parameters (12 layers, 256 hidden size) plus 6M embedding parameters (24k vocabulary size) | |
- đc train trên 30GB text (24/100 of 120GB), 4090 24 vram, batch_size 40 |
Bản xmall | |
- 9M backbone network parameters (12 layers, 256 hidden size) plus 6M embedding parameters (24k vocabulary size) | |
- đc train trên 30GB text (24/100 of 120GB), 4090 24 vram, batch_size 40 |