Bản xmall - 9M backbone network parameters (12 layers, 256 hidden size) plus 6M embedding parameters (24k vocabulary size) - đc train trên 30GB text (24/100 of 120GB), 4090 24 vram, batch_size 40