{
  "_name_or_path": "MIT/ast-finetuned-audioset-10-10-0.4593",
  "architectures": [
    "ASTForAudioClassification"
  ],
  "attention_probs_dropout_prob": 0.0,
  "frequency_stride": 10,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.0,
  "hidden_size": 768,
  "id2label": {
    "0": "0",
    "1": "101",
    "10": "151",
    "11": "156",
    "12": "166",
    "13": "169",
    "14": "171",
    "15": "172",
    "16": "18",
    "17": "182",
    "18": "187",
    "19": "189",
    "2": "106",
    "20": "190",
    "21": "192",
    "22": "200",
    "23": "205",
    "24": "207",
    "25": "209",
    "26": "211",
    "27": "218",
    "28": "219",
    "29": "221",
    "3": "112",
    "30": "224",
    "31": "226",
    "32": "227",
    "33": "229",
    "34": "237",
    "35": "239",
    "36": "242",
    "37": "244",
    "38": "257",
    "39": "26",
    "4": "117",
    "40": "260",
    "41": "262",
    "42": "265",
    "43": "278",
    "44": "281",
    "45": "3",
    "46": "312",
    "47": "317",
    "48": "328",
    "49": "343",
    "5": "122",
    "50": "351",
    "51": "354",
    "52": "356",
    "53": "358",
    "54": "359",
    "55": "368",
    "56": "369",
    "57": "371",
    "58": "372",
    "59": "373",
    "6": "129",
    "60": "378",
    "61": "380",
    "62": "383",
    "63": "385",
    "64": "386",
    "65": "391",
    "66": "394",
    "67": "397",
    "68": "4",
    "69": "422",
    "7": "134",
    "70": "423",
    "71": "424",
    "72": "426",
    "73": "427",
    "74": "428",
    "75": "46",
    "76": "49",
    "77": "5",
    "78": "50",
    "79": "58",
    "8": "137",
    "80": "6",
    "81": "66",
    "82": "67",
    "83": "69",
    "84": "7",
    "85": "71",
    "86": "73",
    "87": "82",
    "88": "84",
    "89": "86",
    "9": "139",
    "90": "87",
    "91": "89",
    "92": "96"
  },
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "label2id": {
    "0": "0",
    "101": "1",
    "106": "2",
    "112": "3",
    "117": "4",
    "122": "5",
    "129": "6",
    "134": "7",
    "137": "8",
    "139": "9",
    "151": "10",
    "156": "11",
    "166": "12",
    "169": "13",
    "171": "14",
    "172": "15",
    "18": "16",
    "182": "17",
    "187": "18",
    "189": "19",
    "190": "20",
    "192": "21",
    "200": "22",
    "205": "23",
    "207": "24",
    "209": "25",
    "211": "26",
    "218": "27",
    "219": "28",
    "221": "29",
    "224": "30",
    "226": "31",
    "227": "32",
    "229": "33",
    "237": "34",
    "239": "35",
    "242": "36",
    "244": "37",
    "257": "38",
    "26": "39",
    "260": "40",
    "262": "41",
    "265": "42",
    "278": "43",
    "281": "44",
    "3": "45",
    "312": "46",
    "317": "47",
    "328": "48",
    "343": "49",
    "351": "50",
    "354": "51",
    "356": "52",
    "358": "53",
    "359": "54",
    "368": "55",
    "369": "56",
    "371": "57",
    "372": "58",
    "373": "59",
    "378": "60",
    "380": "61",
    "383": "62",
    "385": "63",
    "386": "64",
    "391": "65",
    "394": "66",
    "397": "67",
    "4": "68",
    "422": "69",
    "423": "70",
    "424": "71",
    "426": "72",
    "427": "73",
    "428": "74",
    "46": "75",
    "49": "76",
    "5": "77",
    "50": "78",
    "58": "79",
    "6": "80",
    "66": "81",
    "67": "82",
    "69": "83",
    "7": "84",
    "71": "85",
    "73": "86",
    "82": "87",
    "84": "88",
    "86": "89",
    "87": "90",
    "89": "91",
    "96": "92"
  },
  "layer_norm_eps": 1e-12,
  "max_length": 1024,
  "model_type": "audio-spectrogram-transformer",
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "num_mel_bins": 128,
  "patch_size": 16,
  "problem_type": "single_label_classification",
  "qkv_bias": true,
  "time_stride": 10,
  "torch_dtype": "float32",
  "transformers_version": "4.28.0"
}