{ "_name_or_path": "MIT/ast-finetuned-audioset-10-10-0.4593", "architectures": [ "ASTForAudioClassification" ], "attention_probs_dropout_prob": 0.0, "frequency_stride": 10, "hidden_act": "gelu", "hidden_dropout_prob": 0.0, "hidden_size": 768, "id2label": { "0": "0", "1": "101", "10": "151", "11": "156", "12": "166", "13": "169", "14": "171", "15": "172", "16": "18", "17": "182", "18": "187", "19": "189", "2": "106", "20": "190", "21": "192", "22": "200", "23": "205", "24": "207", "25": "209", "26": "211", "27": "218", "28": "219", "29": "221", "3": "112", "30": "224", "31": "226", "32": "227", "33": "229", "34": "237", "35": "239", "36": "242", "37": "244", "38": "257", "39": "26", "4": "117", "40": "260", "41": "262", "42": "265", "43": "278", "44": "281", "45": "3", "46": "312", "47": "317", "48": "328", "49": "343", "5": "122", "50": "351", "51": "354", "52": "356", "53": "358", "54": "359", "55": "368", "56": "369", "57": "371", "58": "372", "59": "373", "6": "129", "60": "378", "61": "380", "62": "383", "63": "385", "64": "386", "65": "391", "66": "394", "67": "397", "68": "4", "69": "422", "7": "134", "70": "423", "71": "424", "72": "426", "73": "427", "74": "428", "75": "46", "76": "49", "77": "5", "78": "50", "79": "58", "8": "137", "80": "6", "81": "66", "82": "67", "83": "69", "84": "7", "85": "71", "86": "73", "87": "82", "88": "84", "89": "86", "9": "139", "90": "87", "91": "89", "92": "96" }, "initializer_range": 0.02, "intermediate_size": 3072, "label2id": { "0": "0", "101": "1", "106": "2", "112": "3", "117": "4", "122": "5", "129": "6", "134": "7", "137": "8", "139": "9", "151": "10", "156": "11", "166": "12", "169": "13", "171": "14", "172": "15", "18": "16", "182": "17", "187": "18", "189": "19", "190": "20", "192": "21", "200": "22", "205": "23", "207": "24", "209": "25", "211": "26", "218": "27", "219": "28", "221": "29", "224": "30", "226": "31", "227": "32", "229": "33", "237": "34", "239": "35", "242": "36", "244": "37", "257": "38", "26": "39", "260": "40", "262": "41", "265": "42", "278": "43", "281": "44", "3": "45", "312": "46", "317": "47", "328": "48", "343": "49", "351": "50", "354": "51", "356": "52", "358": "53", "359": "54", "368": "55", "369": "56", "371": "57", "372": "58", "373": "59", "378": "60", "380": "61", "383": "62", "385": "63", "386": "64", "391": "65", "394": "66", "397": "67", "4": "68", "422": "69", "423": "70", "424": "71", "426": "72", "427": "73", "428": "74", "46": "75", "49": "76", "5": "77", "50": "78", "58": "79", "6": "80", "66": "81", "67": "82", "69": "83", "7": "84", "71": "85", "73": "86", "82": "87", "84": "88", "86": "89", "87": "90", "89": "91", "96": "92" }, "layer_norm_eps": 1e-12, "max_length": 1024, "model_type": "audio-spectrogram-transformer", "num_attention_heads": 12, "num_hidden_layers": 12, "num_mel_bins": 128, "patch_size": 16, "problem_type": "single_label_classification", "qkv_bias": true, "time_stride": 10, "torch_dtype": "float32", "transformers_version": "4.28.0" }