Inquiry regarding replication differences in evaluation results

#1
by pfzhu - opened

Thank you for releasing the model and evaluation datasets. I am currently trying to use these datasets to replicate the results presented in your table. I employed the same models (LAION, Rinna, and StabilityAI) as those listed by you, but I obtained different results as follows:

jafood101 jaflower30 jafacility20 jalandmark10
laion/CLIP-ViT-H-14-frozen-xlm-roberta-large-laion5B-s13B-b90k 0.78 0.91 0.83 0.91
rinna/japanese-clip-vit-b-16 0.27 0.57 0.63 0.62
stabilityai/japanese-stable-clip-vit-l-16 0.65 0.90 0.70 0.79

Additionally, my results on ImageNetV2, Food101, and STAIR captions are also different from yours.
On the other hand, I obtained the same result as the one StabilityAI posted (https://ja.stability.ai/blog/japanese-stable-clip) for ImageNet-1K.
I am investigating the reasons for these differences and would appreciate it if you could provide more information, such as:

  • The template you used for zero-shot classification.
  • The results you obtained on ImageNet-1K.
Recruit Co., Ltd. org

@pfzhu
I'm sorry for my late reply.

Here's the template we used for ImageNetV2, jafood101, jaflower30, jafacility20, jalandmark10

[
    "{}の悪い写真",
    "多くの{}の写真",
    "{}の彫刻",
    "見づらい{}の写真",
    "{}の低解像度写真",
    "{}のレンダリング",
    "{}の落書き",
    "{}のトリミング写真",
    "{}のタトゥー",
    "刺繍された{}",
    "{}の明るい写真",
    "綺麗な{}の写真",
    "汚れた{}の写真",
    "{}の暗い写真",
    "{}の絵",
    "私の{}の写真",
    "プラスチック製の{}",
    "かっこいい{}の写真",
    "{}のクローズアップ写真",
    "{}の白黒写真",
    "{}のピクセル写真",
    "jpegで加工した{}の写真",
    "{}のぼやけた写真",
    "{}の写真",
    "{}の良い写真",
    "ゲームに登場する{}",
    "折り紙で作った{}",
    "{}のスケッチ",
    "おもちゃの{}",
    "{}の演出",
    "大きな{}の写真",
    "素敵な{}の写真",
    "奇妙な{}の写真",
    "漫画の{}",
    "{}の芸術",
    "{}のぬいぐるみ",
    "小さな{}の写真"
]

and here's the template for Food101

[
    "{}の悪い写真",
    "多くの{}の写真",
    "見づらい{}の写真",
    "{}の低解像度写真",
    "{}のレンダリング",
    "{}のトリミング写真",
    "{}の明るい写真",
    "綺麗な{}の写真",
    "汚れた{}の写真",
    "{}の暗い写真",
    "{}の絵",
    "私の{}の写真",
    "かっこいい{}の写真",
    "{}のクローズアップ写真",
    "{}の白黒写真",
    "{}のピクセル写真",
    "jpegで加工した{}の写真",
    "{}のぼやけた写真",
    "{}の写真",
    "{}の良い写真",
    "ゲームに登場する{}",
    "{}のスケッチ",
    "おもちゃの{}",
    "{}の演出",
    "大きな{}の写真",
    "素敵な{}の写真",
    "奇妙な{}の写真",
    "漫画の{}",
    "小さな{}の写真",
    "美味しそうな{}の写真",
    "まずそうな{}の写真"
]
Recruit Co., Ltd. org

We also translated ImageNetV2 classes and Food101 classes into Japanese name before we evaluate. Here's the translation mapping for ImageNetV2

{'tench': 'テンチ', 'goldfish': '金魚', 'great_white_shark': 'ホホジロザメ', 'tiger_shark': 'イタチザメ', 'hammerhead': 'ハンマーヘッド', 'electric_ray': 'シビレエイ', 'stingray': 'アカエイ', 'cock': 'コック', 'hen': 'めんどり', 'ostrich': 'ダチョウ', 'brambling': 'アトリ', 'goldfinch': 'ゴシキヒワ', 'house_finch': 'ハウスフィンチ', 'junco': 'ユキヒメドリ', 'indigo_bunting': 'インディゴホオジロ', 'robin': 'ロビン', 'bulbul': 'ブルブル', 'jay': 'カケス', 'magpie': 'カササギ', 'chickadee': '四十雀', 'water_ouzel': '水クロウタドリ', 'kite': '凧', 'bald_eagle': '白頭ワシ', 'vulture': 'ハゲワシ', 'great_grey_owl': 'カラフトフクロウ', 'European_fire_salamander': '欧州ファイアサラマンダー', 'common_newt': '共通イモリ', 'eft': 'イモリ', 'spotted_salamander': 'サンショウウオを発見', 'axolotl': 'アホロートル', 'bullfrog': 'ウシガエル', 'tree_frog': 'アマガエル', 'tailed_frog': 'つかれたカエル', 'loggerhead': 'とんちき', 'leatherback_turtle': 'オサガメ', 'mud_turtle': '鼈', 'terrapin': 'テラピン', 'box_turtle': 'ハコガメ', 'banded_gecko': '縞模様のヤモリ', 'common_iguana': '共通イグアナ', 'American_chameleon': 'アメリカンカメレオン', 'whiptail': 'ウィッペイル', 'agama': 'アガマトカゲ', 'frilled_lizard': 'フリルトカゲ', 'alligator_lizard': 'アリゲータートカゲ', 'Gila_monster': 'アメリカドクトカゲ', 'green_lizard': '緑のトカゲ', 'African_chameleon': 'アフリカのカメレオン', 'Komodo_dragon': 'コモドドラゴン', 'African_crocodile': 'アフリカのワニ', 'American_alligator': 'アメリカワニ', 'triceratops': 'トリケラトプス', 'thunder_snake': '雷のヘビ', 'ringneck_snake': 'リングネックスネーク', 'hognose_snake': 'ホーノースヘビ', 'green_snake': '緑のヘビ', 'king_snake': 'キングスネーク', 'garter_snake': 'ガータースネーク', 'water_snake': '水蛇', 'vine_snake': 'つるヘビ', 'night_snake': '夜のヘビ', 'boa_constrictor': 'ボア・コンストリクター', 'rock_python': 'ロックパイソン', 'Indian_cobra': 'インドコブラ', 'green_mamba': 'グリーンマンバ', 'sea_snake': 'ウミヘビ', 'horned_viper': 'ツノクサリヘビ', 'diamondback': 'ダイヤ', 'sidewinder': 'サイドワインダー', 'trilobite': '三葉虫', 'harvestman': '刈り入れ作業者', 'scorpion': 'サソリ', 'black_and_gold_garden_spider': '黒と金の庭クモ', 'barn_spider': '納屋クモ', 'garden_spider': '庭クモ', 'black_widow': 'クロゴケグモ', 'tarantula': 'タランチュラ', 'wolf_spider': 'オオカミのクモ', 'tick': 'ダニ', 'centipede': '百足', 'black_grouse': 'クロライチョウ', 'ptarmigan': '雷鳥', 'ruffed_grouse': 'ひだえりの付いたライチョウ', 'prairie_chicken': '草原チキン', 'peacock': '孔雀', 'quail': 'ウズラ', 'partridge': 'ヤマウズラ', 'African_grey': 'アフリカの灰色', 'macaw': 'コンゴウインコ', 'sulphur-crested_cockatoo': '硫黄トキオウム', 'lorikeet': 'インコ', 'coucal': 'バンケン', 'bee_eater': '蜂食べる人', 'hornbill': 'サイチョウ', 'hummingbird': 'ハチドリ', 'jacamar': '錐嘴', 'toucan': 'オオハシ', 'drake': 'ドレイク', 'red-breasted_merganser': '赤ブレストアイサ属のガモ', 'goose': 'ガチョウ', 'black_swan': '黒い白鳥', 'tusker': 'タスカービール', 'echidna': 'ハリモグラ', 'platypus': 'カモノハシ', 'wallaby': 'ワラビー', 'koala': 'コアラ', 'wombat': 'ウォンバット', 'jellyfish': 'クラゲ', 'sea_anemone': 'イソギンチャク', 'brain_coral': '脳サンゴ', 'flatworm': '扁形動物', 'nematode': '線虫', 'conch': '巻き貝', 'snail': 'カタツムリ', 'slug': 'ナメクジ', 'sea_slug': 'ウミウシ', 'chiton': 'キトン', 'chambered_nautilus': 'オウムガイ', 'Dungeness_crab': 'アメリカイチョウガニ', 'rock_crab': '岩カニ', 'fiddler_crab': 'シオマネキ', 'king_crab': 'タラバガニ', 'American_lobster': 'アメリカンロブスター', 'spiny_lobster': '伊勢エビ', 'crayfish': 'ザリガニ', 'hermit_crab': 'ヤドカリ', 'isopod': '等脚類', 'white_stork': 'コウノトリ', 'black_stork': 'ナベコウ', 'spoonbill': 'ヘラサギ', 'flamingo': 'フラミンゴ', 'little_blue_heron': '小さな青いサギ', 'American_egret': 'アメリカン白鷺', 'bittern': 'にがり', 'crane': 'クレーン', 'limpkin': 'ツルモドキ科の鳥', 'European_gallinule': 'ヨーロピアン水鳥', 'American_coot': 'アメリカオオバン', 'bustard': 'ノガン', 'ruddy_turnstone': 'キョウジョシギ', 'red-backed_sandpiper': '赤担保シギ', 'redshank': 'アカアシシギ', 'dowitcher': 'オオハシシギ', 'oystercatcher': 'ミヤコドリ', 'pelican': 'ペリカン', 'king_penguin': 'キングペンギン', 'albatross': 'アルバトロス', 'grey_whale': 'コククジラ', 'killer_whale': 'シャチ', 'dugong': 'ジュゴン', 'sea_lion': 'アシカ', 'Chihuahua': 'チワワ', 'Japanese_spaniel': '狆', 'Maltese_dog': 'マルチーズ犬', 'Pekinese': '狆', 'Shih-Tzu': 'シーズー、シーズー', 'Blenheim_spaniel': 'ブレナムスパニエル', 'papillon': 'パピヨン', 'toy_terrier': 'トイテリア', 'Rhodesian_ridgeback': 'ローデシアン・リッジバック', 'Afghan_hound': 'アフガンハウンド', 'basset': 'バセット犬', 'beagle': 'ビーグル', 'bloodhound': 'ブラッドハウンド', 'bluetick': 'ブルーティック', 'black-and-tan_coonhound': '黒と黄褐色の猟犬', 'Walker_hound': 'ウォーカーハウンド', 'English_foxhound': 'イングリッシュフォックスハウンド', 'redbone': 'レッドボーン', 'borzoi': 'ボルゾイ', 'Irish_wolfhound': 'アイリッシュ・ウルフハウンド', 'Italian_greyhound': 'イタリアングレーハウンド', 'whippet': 'ウィペット', 'Ibizan_hound': 'イビサハウンド', 'Norwegian_elkhound': 'ノルウェーエルクハウンド', 'otterhound': 'オッターハウンド', 'Saluki': 'サルーキ', 'Scottish_deerhound': 'スコティッシュ・ディアハウンド', 'Weimaraner': 'ワイマラナー', 'Staffordshire_bullterrier': 'スタフォードシャーブルテリア', 'American_Staffordshire_terrier': 'アメリカン・スタッフォードシャー・テリア', 'Bedlington_terrier': 'ベドリントンテリア', 'Border_terrier': 'ボーダーテリア', 'Kerry_blue_terrier': 'ケリーブルーテリア', 'Irish_terrier': 'アイリッシュテリア', 'Norfolk_terrier': 'ノーフォークテリア', 'Norwich_terrier': 'ノーリッチ・テリア', 'Yorkshire_terrier': 'ヨークシャーテリア', 'wire-haired_fox_terrier': 'ワイヤーヘアー・フォックステリア', 'Lakeland_terrier': 'レークランドテリア', 'Sealyham_terrier': 'シーリーハムテリア', 'Airedale': 'エアデール', 'cairn': 'ケルン', 'Australian_terrier': 'オーストラリアテリア', 'Dandie_Dinmont': 'ダンディディンモントテリア', 'Boston_bull': 'ボストンブル', 'miniature_schnauzer': 'ミニチュアシュナウザー', 'giant_schnauzer': 'ジャイアントシュナウザー', 'standard_schnauzer': 'スタンダードシュナウザー', 'Scotch_terrier': 'スコッチテリア', 'Tibetan_terrier': 'チベタンテリア', 'silky_terrier': 'シルキーテリア', 'soft-coated_wheaten_terrier': 'ソフトコーテッド・ウィートン・テリア', 'West_Highland_white_terrier': 'ウェストハイランドホワイトテリア', 'Lhasa': 'ラサ', 'flat-coated_retriever': 'フラットコーテッド・レトリーバー', 'curly-coated_retriever': 'カーリーコーティングされたレトリーバー', 'golden_retriever': 'ゴールデンレトリバー', 'Labrador_retriever': 'ラブラドル・レトリーバー犬', 'Chesapeake_Bay_retriever': 'チェサピーク湾レトリーバー', 'German_short-haired_pointer': 'ジャーマン・ショートヘア・ポインタ', 'vizsla': 'ビズラ', 'English_setter': 'イングリッシュセッター', 'Irish_setter': 'アイリッシュセッター', 'Gordon_setter': 'ゴードンセッター', 'Brittany_spaniel': 'ブリタニースパニエル', 'clumber': 'クランバー', 'English_springer': 'イングリッシュスプリンガー', 'Welsh_springer_spaniel': 'ウェルシュスプリンガースパニエル', 'cocker_spaniel': 'コッカースパニエル', 'Sussex_spaniel': 'サセックススパニエル', 'Irish_water_spaniel': 'アイルランドのウォータースパニエル', 'kuvasz': 'クバース犬', 'schipperke': 'スキッパーキー', 'groenendael': 'ベルジアン・シェパード・ドッグ・グローネンダール', 'malinois': 'マリノア', 'briard': 'ブリアール', 'kelpie': 'ケルピー', 'komondor': 'コモンドール', 'Old_English_sheepdog': 'オールドイングリッシュシープドッグ', 'Shetland_sheepdog': 'シェトランドシープドッグ', 'collie': 'コリー', 'Border_collie': 'ボーダーコリー', 'Bouvier_des_Flandres': 'ブーヴィエ・デ・フランドル', 'Rottweiler': 'ロットワイラー', 'German_shepherd': 'ジャーマンシェパード', 'Doberman': 'ドーベルマン犬', 'miniature_pinscher': 'ミニチュアピンシャー', 'Greater_Swiss_Mountain_dog': 'グレータースイスマウンテンドッグ', 'Bernese_mountain_dog': 'バーネーズマウンテンドッグ', 'Appenzeller': 'アッペンツェル', 'EntleBucher': 'エントレブッシャー', 'boxer': 'ボクサー', 'bull_mastiff': 'ブルマスチフ', 'Tibetan_mastiff': 'チベットマスチフ', 'French_bulldog': 'フレンチブルドッグ', 'Great_Dane': 'グレートデーン', 'Saint_Bernard': 'セントバーナード', 'Eskimo_dog': 'エスキモー犬', 'malamute': 'マラミュート', 'Siberian_husky': 'シベリアンハスキー', 'dalmatian': 'ダルメシアン', 'affenpinscher': 'アーフェンピンシャー', 'basenji': 'バセンジー', 'pug': 'パグ', 'Leonberg': 'レオンバーグ', 'Newfoundland': 'ニューファンドランド島', 'Great_Pyrenees': 'グレートピレニーズ', 'Samoyed': 'サモエド', 'Pomeranian': 'ポメラニアン', 'chow': 'チャウ', 'keeshond': 'キースホンド', 'Brabancon_griffon': 'ブラバンソングリフォン', 'Pembroke': 'ペンブローク', 'Cardigan': 'カーディガン', 'toy_poodle': 'トイプードル', 'miniature_poodle': 'ミニチュアプードル', 'standard_poodle': 'スタンダードプードル', 'Mexican_hairless': 'メキシカン・ヘアーレス', 'timber_wolf': 'シンリンオオカミ', 'white_wolf': '白いオオカミ', 'red_wolf': 'レッドウルフ', 'coyote': 'コヨーテ', 'dingo': 'ディンゴ', 'dhole': 'ドール', 'African_hunting_dog': 'リカオン', 'hyena': 'ハイエナ', 'red_fox': 'アカギツネ', 'kit_fox': 'キットキツネ', 'Arctic_fox': 'ホッキョクギツネ', 'grey_fox': '灰色のキツネ', 'tabby': 'タビー', 'tiger_cat': '虎猫', 'Persian_cat': 'ペルシャ猫', 'Siamese_cat': 'シャム猫', 'Egyptian_cat': 'エジプトの猫', 'cougar': 'クーガー', 'lynx': 'オオヤマネコ', 'leopard': 'ヒョウ', 'snow_leopard': 'ユキヒョウ', 'jaguar': 'ジャガー', 'lion': 'ライオン', 'tiger': '虎', 'cheetah': 'チーター', 'brown_bear': 'ヒグマ', 'American_black_bear': 'アメリカクロクマ', 'ice_bear': '氷のクマ', 'sloth_bear': 'ナマケグマ', 'mongoose': 'マングース', 'meerkat': 'ミーアキャット', 'tiger_beetle': 'ハンミョウ', 'ladybug': 'てんとう虫', 'ground_beetle': 'グランドビートル', 'long-horned_beetle': 'カミキリムシ', 'leaf_beetle': 'ハムシ', 'dung_beetle': 'フンコロガシ', 'rhinoceros_beetle': 'サイハムシ', 'weevil': 'ゾウムシ', 'fly': 'ハエ', 'bee': '蜂', 'ant': '蟻', 'grasshopper': 'バッタ', 'cricket': 'クリケット', 'walking_stick': '杖', 'cockroach': 'ゴキブリ', 'mantis': 'カマキリ', 'cicada': '蝉', 'leafhopper': 'ヨコバイ', 'lacewing': 'クサカゲロウ', 'dragonfly': 'トンボ', 'damselfly': 'イトトンボ', 'admiral': '提督', 'ringlet': 'リングレット', 'monarch': '君主', 'cabbage_butterfly': 'モンシロチョウ', 'sulphur_butterfly': '硫黄蝶', 'lycaenid': 'シジミチョウ', 'starfish': 'ヒトデ', 'sea_urchin': 'うに', 'sea_cucumber': 'ナマコ', 'wood_rabbit': '木のウサギ', 'hare': '野ウサギ', 'Angora': 'アンゴラ', 'hamster': 'ハムスター', 'porcupine': 'ヤマアラシ', 'fox_squirrel': 'キツネリス', 'marmot': 'マーモット', 'beaver': 'ビーバー', 'guinea_pig': 'モルモット', 'sorrel': '栗色', 'zebra': 'シマウマ', 'hog': '豚', 'wild_boar': 'イノシシ', 'warthog': 'イボイノシシ', 'hippopotamus': 'カバ', 'ox': '雄牛', 'water_buffalo': '水牛', 'bison': 'バイソン', 'ram': 'ラム', 'bighorn': 'ビッグホーン', 'ibex': 'アイベックス', 'hartebeest': 'ハーテビースト', 'impala': 'インパラ', 'gazelle': 'ガゼル', 'Arabian_camel': 'アラビアラクダ', 'llama': 'ラマ', 'weasel': 'イタチ', 'mink': 'ミンク', 'polecat': 'ケナガイタチ', 'black-footed_ferret': 'クロアシイタチ', 'otter': 'カワウソ', 'skunk': 'スカンク', 'badger': '狸', 'armadillo': 'アルマジロ', 'three-toed_sloth': 'ミユビナマケモノ', 'orangutan': 'オランウータン', 'gorilla': 'ゴリラ', 'chimpanzee': 'チンパンジー', 'gibbon': 'テナガザル', 'siamang': 'フクロテナガザル', 'guenon': 'オナガザル', 'patas': 'パタス', 'baboon': 'ヒヒ', 'macaque': 'マカク', 'langur': 'ヤセザル', 'colobus': 'コロブス属', 'proboscis_monkey': 'テングザル', 'marmoset': 'マーモセット', 'capuchin': 'オマキザル', 'howler_monkey': 'ホエザル', 'titi': 'ティティ', 'spider_monkey': 'クモザル', 'squirrel_monkey': 'リスザル', 'Madagascar_cat': 'マダガスカル猫', 'indri': 'インドリ', 'Indian_elephant': 'インドゾウ', 'African_elephant': 'アフリカゾウ', 'lesser_panda': 'レッサーパンダ', 'giant_panda': 'ジャイアントパンダ', 'barracouta': 'バラクータ', 'eel': 'ウナギ', 'coho': 'ギンザケ', 'rock_beauty': '岩の美しさ', 'anemone_fish': 'クマノミ', 'sturgeon': 'チョウザメ', 'gar': 'ガー', 'lionfish': 'ミノカサゴ', 'puffer': 'フグ', 'abacus': 'そろばん', 'abaya': 'アバヤ', 'academic_gown': 'アカデミックガウン', 'accordion': 'アコーディオン', 'acoustic_guitar': 'アコースティックギター', 'aircraft_carrier': '空母', 'airliner': '旅客機', 'airship': '飛行船', 'altar': '祭壇', 'ambulance': '救急車', 'amphibian': '両生類', 'analog_clock': 'アナログ時計', 'apiary': '養蜂場', 'apron': 'エプロン', 'ashcan': 'ごみ入れ', 'assault_rifle': 'アサルトライフル', 'backpack': 'バックパック', 'bakery': 'ベーカリー', 'balance_beam': '平均台', 'balloon': 'バルーン', 'ballpoint': 'ボールペン', 'Band_Aid': 'バンドエイド', 'banjo': 'バンジョー', 'bannister': 'バニスター', 'barbell': 'バーベル', 'barber_chair': '理髪店の椅子', 'barbershop': '理髪店', 'barn': '納屋', 'barometer': 'バロメーター', 'barrel': 'バレル', 'barrow': 'バロー', 'baseball': '野球', 'basketball': 'バスケットボール', 'bassinet': 'バシネット', 'bassoon': 'ファゴット', 'bathing_cap': '水泳帽', 'bath_towel': 'バスタオル', 'bathtub': 'バスタブ', 'beach_wagon': 'ビーチワゴン', 'beacon': 'ビーコン', 'beaker': 'ビーカー', 'bearskin': 'ベアスキン', 'beer_bottle': 'ビール瓶', 'beer_glass': 'ビールグラス', 'bell_cote': 'ベルコート', 'bib': 'ビブ', 'bicycle-built-for-two': '自転車', 'bikini': 'ビキニ', 'binder': 'バインダー', 'binoculars': '双眼鏡', 'birdhouse': '巣箱', 'boathouse': 'ボートハウス', 'bobsled': 'ボブスレー', 'bolo_tie': 'ループタイ', 'bonnet': 'ボンネット', 'bookcase': '本棚', 'bookshop': '書店', 'bottlecap': '瓶のキャップ', 'bow': '弓', 'bow_tie': 'ちょうネクタイ', 'brass': '真鍮', 'brassiere': 'ブラジャー', 'breakwater': '防波堤', 'breastplate': '胸当て', 'broom': 'ほうき', 'bucket': 'バケツ', 'buckle': 'バックル', 'bulletproof_vest': '防弾チョッキ', 'bullet_train': '新幹線', 'butcher_shop': '精肉店', 'cab': 'タクシー', 'caldron': '大釜', 'candle': 'キャンドル', 'cannon': '大砲', 'canoe': 'カヌー', 'can_opener': '缶切り', 'cardigan': 'カーディガン', 'car_mirror': '車のミラー', 'carousel': '回転木馬', "carpenter's_kit": '大工のキット', 'carton': 'カートン', 'car_wheel': '車のホイール', 'cash_machine': '現金自動預け払い機', 'cassette': 'カセット', 'cassette_player': 'カセット・プレーヤー', 'castle': '城', 'catamaran': 'カタマラン', 'CD_player': 'CDプレーヤー', 'cello': 'チェロ', 'cellular_telephone': 'スマートフォン', 'chain': '鎖', 'chainlink_fence': 'チェーンリンクフェンス', 'chain_mail': 'チェーンメール', 'chain_saw': 'チェーンソー', 'chest': '胸', 'chiffonier': 'シフォニア', 'chime': 'チャイム', 'china_cabinet': '中国キャビネット', 'Christmas_stocking': 'クリスマスの靴下', 'church': '教会', 'cinema': '映画', 'cleaver': 'クリーバー', 'cliff_dwelling': '崖の住居', 'cloak': 'マント', 'clog': 'クロッグ', 'cocktail_shaker': 'カクテルシェーカー', 'coffee_mug': 'コーヒーマグ', 'coffeepot': 'コーヒーポット', 'coil': 'コイル', 'combination_lock': 'ダイヤル錠', 'computer_keyboard': 'コンピュータのキーボード', 'confectionery': '製菓', 'container_ship': 'コンテナ船', 'convertible': 'コンバーチブル', 'corkscrew': 'コークスクリュー', 'cornet': 'コルネット', 'cowboy_boot': 'カウボーイブーツ', 'cowboy_hat': 'カウボーイハット', 'cradle': 'クレードル', 'crash_helmet': 'クラッシュヘルメット', 'crate': '木箱', 'crib': 'ベビーベッド', 'Crock_Pot': 'クロークポット', 'croquet_ball': 'クロケットボール', 'crutch': '松葉杖', 'cuirass': '胸当て', 'dam': 'ダム', 'desk': '机', 'desktop_computer': 'デスクトップコンピューター', 'dial_telephone': 'ダイヤル電話', 'diaper': 'おむつ', 'digital_clock': 'デジタル時計', 'digital_watch': 'デジタル腕時計', 'dining_table': 'ダイニングテーブル', 'dishrag': '意気地なし', 'dishwasher': '食器洗い機', 'disk_brake': 'ディスクブレーキ', 'dock': 'ドック', 'dogsled': '犬ぞり', 'dome': 'ドーム', 'doormat': '玄関マット', 'drilling_platform': '掘削基地', 'drum': 'ドラム', 'drumstick': 'ドラムスティック', 'dumbbell': 'ダンベル', 'Dutch_oven': 'ダッチオーブン', 'electric_fan': '扇風機', 'electric_guitar': 'エレキギター', 'electric_locomotive': '電気機関車', 'entertainment_center': '娯楽施設', 'envelope': '封筒', 'espresso_maker': 'エスプレッソマシーン', 'face_powder': 'フェースパウダー', 'feather_boa': 'フェザーボア', 'file': 'ファイル', 'fireboat': '消防艇', 'fire_engine': '消防車', 'fire_screen': 'ファイアースクリーン', 'flagpole': '旗竿', 'flute': 'フルート', 'folding_chair': '折り畳み式椅子', 'football_helmet': 'フットボールヘルメット', 'forklift': 'フォークリフト', 'fountain': '噴水', 'fountain_pen': '万年筆', 'four-poster': '四柱', 'freight_car': '貨車', 'French_horn': 'フレンチホルン', 'frying_pan': 'フライパン', 'fur_coat': '毛皮のコート', 'garbage_truck': 'ごみ収集車', 'gasmask': 'ガスマスク', 'gas_pump': 'ガソリンポンプ', 'goblet': 'ゴブレット', 'go-kart': 'ゴーカート', 'golf_ball': 'ゴルフボール', 'golfcart': 'ゴルフカート', 'gondola': 'ゴンドラ', 'gong': 'ゴング', 'gown': 'ガウン', 'grand_piano': 'グランドピアノ', 'greenhouse': '温室', 'grille': 'グリル', 'grocery_store': '食料品店', 'guillotine': 'ギロチン', 'hair_slide': 'ヘアスライド', 'hair_spray': 'ヘアスプレー', 'half_track': '半トラック', 'hammer': 'ハンマー', 'hamper': '妨げます', 'hand_blower': 'ハンドブロワー', 'hand-held_computer': 'タブレット', 'handkerchief': 'ハンカチ', 'hard_disc': 'ハードディスク', 'harmonica': 'ハーモニカ', 'harp': 'ハープ', 'harvester': 'ハーベスタ', 'hatchet': '斧', 'holster': 'ホルスター', 'home_theater': 'ホームシアター', 'honeycomb': 'ハニカム', 'hook': 'フック', 'hoopskirt': 'フープスカート', 'horizontal_bar': '水平バー', 'horse_cart': '馬車', 'hourglass': '砂時計', 'iPod': 'アイフォーン', 'iron': '鉄', "jack-o'-lantern": 'ジャックオーランタン', 'jean': 'ジーンズ', 'jeep': 'ジープ', 'jersey': 'ジャージー', 'jigsaw_puzzle': 'ジグソーパズル', 'jinrikisha': '人力車', 'joystick': 'ジョイスティック', 'kimono': '着物', 'knee_pad': '膝パッド', 'knot': '結び目', 'lab_coat': '白衣', 'ladle': 'ひしゃく', 'lampshade': 'ランプのかさ', 'laptop': 'ノートパソコン', 'lawn_mower': '芝刈り機', 'lens_cap': 'レンズキャップ', 'letter_opener': 'レターオープナー', 'library': 'ライブラリ', 'lifeboat': '救命ボート', 'lighter': 'ライター', 'limousine': 'リムジン', 'liner': 'ライナー', 'lipstick': '口紅', 'Loafer': 'ローファー', 'lotion': 'ローション', 'loudspeaker': 'スピーカー', 'loupe': 'ルーペ', 'lumbermill': '製材所', 'magnetic_compass': '磁気コンパス', 'mailbag': '郵袋', 'mailbox': 'メールボックス', 'maillot': 'マイヨ', 'manhole_cover': 'マンホールの蓋', 'maraca': 'マラカス', 'marimba': 'マリンバ', 'mask': 'マスク', 'matchstick': 'マッチ棒', 'maypole': 'メイポール', 'maze': '迷路', 'measuring_cup': '計量カップ', 'medicine_chest': '薬箱', 'megalith': '巨石', 'microphone': 'マイク', 'microwave': 'マイクロ波', 'military_uniform': '軍服', 'milk_can': 'ミルク缶', 'minibus': 'ミニバス', 'miniskirt': 'ミニスカート', 'minivan': 'ミニバン', 'missile': 'ミサイル', 'mitten': 'ミトン', 'mixing_bowl': 'ミキシングボウル', 'mobile_home': '移動住宅', 'Model_T': 'モデルT', 'modem': 'モデム', 'monastery': '修道院', 'monitor': 'モニター', 'moped': 'モペット', 'mortar': 'モルタル', 'mortarboard': 'モルタルボード', 'mosque': 'モスク', 'mosquito_net': '蚊帳', 'motor_scooter': 'スクーター', 'mountain_bike': 'マウンテンバイク', 'mountain_tent': '山のテント', 'mouse': 'マウス', 'mousetrap': 'ネズミ捕り', 'moving_van': '引っ越しトラック', 'muzzle': '銃口', 'nail': 'ネイル', 'neck_brace': 'ネックブレース', 'necklace': 'ネックレス', 'nipple': '乳首', 'notebook': 'ノート', 'obelisk': 'オベリスク', 'oboe': 'オーボエ', 'ocarina': 'オカリナ', 'odometer': 'オドメーター', 'oil_filter': 'オイルフィルター', 'organ': '器官', 'oscilloscope': 'オシロスコープ', 'overskirt': 'オーバースカート', 'oxcart': '牛車', 'oxygen_mask': '酸素マスク', 'packet': 'パケット', 'paddle': 'パドル', 'paddlewheel': 'パドルホイール', 'padlock': '南京錠', 'paintbrush': '絵筆', 'pajama': 'パジャマ', 'palace': '宮殿', 'panpipe': 'パンパイプ', 'paper_towel': 'ペーパータオル', 'parachute': 'パラシュート', 'parallel_bars': '平行棒', 'park_bench': '公園のベンチ', 'parking_meter': 'パーキングメーター', 'passenger_car': '乗用車', 'patio': 'パティオ', 'pay-phone': '有料電話', 'pedestal': '台座', 'pencil_box': '筆箱', 'pencil_sharpener': '鉛筆削り', 'perfume': '香水', 'Petri_dish': 'ペトリ皿', 'photocopier': 'コピー機', 'pick': '選ぶ', 'pickelhaube': 'スパイク付き鉄かぶと', 'picket_fence': '杭柵', 'pickup': '拾う', 'pier': '桟橋', 'piggy_bank': '貯金箱', 'pill_bottle': '錠剤瓶', 'pillow': '枕', 'ping-pong_ball': 'ピンポン球', 'pinwheel': '風車', 'pirate': '海賊', 'pitcher': 'ピッチャー', 'plane': '飛行機', 'planetarium': 'プラネタリウム', 'plastic_bag': 'ビニール袋', 'plate_rack': '皿立て', 'plow': 'プラウ', 'plunger': 'プランジャー', 'Polaroid_camera': 'ポラロイドカメラ', 'pole': 'ポール', 'police_van': '警察車', 'poncho': 'ポンチョ', 'pool_table': 'ビリヤード台', 'pop_bottle': 'ポップ・ボトル', 'pot': 'ポット', "potter's_wheel": 'ろくろ', 'power_drill': 'パワードリル', 'prayer_rug': '礼拝用敷物', 'printer': 'プリンタ', 'prison': '刑務所', 'projectile': '発射体', 'projector': 'プロジェクター', 'puck': 'パック', 'punching_bag': 'サンドバッグ', 'purse': '財布', 'quill': 'クイル', 'quilt': 'キルト', 'racer': 'レーサー', 'racket': 'ラケット', 'radiator': 'ラジエーター', 'radio': '無線', 'radio_telescope': '電波望遠鏡', 'rain_barrel': '天水桶', 'recreational_vehicle': 'RV車', 'reel': 'リール', 'reflex_camera': 'レフレックスカメラ', 'refrigerator': '冷蔵庫', 'remote_control': 'リモコン', 'restaurant': 'レストラン', 'revolver': 'リボルバー', 'rifle': 'ライフル', 'rocking_chair': 'ロッキングチェア', 'rotisserie': '焼肉料理店', 'rubber_eraser': '消しゴム', 'rugby_ball': 'ラグビーボール', 'rule': 'ルール', 'running_shoe': 'ランニングシューズ', 'safe': '安全', 'safety_pin': '安全ピン', 'saltshaker': '塩の入れ物', 'sandal': 'サンダル', 'sarong': 'サロン', 'sax': 'サックス', 'scabbard': '鞘', 'scale': '規模', 'school_bus': 'スクールバス', 'schooner': 'スクーナー', 'scoreboard': 'スコアボード', 'screen': '画面', 'screw': 'スクリュー', 'screwdriver': 'ドライバー', 'seat_belt': 'シートベルト', 'sewing_machine': 'ミシン', 'shield': 'シールド', 'shoe_shop': '靴屋', 'shoji': '障子', 'shopping_basket': '買い物かご', 'shopping_cart': 'ショッピングカート', 'shovel': 'シャベル', 'shower_cap': 'シャワーキャップ', 'shower_curtain': 'シャワーカーテン', 'ski': 'スキー', 'ski_mask': 'スキーマスク', 'sleeping_bag': '寝袋', 'slide_rule': '計算尺', 'sliding_door': '引き戸', 'slot': 'スロット', 'snorkel': 'スノーケル', 'snowmobile': 'スノーモービル', 'snowplow': '除雪機', 'soap_dispenser': 'ソープディスペンサー', 'soccer_ball': 'サッカーボール', 'sock': '靴下', 'solar_dish': '太陽の皿', 'sombrero': 'ソンブレロ', 'soup_bowl': 'スープ皿', 'space_bar': 'スペースキー', 'space_heater': 'スペースヒーター', 'space_shuttle': 'スペースシャトル', 'spatula': 'へら', 'speedboat': 'スピードボート', 'spider_web': 'クモの巣', 'spindle': 'スピンドル', 'sports_car': 'スポーツカー', 'spotlight': 'スポットライト', 'stage': 'ステージ', 'steam_locomotive': '蒸気機関車', 'steel_arch_bridge': '鋼アーチ橋', 'steel_drum': 'スチールドラム', 'stethoscope': '聴診器', 'stole': 'ストール', 'stone_wall': '石垣', 'stopwatch': 'ストップウォッチ', 'stove': 'レンジ', 'strainer': 'ストレーナー', 'streetcar': '路面電車', 'stretcher': 'ストレッチャー', 'studio_couch': 'スタジオソファ', 'stupa': '仏舎利塔', 'submarine': '潜水艦', 'suit': 'スーツ', 'sundial': '日時計', 'sunglass': 'サングラス', 'sunglasses': 'サングラス', 'sunscreen': '日焼け止め剤', 'suspension_bridge': 'つり橋', 'swab': '綿棒', 'sweatshirt': 'トレーナー', 'swimming_trunks': '海パン', 'swing': 'スイング', 'switch': 'スイッチ', 'syringe': '注射器', 'table_lamp': '電気スタンド', 'tank': 'タンク', 'tape_player': 'テーププレーヤー', 'teapot': 'ティーポット', 'teddy': 'テディ', 'television': 'テレビ', 'tennis_ball': 'テニスボール', 'thatch': 'サッチ', 'theater_curtain': '劇場のカーテン', 'thimble': '指ぬき', 'thresher': '脱穀機', 'throne': '王位', 'tile_roof': '瓦屋根', 'toaster': 'トースター', 'tobacco_shop': 'タバコ屋', 'toilet_seat': '便座', 'torch': 'トーチ', 'totem_pole': 'トーテムポール', 'tow_truck': 'レッカー車', 'toyshop': '玩具屋', 'tractor': 'トラクター', 'trailer_truck': 'トレーラートラック', 'tray': 'トレイ', 'trench_coat': 'トレンチコート', 'tricycle': '三輪車', 'trimaran': '三胴船', 'tripod': '三脚', 'triumphal_arch': '凱旋門', 'trolleybus': 'トロリーバス', 'trombone': 'トロンボーン', 'tub': 'バスタブ', 'turnstile': '回転ドア', 'typewriter_keyboard': 'タイプライターのキーボード', 'umbrella': '傘', 'unicycle': '一輪車', 'upright': '直立', 'vacuum': '真空', 'vase': '花瓶', 'vault': 'ボールト', 'velvet': 'ベルベット', 'vending_machine': '自動販売機', 'vestment': '祭服', 'viaduct': '高架橋', 'violin': 'バイオリン', 'volleyball': 'バレーボール', 'waffle_iron': 'ワッフル焼き型', 'wall_clock': '壁時計', 'wallet': '財布', 'wardrobe': 'ワードローブ', 'warplane': '戦闘機', 'washbasin': '洗面器', 'washer': 'ワッシャー', 'water_bottle': '水筒', 'water_jug': '水差し', 'water_tower': '給水塔', 'whiskey_jug': 'ウイスキージャグ', 'whistle': 'ホイッスル', 'wig': 'かつら', 'window_screen': '窓網戸', 'window_shade': 'ブラインド', 'Windsor_tie': 'ウィンザーネクタイ', 'wine_bottle': 'ワインボトル', 'wing': '翼', 'wok': '中華鍋', 'wooden_spoon': '木製スプーン', 'wool': 'ウール', 'worm_fence': 'ワームフェンス', 'wreck': '難破船', 'yawl': 'ヨール', 'yurt': 'パオ', 'web_site': 'サイト', 'comic_book': 'コミックブック', 'crossword_puzzle': 'クロスワードパズル', 'street_sign': '道路標識', 'traffic_light': '交通信号灯', 'book_jacket': 'ブックカバー', 'menu': 'メニュー', 'plate': 'プレート', 'guacamole': 'グアカモーレ', 'consomme': 'コンソメ', 'hot_pot': 'ホットポット', 'trifle': 'パフェ', 'ice_cream': 'アイスクリーム', 'ice_lolly': 'アイスキャンディー', 'French_loaf': 'フランスパン', 'bagel': 'ベーグル', 'pretzel': 'プレッツェル', 'cheeseburger': 'チーズバーガー', 'hotdog': 'ホットドッグ', 'mashed_potato': 'マッシュポテト', 'head_cabbage': 'キャベツ', 'broccoli': 'ブロッコリー', 'cauliflower': 'カリフラワー', 'zucchini': 'ズッキーニ', 'spaghetti_squash': 'そうめんかぼちゃ', 'acorn_squash': 'ドングリかぼちゃ', 'butternut_squash': 'カボチャ', 'cucumber': 'キュウリ', 'artichoke': 'アーティチョーク', 'bell_pepper': 'ピーマン', 'cardoon': 'カルドン', 'mushroom': 'キノコ', 'Granny_Smith': 'リンゴ', 'strawberry': 'イチゴ', 'orange': 'オレンジ', 'lemon': 'レモン', 'fig': 'イチジク', 'pineapple': 'パイナップル', 'banana': 'バナナ', 'jackfruit': 'パラミツ', 'custard_apple': 'カスタードアップル', 'pomegranate': 'ザクロ', 'hay': '干し草', 'carbonara': 'カルボナーラ', 'chocolate_sauce': 'チョコレートソース', 'dough': 'パン生地', 'meat_loaf': 'ミートローフ', 'pizza': 'ピザ', 'potpie': 'ポットパイ', 'burrito': 'ブリトー', 'red_wine': '赤ワイン', 'espresso': 'エスプレッソ', 'cup': 'カップ', 'eggnog': 'エッグノッグ', 'alp': 'アルプス', 'bubble': 'バブル', 'cliff': '崖', 'coral_reef': 'サンゴ礁', 'geyser': '間欠泉', 'lakeside': '湖畔', 'promontory': '岬', 'sandbar': '砂州', 'seashore': '海岸', 'valley': '谷', 'volcano': '火山', 'ballplayer': '野球選手', 'groom': '新郎', 'scuba_diver': 'スキューバダイバー', 'rapeseed': '菜種', 'daisy': 'デイジー', "yellow_lady's_slipper": '蘭', 'corn': 'トウモロコシ', 'acorn': 'ドングリ', 'hip': 'ヒップ', 'buckeye': 'トチノキ', 'coral_fungus': 'サンゴ菌', 'agaric': 'ハラタケ', 'gyromitra': 'シャグマアミガサタケ', 'stinkhorn': 'スッポンタケ', 'earthstar': 'ハラタケ', 'hen-of-the-woods': '舞茸', 'bolete': 'きのこ', 'ear': '耳', 'toilet_tissue': 'トイレットペーパー'}

and here's the translation for Food101 (class ids and the list indices are corresponding)

[
    "アップルパイ",
    "ベビーバックリブステーキ",
    "バクラヴァ",
    "牛肉のカルパッチョ",
    "牛肉のタルタル",
    "ビーツサラダ",
    "ベニエ",
    "ビビンバ",
    "パンプディング",
    "朝食ブリトー",
    "ブルスケッタ",
    "シーザーサラダ",
    "カンノーロ",
    "カプレーゼサラダ",
    "キャロットケーキ",
    "セビチェ",
    "チーズプレート",
    "チーズケーキ",
    "チキンカレー",
    "チキンケサディーヤ",
    "鶏手羽",
    "チョコレートケーキ",
    "チョコレートムース",
    "チュロス",
    "クラムチャウダー",
    "クラブハウスサンド",
    "クラブケーキ",
    "クリームブリュレ",
    "クロックマダム",
    "カップケーキ",
    "デビルドエッグ",
    "ドーナッツ",
    "ダンプリング",
    "枝豆",
    "エッグベネディクト",
    "エスカルゴ",
    "ファラフェル",
    "フィレミニョン",
    "フィッシュアンドチップス",
    "フォアグラ",
    "フレンチフライ",
    "オニオンスープ",
    "フレンチトースト",
    "イカフライ",
    "焼き飯",
    "フローズンヨーグルト",
    "ガーリックトースト",
    "ニョッキ",
    "グリークサラダ",
    "ホットサンド",
    "焼き鮭",
    "ワカモレ",
    "餃子",
    "ハンバーガー",
    "酸辣湯",
    "ホットドッグ",
    "ウェボスランチェロス",
    "フムス",
    "アイスクリーム",
    "ラザニア",
    "海老のビスク",
    "ロブスターロールサンド",
    "マカロニチーズ",
    "マカロン",
    "味噌汁",
    "ムール貝",
    "ナチョス",
    "オムレツ",
    "オニオンリング",
    "牡蠣",
    "パッタイ",
    "パエリア",
    "パンケーキ",
    "パンナコッタ",
    "北京ダック",
    "フォー",
    "ピザ",
    "ポークチョップ",
    "プーティン",
    "プライムリブ",
    "プルドポークサンドイッチ",
    "ラーメン",
    "ラビオリ",
    "レッドヴェルヴェットケーキ",
    "リゾット",
    "サモサ",
    "刺身",
    "ホタテ",
    "海藻サラダ",
    "シュリンプアンドグリッツ",
    "ボロネーゼ",
    "カルボナーラ",
    "春巻",
    "ステーキ",
    "ストロベリーショートケーキ",
    "寿司",
    "タコス",
    "たこ焼き",
    "ティラミス",
    "マグロタルタル",
    "ワッフル"
]
Recruit Co., Ltd. org

@pfzhu

The results you obtained on ImageNet-1K.

Unfortunately, we haven't tried ImageNet-1K evaluation. We will update the evaluation results table after we've done evaluation on the dataset!

@hidehisa-arai
Thank you very much for sharing the details. I was able to replicate the result on the laion/CLIP-ViT-H-14 using the template you provided. However, all results on the stabilityai/japanese-stable-clip-vit-l-16 and the "jafacility20" result on the rinna/japanese-clip-vit-b-16 are still different from yours.

Unfortunately, we haven't tried ImageNet-1K evaluation. We will update the evaluation results table after we've done evaluation on the dataset!

Thank you! That would be very helpful!

Sign up or log in to comment