Nathan Habib's picture

Building on HF

Nathan Habib PRO

SaylorTwift

huggingface

·

AI & ML interests

Evals

Recent Activity

new activity 1 day ago

nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4:Add evaluation results (GPQA, MMLU-Pro, SWE-bench Verified, HLE)

new activity 1 day ago

nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16:Add evaluation results (GPQA, MMLU-Pro, SWE-bench Verified, HLE)

liked a model 1 day ago

nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4

View all activity

Organizations

New activity in nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4 1 day ago

Add evaluation results (GPQA, MMLU-Pro, SWE-bench Verified, HLE)

#6 opened 1 day ago by

New activity in nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16 1 day ago

Add evaluation results (GPQA, MMLU-Pro, SWE-bench Verified, HLE)

#3 opened 1 day ago by

Add GPQA evaluation result

#2 opened 1 day ago by

New activity in meituan-longcat/WBench 1 day ago

Register WBench as benchmark (add eval.yaml)

#9 opened 8 days ago by

New activity in MMMU/MMMU_Pro 1 day ago

Update eval.yaml

#7 opened 1 day ago by

New activity in google/gemma-4-12B-it 3 days ago

Add HLE evaluation result

#7 opened 3 days ago by

Add AIME 2026 evaluation result

#6 opened 3 days ago by

Add MMMU Pro evaluation result

#5 opened 3 days ago by

Add MMLU-Pro evaluation result

#4 opened 3 days ago by

Add GPQA Diamond evaluation result

#3 opened 3 days ago by

New activity in actava/chi-bench 3 days ago

Make chi-bench an community benchmark

#2 opened 5 days ago by

New activity in Kwai-Keye/Keye-VL-2.0-30B-A3B 5 days ago

Add Video-MME-v2 evaluation result

#5 opened 5 days ago by

Add AIME 2026 evaluation result

#4 opened 5 days ago by

Add SWE-bench Verified evaluation result

#3 opened 5 days ago by

New activity in stepfun-ai/Step-3.7-Flash 8 days ago

Add SWE-bench Pro evaluation result

#4 opened 8 days ago by

Add HLE with tools evaluation result

#3 opened 8 days ago by

New activity in LiquidAI/LFM2.5-8B-A1B 8 days ago

Add AIME 2026 evaluation result

#4 opened 8 days ago by

New activity in facebook/flores 8 days ago

Convert dataset to Parquet

#8 opened 10 months ago by

New activity in gaia-benchmark/leaderboard 9 days ago

Fix OAuth login broken by missing gradio[oauth] extra; reload eval_results on submit

#102 opened 9 days ago by

New activity in InternScience/ResearchClawBench 9 days ago

Benchmark allow-list request for ResearchClawBench

#9 opened 17 days ago by