[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"$fcppcIzVDj5B81SxwN4uwoZ6wKXrEmPCd9Fmun2AEqJY":3},[4,19,29,38,49,58,69,78,88,97,107,120,129,137,146,155,165,173,181,190,199],{"title":5,"desc":6,"bannerImg":7,"tag":8,"top":10,"date":11,"toc":12,"locale":13,"weight":14,"category":15,"description":6,"metaBannerImg":7,"link":16,"slug":17,"content":18},"Dr.DocBench","DR.DOCBENCH is a difficulty-aware benchmark for expert-level document parsing.","\u002Fdatasets-banner-images\u002Fdrdocnech-banner.jpg",[9],"vlm",false,"2026-06-02",true,"en",5,"VLM","\u002Fdrdocbench","dataset-drdocbench",null,{"title":20,"desc":21,"bannerImg":22,"tag":23,"top":10,"date":25,"toc":12,"locale":13,"weight":14,"category":24,"description":21,"metaBannerImg":26,"link":27,"slug":28,"content":18},"KINA","KINA is a high-density knowledge benchmark encompassing 261 fine-grained disciplines, the first to incorporate disciplinary representativeness as a core metric. It features a reusable, game-theoretic data collection pipeline that mitigates annotation vulnerabilities.","\u002Fdatasets-banner-images\u002Fkina-banner.jpg",[24],"Reasoning","2026-04-17","https:\u002F\u002Fdoxhub.s3.us-east-1.amazonaws.com\u002Fdocs-hub\u002Fassets\u002Fimages\u002Fkina-20260417-185450.webp","\u002Fkina","dataset-kina",{"title":30,"desc":31,"bannerImg":32,"tag":33,"top":10,"date":34,"toc":12,"locale":13,"weight":14,"category":24,"description":31,"content":18,"metaBannerImg":35,"link":36,"slug":37},"SuperGPQA: An LLM Evaluation Benchmark Across 285 Graduate Disciplines","SuperGPQA is a large-scale and highly challenging benchmark created to evaluate the advanced reasoning capabilities of Large Language Models (LLMs). Its purpose is to test model performance on expert-level, graduate qualification questions across an unprecedented 285 academic and professional disciplines.","\u002Fdatasets-banner-images\u002Fsupergpqa-banner.jpg",[],"2025-09-11","https:\u002F\u002Fdoxhub.s3.us-east-1.amazonaws.com\u002F2077ai\u002FBanner_dataset\u002Fsupergpqa_datasets.png","https:\u002F\u002Fsupergpqa.github.io\u002F","dataset-supergpqa",{"title":39,"desc":40,"bannerImg":41,"date":42,"orgImgLinks":43,"bannerLinks":44,"category":45,"weight":14,"description":40,"content":18,"metaBannerImg":46,"link":47,"slug":48},"VeriWeb: Evaluating Long-Chain Web Agents with Subtask Verification","Discover VeriWeb, a pioneering benchmark for long-horizon web agents. It offers a reproducible environment and 302 real-world tasks with subtask-level verification, advancing research in complex information-seeking.","\u002Fdatasets-banner-images\u002Fveriweb-banner.jpg","2025-09-03","[{\"logourl\":\"https:\u002F\u002Fdoxhub.s3.us-east-1.amazonaws.com\u002F2077ai\u002Ficons\u002F2077ai.png\",\"orgname\":\"2077AI\",\"url\":\"https:\u002F\u002Fwww.2077ai.com\u002F\"},{\"logourl\":\"https:\u002F\u002Fdoxhub.s3.us-east-1.amazonaws.com\u002F2077ai\u002Ficons\u002Fntu.png\",\"orgname\":\"Nanyang Technological University\",\"url\":\"https:\u002F\u002Fwww.ntu.edu.sg\u002F\"},{\"logourl\":\"\",\"orgname\":\"\",\"url\":\"\"}]","{\"Blog\":\"https:\u002F\u002Fwww.2077ai.com\u002Fblog\u002Fverigui-benchmark-ai-agents\",\"HuggingFace\":\"https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2508.04026\"}","Agent","https:\u002F\u002Fdoxhub.s3.us-east-1.amazonaws.com\u002F2077ai\u002FBanner_dataset\u002Fdatasets_verigui.png","\u002Fdatasets\u002Fdataset-veriweb","dataset-veriweb",{"title":50,"desc":51,"bannerImg":52,"date":53,"bannerLinks":54,"weight":14,"category":15,"description":51,"content":18,"metaBannerImg":55,"link":56,"slug":57},"OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations","OmniDocBench is a comprehensive benchmark for evaluating AI in document parsing and content extraction.","\u002Fdatasets-banner-images\u002Fomnidocbench-banner.jpg","2025-05-25","{ \"Blog\":\"https:\u002F\u002Fwww.2077ai.com\u002Fblog\u002FOmniDocBench\",\"Paper\":\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.07626\", \"Hugging Face\":\"https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2412.07626\" }","https:\u002F\u002Fdoxhub.s3.us-east-1.amazonaws.com\u002F2077ai\u002FBanner_dataset\u002Fbanner_omnidocbench.png","\u002Fdatasets\u002Fdataset-omnidocbench","dataset-omnidocbench",{"title":59,"desc":60,"bannerImg":61,"date":62,"bannerLinks":63,"orgImgLinks":64,"weight":65,"category":15,"description":60,"content":18,"metaBannerImg":66,"link":67,"slug":68},"PIN Dataset: 200M Paired Multimodal Documents for LMMs","Discover PIN, a new data format and two large-scale datasets (PIN-200M & PIN-14M) designed to help LMMs understand complex, knowledge-intensive multimodal documents.","\u002Fdatasets-banner-images\u002Fpin-dataset-banner.jpg","2025-11-18","{ \"Blog\":\"https:\u002F\u002Fwww.2077ai.com\u002Fblog\u002Fintroducing-pin-200m-multimodal-dataset\",\"Paper\":\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.13923\", \"Dataset\":\"https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fm-a-p\u002FPIN-200M\" }","[{\"orgName\": \"m-a-p\", \"url\": \"https:\u002F\u002Fm-a-p.ai\u002F\", \"logoUrl\": \"https:\u002F\u002Fdoxhub.s3.us-east-1.amazonaws.com\u002F2077ai\u002Ficons\u002Fm-a-p%20normal.png\"},{\"orgName\": \"tsinghua_university\", \"url\": \"https:\u002F\u002Fwww.tsinghua.edu.cn\u002Fen\u002F\", \"logoUrl\": \"https:\u002F\u002Fdoxhub.s3.us-east-1.amazonaws.com\u002F2077ai\u002Ficons\u002Fthu-normal.png\"},{\"orgName\": \"01.ai\", \"url\": \"https:\u002F\u002Fwww.01.ai\u002F\", \"logoUrl\": \"https:\u002F\u002Fdoxhub.s3.us-east-1.amazonaws.com\u002F2077ai\u002Ficons\u002F01.AI-normal.png\"}]",4,"https:\u002F\u002Fdoxhub.s3.us-east-1.amazonaws.com\u002F2077ai\u002FBanner_dataset\u002Fdataset_pin.png","\u002Fdatasets\u002Fdataset-pin200","dataset-pin200",{"title":70,"desc":71,"bannerImg":72,"tag":73,"top":10,"date":74,"toc":12,"locale":13,"weight":65,"category":15,"description":71,"content":18,"metaBannerImg":75,"link":76,"slug":77},"EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing","EDITREWARD is trained with our new large-scale human preference dataset, meticulously annotated by trained experts following a rigorous protocol containing over 200K preference pairs.","\u002Fdatasets-banner-images\u002Feditreward-banner.jpg",[],"2025-09-30","https:\u002F\u002Fdoxhub.s3.us-east-1.amazonaws.com\u002F2077ai\u002FBanner_dataset\u002Fdatasets_editreward.png","https:\u002F\u002Ftiger-ai-lab.github.io\u002FEditReward\u002F","datasets-editreward",{"title":79,"desc":80,"bannerImg":81,"tag":82,"top":10,"date":83,"toc":12,"locale":13,"weight":65,"category":84,"description":80,"content":18,"metaBannerImg":85,"link":86,"slug":87},"VideoScore2: Think before You Score in Generative Video Evaluation","VideoScore2 is a multi-dimensional, interpretable, and human-aligned framework that explicitly evaluates visual quality,text-to-video alignment, and physical\u002Fcommon-sense consistency while producing detailed chain-of-thought rationales.","\u002Fdatasets-banner-images\u002Fvideoscore2-banner.jpg",[],"2025-09-26","Video","https:\u002F\u002Fdoxhub.s3.us-east-1.amazonaws.com\u002F2077ai\u002FBanner_dataset\u002Fdatasets_videoscores2.png","https:\u002F\u002Ftiger-ai-lab.github.io\u002FVideoScore2\u002F","datasets-videoscore2",{"title":89,"desc":90,"bannerImg":91,"tag":92,"top":10,"date":93,"toc":12,"locale":13,"weight":65,"category":24,"description":90,"content":18,"metaBannerImg":94,"link":95,"slug":96},"KOR-BENCH: A Benchmark for Knowledge-Orthogonal Reasoning Tasks","Knowledge-Orthogonal Reasoning Benchmark (KOR-Bench) is designed to evaluate models‘ intrinsic reasoning and planning abilities by minimizing interference from pretrained knowledge. It introduces new rules that are independent of prior knowledge, allowing for a more accurate assessment of how models adapt to novel rule-driven tasks.","\u002Fdatasets-banner-images\u002Fkor-bench-banner.jpg",[],"2025-09-15","https:\u002F\u002Fglobal-blog.oss-ap-southeast-1.aliyuncs.com\u002F2077ai\u002FBanner_dataset\u002Fdataset_korbench.png","https:\u002F\u002Fkor-bench.github.io\u002F","dataset-kor-bench",{"title":98,"desc":99,"bannerImg":100,"date":101,"links":102,"weight":65,"category":103,"description":99,"content":18,"metaBannerImg":104,"link":105,"slug":106},"MMAR: A Benchmark for Deep Audio Reasoning","MMAR (Massive Multi-disciplinary Audio Reasoning) is a new and challenging benchmark designed to evaluate the deep reasoning capabilities of Audio-Language Models (ALMs).","\u002Fdatasets-banner-images\u002Fmmar-banner.jpg","2025-05-19","https:\u002F\u002Fdataset.data4o.xyz\u002Fshare\u002Fdataset\u002Fpreview?datasetId=68c7d86300652cb5b51c3cf9","Audio","https:\u002F\u002Fdoxhub.s3.us-east-1.amazonaws.com\u002F2077ai\u002FBanner_dataset\u002Fdataset_MMAR.png","\u002Fdatasets\u002Fdataset-mmar","dataset-mmar",{"title":108,"desc":109,"bannerImg":110,"date":111,"orgImgLinks":112,"bannerLinks":113,"category":114,"weight":65,"externalUrl":115,"links":116,"description":109,"content":18,"metaBannerImg":117,"link":118,"slug":119},"OmniHD-Scenes: A Next-Gen Multimodal Autonomous Driving Dataset","OmniHD-Scenes is a massive multimodal autonomous driving dataset. Featuring 450K+ synchronized frames of 128-beam LiDAR, 6-view cameras, and 4D imaging radar data. Includes high-quality 3D bounding boxes and semantic occupancy for complex urban scenarios, rainy weather, and night scenes. Download the 1.3TB dataset now.","\u002Fdatasets-banner-images\u002Fomnihd-scenes-banner.jpg","2025-01-04","[{\"logourl\":\"https:\u002F\u002Fdoxhub.s3.us-east-1.amazonaws.com\u002F2077ai\u002Ficons\u002F2077ai.png\",\"orgname\":\"2077AI\",\"url\":\"https:\u002F\u002Fwww.2077ai.com\u002F\"},{\"logourl\":\"https:\u002F\u002Fdoxhub.s3.us-east-1.amazonaws.com\u002F2077ai\u002Ficons\u002FTJU_logo.png\",\"orgname\":\"Tongji University\",\"url\":\"https:\u002F\u002Fwww.tongji.edu.cn\u002F\"}]","{}","Multimodal","","{\"homepage\":\"\",\"github\":\"\",\"huggingface\":\"\",\"x\":\"\",\"discord\":\"\",\"arxiv\":\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.10734\"}","https:\u002F\u002Fdoxhub.s3.us-east-1.amazonaws.com\u002F2077ai\u002FBanner_dataset\u002Fdataset_omnihd-scenes.png","\u002Fdatasets\u002Fdataset-omnihdscenes","dataset-omnihdscenes",{"title":121,"desc":122,"bannerImg":123,"tag":124,"top":10,"date":93,"toc":12,"locale":13,"weight":125,"category":45,"description":122,"content":18,"metaBannerImg":126,"link":127,"slug":128},"Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillation and Agentic RL","Chain-of-Agents (CoA) is a novel framework for training end-to-end agent foundation models (AFM) using multi-agent distillation and agentic reinforcement learning. Our approach addresses key challenges in developing versatile AI agents that can perform complex tasks across diverse domains.","\u002Fdatasets-banner-images\u002Fchain-of-agents-banner.jpg",[],3,"https:\u002F\u002Fdoxhub.s3.us-east-1.amazonaws.com\u002F2077ai\u002FBanner_dataset\u002Fdataset_chainofagents.png","https:\u002F\u002Fchain-of-agents-afm.github.io\u002F","dataset-chainofagents",{"title":130,"desc":131,"bannerImg":132,"tag":133,"top":10,"date":93,"toc":12,"locale":13,"weight":125,"category":103,"description":131,"content":18,"metaBannerImg":134,"link":135,"slug":136},"YuE: Open Music Foundation Models for Full-Song Generation","YuE is a family of open foundation models based on the LLaMA2 architecture. Specifically, YuE scales to trillions of tokens and generates up to five minutes of music while maintaining lyrical alignment, coherent musical structure, and engaging vocal melodies with appropriate accompaniment. ","\u002Fdatasets-banner-images\u002Fyue-banner.jpg",[],"https:\u002F\u002Fdoxhub.s3.us-east-1.amazonaws.com\u002F2077ai\u002FBanner_dataset\u002Fdataset_yue.png","https:\u002F\u002Fmap-yue.github.io\u002F","dataset-yue",{"title":138,"desc":139,"bannerImg":140,"date":141,"links":142,"weight":125,"category":45,"description":139,"content":18,"metaBannerImg":143,"link":144,"slug":145},"AFM-Datasets: An End-to-End Chain-of-Agents Dataset","AFM-Datasets is the official training dataset released with the research paper, \"Chain-of-Agents,\" and is specifically designed for building Agent Foundation Models (AFMs).","\u002Fdatasets-banner-images\u002Fafm-datasets-banner.jpg","2025-08-06","https:\u002F\u002Fdataset.data4o.xyz\u002Fshare\u002Fdataset\u002Fpreview?datasetId=68c7d73300652cb5b51c3245 , https:\u002F\u002Fdataset.data4o.xyz\u002Fshare\u002Fdataset\u002Fpreview?datasetId=68c7d71f00652cb5b51c31e4 , https:\u002F\u002Fdataset.data4o.xyz\u002Fshare\u002Fdataset\u002Fpreview?datasetId=68c7d7064bb3791abac2a5b2 , https:\u002F\u002Fdataset.data4o.xyz\u002Fshare\u002Fdataset\u002Fpreview?datasetId=68c7d07600652cb5b51bc35b , https:\u002F\u002Fdataset.data4o.xyz\u002Fshare\u002Fdataset\u002Fpreview?datasetId=68c7d0554bb3791abac23542 , https:\u002F\u002Fdataset.data4o.xyz\u002Fshare\u002Fdataset\u002Fpreview?datasetId=68c7d03b4bb3791abac234da","https:\u002F\u002Fdoxhub.s3.us-east-1.amazonaws.com\u002F2077ai\u002FBanner_dataset\u002Fdatasets_afm.png","\u002Fdatasets\u002Fdataset_afm","dataset_afm",{"title":147,"desc":148,"bannerImg":149,"date":150,"links":151,"weight":125,"category":114,"description":148,"content":18,"metaBannerImg":152,"link":153,"slug":154},"TaskCraft: A Multi-Modal Benchmark for Agentic Task Processing","TaskCraft is a multi-modal benchmark dataset featuring tasks ranging from simple (1-step) to expert-level (4-step+).","\u002Fdatasets-banner-images\u002Ftaskcraft-banner.jpg","2025-07-17","https:\u002F\u002Fdataset.data4o.xyz\u002Fshare\u002Fdataset\u002Fpreview?datasetId=68c7d87c00652cb5b51c3d41","https:\u002F\u002Fdoxhub.s3.us-east-1.amazonaws.com\u002F2077ai\u002FBanner_dataset\u002Fdataset_taskcraft.png","\u002Fdatasets\u002Fdataset-taskcraft","dataset-taskcraft",{"title":156,"desc":157,"bannerImg":158,"tag":159,"top":10,"date":160,"toc":12,"locale":13,"weight":161,"category":24,"description":157,"content":18,"metaBannerImg":162,"link":163,"slug":164},"COIG-Writer: A High-Quality Dataset for Chinese Creative Writing with Thought Processes","COIG-Writer is a novel Chinese creative writing dataset that captures both diverse outputs and their underlying thought processes through systematic reverse-engineering of high-quality texts.","\u002Fdatasets-banner-images\u002Fcoig-writer-banner.jpg",[],"2025-10-16",2,"https:\u002F\u002Fdoxhub.s3.us-east-1.amazonaws.com\u002F2077ai\u002FBanner_dataset\u002Fdataset_coigwriter.png","https:\u002F\u002Fcoig-writer.github.io\u002F#","dataset-coig-writer",{"title":166,"desc":167,"bannerImg":168,"tag":169,"top":10,"date":93,"toc":12,"locale":13,"weight":161,"category":45,"description":167,"content":18,"metaBannerImg":170,"link":171,"slug":172},"AutoKaggle: A Multi-Agent Framework for Autonomous Data Science Competitions","AutoKaggle is a powerful and user-centric framework that assists data scientists in completing daily data pipelines through a collaborative multi-agent system. AutoKaggle implements an iterative development process that combines code execution, debugging, and comprehensive unit testing to ensure code correctness and logic consistency. ","\u002Fdatasets-banner-images\u002Fautokaggle-banner.jpg",[],"https:\u002F\u002Fdoxhub.s3.us-east-1.amazonaws.com\u002F2077ai\u002FBanner_dataset\u002Fdatasets_autokaggle.png","https:\u002F\u002Fm-a-p.ai\u002FAutoKaggle.github.io\u002F","dataset-autokaggle",{"title":174,"desc":175,"bannerImg":176,"date":34,"links":177,"weight":161,"category":114,"description":175,"content":18,"metaBannerImg":178,"link":179,"slug":180},"M-A-P Matrix: A Massive Bilingual Dataset for LLM Pretraining","Matrix is a massive, open-source pretraining dataset containing approximately 4.7 trillion tokens** of bilingual text in English and Chinese. ","\u002Fdatasets-banner-images\u002Fm-a-p-matrix-banner.jpg","https:\u002F\u002Fdataset.data4o.xyz\u002Fshare\u002Fdataset\u002Fpreview?datasetId=68c7d7774bb3791abac2a7a3","https:\u002F\u002Fdoxhub.s3.us-east-1.amazonaws.com\u002F2077ai\u002FBanner_dataset\u002Fdataset_mapmatrix.png","\u002Fdatasets\u002Fdataset-mapmatrix","dataset-mapmatrix",{"title":182,"desc":183,"bannerImg":184,"date":185,"links":186,"weight":161,"category":24,"description":183,"content":18,"metaBannerImg":187,"link":188,"slug":189},"CriticLeanBench: A Benchmark for Evaluating Mathematical Formalization Critics","CriticLeanBench is a specialized benchmark designed to evaluate the critical reasoning of AI models, specifically on the task of validating the translation of natural language mathematics into formal Lean 4 theorem statements.","\u002Fdatasets-banner-images\u002Fcriticleanbench-banner.jpg","2025-07-08","https:\u002F\u002Fdataset.data4o.xyz\u002Fshare\u002Fdataset\u002Fpreview?datasetId=68c7d75d00652cb5b51c3315","https:\u002F\u002Fdoxhub.s3.us-east-1.amazonaws.com\u002F2077ai\u002FBanner_dataset\u002Fdataset_criticlean.png","\u002Fdatasets\u002Fdataset-criticlean","dataset-criticlean",{"title":191,"desc":192,"bannerImg":193,"date":194,"links":195,"weight":161,"category":24,"description":192,"content":18,"metaBannerImg":196,"link":197,"slug":198},"FormalMATH: A Large-Scale Benchmark for Formal Mathematical Reasoning in Lean4","FormalMATH is a large-scale benchmark designed to evaluate and advance the capabilities of Large Language Models in the challenging domain of formal mathematical reasoning.","\u002Fdatasets-banner-images\u002Fformalmath-banner.jpg","2025-05-05","https:\u002F\u002Fdataset.data4o.xyz\u002Fshare\u002Fdataset\u002Fpreview?datasetId=68c7d79400652cb5b51c3407","https:\u002F\u002Fdoxhub.s3.us-east-1.amazonaws.com\u002F2077ai\u002FBanner_dataset\u002Fdataset_farmalmath.png","\u002Fdatasets\u002Fdataset-formalmath","dataset-formalmath",{"title":200,"desc":201,"bannerImg":202,"date":203,"links":204,"weight":205,"category":114,"description":201,"content":18,"metaBannerImg":206,"link":207,"slug":208},"COIG-P: A Large-Scale Chinese Preference Dataset for LLM Alignment","COIG-P (Chinese Open Instruction Generalist - Preference) is a high-quality, large-scale Chinese preference dataset designed for aligning Large Language Models (LLMs) with human values.","\u002Fdatasets-banner-images\u002Fcoig-p-banner.jpg","2025-04-07","https:\u002F\u002Fdataset.data4o.xyz\u002Fshare\u002Fdataset\u002Fpreview?datasetId=68c7d7ed4bb3791abac2aa1b",1,"https:\u002F\u002Fdoxhub.s3.us-east-1.amazonaws.com\u002F2077ai\u002FBanner_dataset\u002Fdataset_COIGP.png","\u002Fdatasets\u002Fdataset-coigp","dataset-coigp"]