[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"$fAcKMJxVhbXBHYw1nDCXgDOb0s77Rw-OWTcs7vJqkxjI":3},{"keys":4,"papers":15},[5,6,7,8,9,10,11,12,13,14],"title","desc","aspect","institution","author","date","linkArkXiv","linkHuggingFace","linkGithub","linkHomepage",[16,24,30,38,43,50,57,62,69,76,84,91,98,104,111,118,124,135,137,141,146,152,157,164,172,177,183,190,194,202,209,213,219,223,227],{"title":17,"desc":18,"aspect":19,"institution":18,"author":18,"date":20,"linkArkXiv":21,"linkHuggingFace":22,"linkGithub":23,"linkHomepage":18},"MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series","","Multimodal,\nModel","24-05","https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.19327","https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2405.19327","https:\u002F\u002Fgithub.com\u002Fmultimodal-art-projection\u002FMAP-NEO",{"title":25,"desc":18,"aspect":26,"institution":18,"author":18,"date":27,"linkArkXiv":28,"linkHuggingFace":29,"linkGithub":18,"linkHomepage":18},"PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Documents","Multimodal,\nDataset","24-06","https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.13923","https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2406.13923",{"title":31,"desc":18,"aspect":32,"institution":18,"author":18,"date":33,"linkArkXiv":34,"linkHuggingFace":35,"linkGithub":36,"linkHomepage":37},"KOR-Bench: Benchmarking Language Models on Knowledge-Orthogonal Reasoning Tasks","Reasoning,\nBenchmark","24-10","https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.06526","https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2410.06526","https:\u002F\u002Fgithub.com\u002FKOR-Bench\u002FKOR-Bench","https:\u002F\u002Fkor-bench.github.io\u002F",{"title":39,"desc":18,"aspect":40,"institution":18,"author":18,"date":33,"linkArkXiv":41,"linkHuggingFace":42},"A Comparative Study on Reasoning Patterns of OpenAI's o1 Model","Reasoning,\nResearch","https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.13639","https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2410.13639",{"title":44,"desc":18,"aspect":45,"institution":18,"author":18,"date":33,"linkArkXiv":46,"linkHuggingFace":47,"linkGithub":48,"linkHomepage":49},"AutoKaggle: A Multi-Agent Framework for Autonomous Data Science Competitions","Agent,\nFramework","https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.20424","https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2410.20424","https:\u002F\u002Fgithub.com\u002Fmultimodal-art-projection\u002FAutoKaggle","https:\u002F\u002Fm-a-p.ai\u002FAutoKaggle.github.io\u002F",{"title":51,"desc":18,"aspect":52,"institution":18,"author":18,"date":53,"linkArkXiv":54,"linkHuggingFace":55,"linkGithub":56},"OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations","Multimodal,\nBenchmark","24-12","https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.07626","https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2412.07626","https:\u002F\u002Fgithub.com\u002Fopendatalab\u002FOmniDocBench",{"title":58,"desc":18,"aspect":59,"institution":18,"author":18,"date":53,"link":18,"linkArkXiv":60,"linkHuggingFace":61},"OmniHD-Scenes: A Next-Generation Multimodal Dataset for Autonomous Driving","CV,\nDataset","https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.10734","https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2412.10734",{"title":63,"desc":18,"aspect":64,"institution":18,"author":18,"date":65,"linkArkXiv":66,"linkHuggingFace":67,"linkGithub":68},"MetaOcc: Surround-View 4D Radar and Camera Fusion Framework for 3D Occupancy Prediction with Dual Training Strategies","CV,\nFramework","25-01","https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.15384","https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2501.15384","https:\u002F\u002Fgithub.com\u002FLucasYang567\u002FMetaOcc",{"title":70,"desc":18,"aspect":52,"institution":18,"author":18,"date":71,"linkArkXiv":72,"linkHuggingFace":73,"linkGithub":74,"linkHomepage":75},"SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines","25-02","https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.14739","https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2502.14739","https:\u002F\u002Fgithub.com\u002FSuperGPQA\u002FSuperGPQA","https:\u002F\u002Fsupergpqa.github.io\u002F",{"title":77,"desc":18,"aspect":78,"institution":18,"author":18,"date":79,"linkArkXiv":80,"linkHuggingFace":81,"linkGithub":82,"linkHomepage":83},"YuE: Scaling Open Foundation Models for Long-Form Music Generation","Audio,\nModel","25-03","https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.08638","https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2503.08638","https:\u002F\u002Fgithub.com\u002Fmultimodal-art-projection\u002FYuE","https:\u002F\u002Fmap-yue.github.io\u002F",{"title":85,"desc":18,"aspect":86,"institution":18,"author":18,"date":87,"link":18,"linkArkXiv":88,"linkHuggingFace":89,"linkGithub":90},"COIG-P: A High-Quality and Large-Scale Chinese Preference Dataset for Alignment with Human Values","Reasoning,\nDataset","25-04","https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.05535","http:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2504.05535","https:\u002F\u002Fgithub.com\u002Fmultimodal-art-projection\u002FCOIG-P",{"title":92,"desc":18,"aspect":32,"institution":18,"author":18,"date":93,"link":18,"linkArkXiv":94,"linkHuggingFace":95,"linkGithub":96,"linkHomepage":97},"FormalMATH: Benchmarking Formal Mathematical Reasoning of Large Language Models","25-05","https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.02735","https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2505.02735","https:\u002F\u002Fgithub.com\u002FSphere-AI-Lab\u002FFormalMATH-Bench","https:\u002F\u002Fspherelab.ai\u002FFormalMATH\u002F",{"title":99,"desc":18,"aspect":100,"institution":18,"author":18,"date":93,"link":18,"linkArkXiv":101,"linkHuggingFace":102,"linkGithub":103},"MMAR: A Challenging Benchmark for Deep Reasoning in Speech, Audio, Music, and Their Mix","Audio,\nBenchmark","https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.13032","https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FBoJack\u002FMMAR","https:\u002F\u002Fgithub.com\u002FddlBoJack\u002FMMAR",{"title":105,"desc":18,"aspect":106,"institution":18,"author":18,"date":107,"link":18,"linkArkXiv":108,"linkHuggingFace":109,"linkGithub":110},"TaskCraft: Automated Generation of Agentic Tasks","Agent,\nWorkflow","25-06","https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.10055","https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FPersonalAILab\u002FTaskCraft","https:\u002F\u002Fgithub.com\u002FOPPO-PersonalAI\u002FTaskCraft",{"title":112,"desc":18,"aspect":113,"institution":18,"author":18,"date":114,"link":18,"linkArkXiv":115,"linkHuggingFace":116,"linkGithub":117},"CriticLean: Critic-Guided Reinforcement Learning for Mathematical Formalization","Reasoning,\nFramework","25-07","https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.06181","https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2507.06181","https:\u002F\u002Fgithub.com\u002Fmultimodal-art-projection\u002FCriticLean",{"title":119,"desc":18,"aspect":120,"institution":18,"author":18,"date":114,"link":18,"linkArkXiv":121,"linkHuggingFace":122,"linkGithub":123},"VeriGUI: Verifiable Long-Chain GUI Dataset","Agent,\nBenchmark","https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.04026","https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002F2077AIDataFoundation\u002FVeriGUI","https:\u002F\u002Fgithub.com\u002FVeriGUI-Team\u002FVeriGUI",{"title":125,"desc":126,"aspect":127,"institution":128,"author":129,"date":130,"linkArkXiv":131,"linkHuggingFace":132,"linkGithub":133,"linkHomepage":134},"Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillation and Agentic RL","Chain-of-Agents (CoA) paradigm enables end-to-end complex problem-solving in LLMs through dynamic agent activation, improving performance via multi-agent distillation and agentic reinforcement learning.","Agent,\nResearch","OPPO, 2077AI","Weizhen Li,Jianbo Lin,Zhuosong Jiang,Jingyi Cao,Xinpeng Liu,Jiayu Zhang,Zhenqiang Huang,Qianben Chen,Weichen Sun,Qiexiang Wang,Hongxuan Lu,Tianrui Qin,Chenghao Zhu,Yi Yao,Shuying Fan,Xiaowan Li,Tiannan Wang,Pai Liu,King Zhu,He Zhu,Dingfeng Shi,Piaohong Wang,Yeyi Guan,Xiangru Tang,Minghao Liu,Yuchen Eleanor Jiang,Jian Yang,Jiaheng Liu,Ge Zhang,Wangchunshu Zhou","25-08","https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.13167","https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FPersonalAILab\u002Fafm-datasets-6892140eaad360ea5ccdcde1","https:\u002F\u002Fgithub.com\u002FOPPO-PersonalAI\u002FAgent_Foundation_Models?tab=readme-ov-file","https:\u002F\u002Fchain-of-agents-afm.github.io\u002F",{"title":25,"desc":18,"aspect":26,"institution":18,"author":18,"date":136,"linkArkXiv":28,"linkHuggingFace":29,"linkGithub":18,"linkHomepage":18},"25-09",{"title":138,"desc":18,"aspect":40,"institution":18,"author":18,"date":136,"linkArkXiv":139,"linkHuggingFace":140,"linkGithub":18,"linkHomepage":18},"Reverse-Engineered Reasoning for Open-Ended Generation","https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.06160","https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2509.06160",{"title":142,"desc":18,"aspect":59,"institution":18,"author":18,"date":136,"linkArkXiv":143,"linkHuggingFace":144,"linkGithub":145,"linkHomepage":18},"Objaverse++: Curated 3D Object Dataset with Quality Annotations","https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.07334","https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fcindyxl\u002FObjaversePlusPlus","https:\u002F\u002Fgithub.com\u002FTCXX\u002FObjaversePlusPlus",{"title":147,"desc":148,"aspect":19,"institution":18,"author":18,"date":136,"linkArkXiv":149,"linkHuggingFace":150,"linkGithub":151,"linkHomepage":18},"EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing","EditReward is trained with our new large-scale human preference dataset, meticulously annotated by trained experts following a rigorous protocol containing over 200K preference pairs.","https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.26346","https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FTIGER-Lab\u002Feditreward-68ddf026ef9eb1510458abc6","https:\u002F\u002Fgithub.com\u002FTIGER-AI-Lab\u002FEditReward",{"title":153,"desc":154,"aspect":52,"institution":18,"author":18,"date":136,"linkArkXiv":155,"linkHuggingFace":18,"linkGithub":156,"linkHomepage":18},"IWR-Bench: Can LVLMs reconstruct interactive webpage from a user interaction video?","IWR-Bench is a novel benchmark for evaluating the capabilities of Large Vision-Language Models (LVLMs) in interactive webpage reconstruction from video.","https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.24709","https:\u002F\u002Fgithub.com\u002FL-O-I\u002FIWR-Bench",{"title":158,"desc":159,"aspect":52,"institution":160,"author":18,"date":136,"linkArkXiv":161,"linkHuggingFace":162,"linkGithub":163,"linkHomepage":18},"VideoScore2: Think before You Score in Generative Video Evaluation","VideoScore2 is a multi-dimensional, interpretable, and human-aligned framework that explicitly evaluates visual quality, text-to-video alignment, and physical\u002Fcommon-sense consistency while producing detailed chain-of-thought rationales","AI Alignment, AI Evaluation","https:\u002F\u002Fwww.arxiv.org\u002Fabs\u002F2509.22799","https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FTIGER-Lab\u002FVideoFeedback2","https:\u002F\u002Ftiger-ai-lab.github.io\u002FVideoScore2\u002F",{"title":165,"desc":166,"aspect":52,"institution":167,"author":18,"date":168,"linkArkXiv":169,"linkHuggingFace":170,"linkGithub":171,"linkHomepage":18},"OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs","OmniVideoBench is a large-scale and rigorously designed benchmark dedicated to assessing synergistic audio-visual understanding, with a strong emphasis on modality complementarity and logical consistency.","NJU-LINK Team","25-10","https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.10689","https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FNJU-LINK\u002FOmniVideoBench","https:\u002F\u002Fgithub.com\u002FNJU-LINK\u002FOmniVideoBench",{"title":173,"desc":174,"aspect":32,"institution":18,"author":18,"date":168,"linkArkXiv":175,"linkHuggingFace":176,"linkGithub":176,"linkHomepage":18},"ACADREASON: Exploring the Limits of Reasoning Models with Academic Research Problems","Acadreason benchmark is designed to evaluate the ability of LLMs and agents to acquire and reason over academic knowledge.","https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.11652","https:\u002F\u002Fgithub.com\u002FOPPO-PersonalAI\u002FAcadreason-benchmark",{"title":178,"desc":179,"aspect":127,"institution":180,"author":18,"date":107,"linkArkXiv":181,"linkHuggingFace":18,"linkGithub":182,"linkHomepage":18},"OAgents: An Empirical Study of Building\nEffective Agents","OAgents is a new foundation agent framework that\nachieves state-of-the-art performance among open-source projects. OAgents offers a modular\ndesign for various agent components, promoting future research in Agentic AI.","OPPO AI Agent Team","https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.15741","https:\u002F\u002Fgithub.com\u002FOPPO-PersonalAI\u002FOAgents",{"title":184,"desc":185,"aspect":186,"institution":180,"author":18,"date":168,"linkArkXiv":187,"linkHuggingFace":188,"linkGithub":189,"linkHomepage":134},"A²FM: An Adaptive Agent Foundation Model for Tool-Aware Hybrid Reasoning","Adaptive Agent Foundation Model (A2FM) is a unified framework that follows a route-then-align principle: the model first learns task-aware routing and then aligns mode-specific trajectories under a shared backbone. ","Agent,\nModel","https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.12838","https:\u002F\u002Fhuggingface.co\u002FPersonalAILab\u002FA2FM-32B-rl","https:\u002F\u002Fgithub.com\u002FOPPO-PersonalAI\u002FAdaptive_Agent_Foundation_Models",{"title":191,"desc":192,"aspect":127,"institution":180,"author":18,"date":107,"linkArkXiv":193,"linkHuggingFace":18,"linkGithub":182,"linkHomepage":18},"Scaling Test-time Compute for LLM Agents","This work conducts the first systematic exploration of applying test-time scaling methods to language agents and investigate the extent to which it improves their effectiveness.","https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.12928",{"title":195,"desc":196,"aspect":26,"institution":197,"author":18,"date":168,"linkArkXiv":198,"linkHuggingFace":199,"linkGithub":200,"linkHomepage":201},"COIG-Writer: A High-Quality Dataset for Chinese Creative Writing with Thought Processes","COIG-Writer is a novel Chinese creative writing dataset that captures both diverse outputs and their underlying thought processes through systematic reverse-engineering of high-quality texts.","M-A-P, 2077AI","https:\u002F\u002Fwww.arxiv.org\u002Fabs\u002F2510.14763","https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fm-a-p\u002FCOIG-Writer","https:\u002F\u002Fgithub.com\u002FCOIG-Writer\u002FCOIG-Writer","https:\u002F\u002Fcoig-writer.github.io\u002F",{"title":203,"desc":204,"aspect":205,"institution":18,"author":18,"date":206,"linkArkXiv":207,"linkHuggingFace":18,"linkGithub":208,"linkHomepage":18},"SIN-Bench: Tracing Native Evidence Chains in Long-Context Multimodal Scientific Interleaved Literature","SIN-Data is a scientific interleaved corpus that preserves the native interleaving of text and figures. On top of it, we construct SIN-Bench with four progressive tasks covering evidence discovery (SIN-Find), hypothesis verification (SIN-Verify), grounded QA (SIN-QA), and evidence-anchored synthesis (SIN-Summary). ","Multimodal, \nBenchmark","26-01","https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.10108","https:\u002F\u002Fgithub.com\u002FIIGROUP\u002Fsin-bench",{"title":210,"desc":211,"aspect":120,"institution":18,"author":18,"date":136,"linkArkXiv":212,"linkHuggingFace":18,"linkGithub":18,"linkHomepage":18},"Towards Personalized Deep Research: Benchmarks and Evaluations","Personalized Deep Research Bench (PDR-Bench) is the first benchmark for evaluating personalization in DRAs. It pairs 50 diverse research tasks across 10 domains with 25 authentic user profiles that combine structured persona attributes with dynamic real-world contexts, yielding 250 realistic user-task queries.","https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.25106",{"title":214,"desc":18,"aspect":120,"institution":18,"author":18,"date":215,"linkArkXiv":216,"linkHuggingFace":217,"linkGithub":218,"linkHomepage":18},"MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks","26-02","https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.16313","https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FZexueHe\u002Fmemoryarena","https:\u002F\u002Fmemoryarena.github.io\u002F",{"title":220,"desc":18,"aspect":120,"institution":18,"author":18,"date":221,"linkArkXiv":222,"linkHuggingFace":18,"linkGithub":18,"linkHomepage":18},"\nJustified or Just Convincing? Error Verifiability as a Dimension of LLM Quality","26-04","https:\u002F\u002Farxiv.org\u002Fabs\u002F2604.04418",{"title":224,"desc":18,"aspect":18,"institution":18,"author":18,"date":221,"linkArkXiv":225,"linkHuggingFace":18,"linkGithub":18,"linkHomepage":226},"Learning Actionable Manipulation\nRecovery via Counterfactual Failure Synthesis","https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.13528","https:\u002F\u002Fdream2fix.github.io\u002F",{"title":228,"desc":18,"aspect":205,"institution":18,"author":18,"date":229,"linkArkXiv":230,"linkHuggingFace":231,"linkGithub":18,"linkHomepage":18},"ChartNet: A Million-Scale, High-Quality Multimodal Dataset for Robust Chart Understanding","26-03","https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.27064","https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fibm-granite\u002FChartNet"]