1z în urmă
Free Open Source Self Correcting-7B AI Model. A Breakthrough in AI-Driven Deep Research The new paper titled "PokeeResearch: Effective Deep Research via Reinforcement Learning from AI Feedback and Robust Reasoning Scaffold," introduces a groundbreaking 7B-parameter open-source AI agent designed to tackle complex research tasks with robustness and accuracy. This work addresses critical limitations in current tool-augmented large language model, such as shallow retrieval, brittle tool-use, and weak alignment to factual correctness. By leveraging reinforcement learning from AI feedback (RLAIF) and a sophisticated reasoning scaffold, PokeeResearch-7B sets a new standard for small-scale models in deep research, rivaling larger proprietary systems while remaining fully open-source. The core of PokeeResearch-7B lies in its ability to decompose intricate queries, retrieve external evidence from tools like web searches, and synthesize grounded, verifiable responses. Traditional AI agents often falter when tools fail or return noisy data, leading to hallucinations or incomplete answers. PokeeResearch overcomes these issues through an annotation-free RLAIF framework, where the model is trained using LLM-generated reward signals that evaluate factual accuracy, citation faithfulness, and adherence to user instructions. This self-improving loop allows the agent to optimize its policies without human annotations, making it scalable and efficient. Complementing this is a chain-of-thought (CoT)-driven multi-call reasoning scaffold, which enables the agent to run multiple research threads in parallel, self-verify outputs for contradictions, and adaptively recover from errors. For instance, if a web tool returns irrelevant or erroneous information, the agent can pivot to alternative paths, ensuring resilient performance. The model's training emphasizes semantic correctness over superficial metrics like token overlap, allowing it to distinguish between plausible-sounding but incorrect responses and truly accurate ones. Evaluated across 10 popular deep research benchmarks, PokeeResearch-7B demonstrates state-of-the-art results for models of its size. On challenging tasks like HLE (HotpotQA with Long Evidence), it achieves 17.6% accuracy; on GAIA (General AI Assistant benchmark), it scores 41.3%; and on BrowseComp (a web-browsing comprehension test), it reaches 8.4%. These figures surpass baselines like DeepResearcher by up to 17 points, highlighting the agent's superiority in handling real-world, multi-step research scenarios. This not only advances the technical abilities of local AI but also democratizes powerful research tools, potentially accelerating progress toward more capable general AI systems. I am running this model now. The model is at Paper:
24,42 K
43
Conținutul de pe această pagină este furnizat de terți. Dacă nu se menționează altfel, OKX nu este autorul articolului citat și nu revendică niciun drept intelectual pentru materiale. Conținutul este furnizat doar pentru informare și nu reprezintă opinia OKX. Nu este furnizat pentru a fi o susținere de nicio natură și nu trebuie să fie considerat un sfat de investiție sau o solicitare de a cumpăra sau vinde active digitale. În măsura în care AI-ul de generare este utilizat pentru a furniza rezumate sau alte informații, astfel de conținut generat de AI poate să fie inexact sau neconsecvent. Citiți articolul asociat pentru mai multe detalii și informații. OKX nu răspunde pentru conținutul găzduit pe pagini terțe. Deținerile de active digitale, inclusiv criptomonedele stabile și NFT-urile, prezintă un grad ridicat de risc și pot fluctua semnificativ. Trebuie să analizați cu atenție dacă tranzacționarea sau deținerea de active digitale este adecvată pentru dumneavoastră prin prisma situației dumneavoastră financiare.