Results Two-Agent framework 7 models Llama 3.2 3B Llama 3.2 3B Finetuned Qwen 3 32B Finetuned Llama 3.3 70B Llama 3.3 70B Finetuned GPT-OSS 120B GPT-OSS 120B Finetuned Multi-Agent framework GPT-5 Thinking