OpenAI OpenAI 开源 SimpleQA 基准:用于评估大语言模型回答简短、寻求事实的问题的能力 大型语言模型的迅速发展带来了许多机遇,但也伴随着重大挑战,尤其是在确保生成响应的事实性方面。一个持续存在的问题...