evalplus

最近更新: 1年前

human-eval

最近更新: 1年前

CIBench

最近更新: 1年前

ANAH

最近更新: 1年前

code-evaluator

最近更新: 1年前

CriticBench

最近更新: 1年前

GTA

最近更新: 1年前

Ada-LEval

最近更新: 1年前

DevBench

最近更新: 1年前

GAOKAO-Eval

最近更新: 1年前

BotChat

最近更新: 1年前

T-Eval

最近更新: 1年前

MixtralKit

最近更新: 1年前

VLMEvalKit

最近更新: 1年前

opencompass
Python

OpenCompass is an LLM evaluation platform, supporting a wide range of models (LLaMA, LLaMa2, ChatGLM2, ChatGPT, Claude, etc) over 50+ datasets.

最近更新: 1年前

搜索帮助