llm_benchmark

llm_benchmark

None

Stars: 775

Visit
 screenshot

The 'llm_benchmark' repository is a personal evaluation project that tracks and tests various large models in areas such as logic, mathematics, programming, and human intuition. The evaluation consists of a private question bank with around 30 questions and 240 test cases, updated monthly. The scoring method involves assigning points based on correct deductions and meeting specific requirements, with scores normalized to a scale of 10. The repository aims to observe the long-term evolution trends of different large models from a subjective perspective, providing insights and a testing approach for individuals to assess large models.

README:

大模型测评记录

榜单查询

简介

  1. 本评测是个人性质,使用滚动更新的私有题库进行长期跟踪评测。
  2. 本评测侧重模型对逻辑,数学,编程,人类直觉等问题的测试。不够权威,不够全面。仅从一个侧面观察各个大模型的长期进化趋势。
  3. 本评测的题库规模不大,长期维持在30题/240个用例以内,不使用任何互联网公开题目。题目每月会有滚动更新。题目不公开,意图是分享一种评测思路,以及个人见解。每个人应该根据自己所需,对大模型进行考察。不可盲信任何评测。
  4. 因为题目会每月增减,每个模型的成绩在每个月榜单中会有正负4分左右的变化,属于正常现象。大致排序保持稳定。

评测方法

  1. 每道题设置若干个得分点,有些题目每个用例通过记1分,有些题目每答出一个符合要求的数据/文本记1分。每题有至少1个得分点。最终得分是计分除以得分点总数,再乘以10。(即每道题满分10分)
  2. 每题要求推导过程必须正确,猜对的答案不得分。部分题目有额外要求,输出多余答案会扣分,避免枚举。
  3. 要求回答必须完全符合题目要求,如果明确要求不写解释,不得编程等,而回答包含了解释或编程部分,即使正确,也记0分。
  4. 评测统一使用官方API或OpenRouter中转。官方有明确建议的温度值,使用官方温度,否则使用默认温度值0.1,推理模型限制思考长度30K,输出长度10K,无法分别设置的模型,设置总输出为40K。非推理模型设置输出长度10K。模型支持的MaxToken达不到上限,就按模型上限。其他参数均默认。部分不提供API的模型使用官网问答。每道题测3遍,取最高分。

题目大纲

2、文本摘要:阅读包含误导信息的文本,提取正确信息,按要求格式输出
4、魔方旋转:按规则拧魔方后求魔方颜色
11、岛屿面积:给定字符形式地图,求图中岛屿面积
16、插件调用:给定插件描述,要求根据文本信息输出正确插件调用和参数
24、数字规律:给2个示例,找数字变换规律
28、符号定义:重新定义数学符号含义,求数学计算式值
29、符号还原:将数学符号含义打乱,给表达式,要求推导符号原始含义
30、日记整理:阅读长文本,按给定条件和多个要求整理文本,考察指令遵循
31、棋盘图案:求经过棋盘上给定2个点的最大面积等腰三角形顶点
32、干支纪年:天干中删除部分,求历史某一年的干支
37、投影问题:给三维投影视图,求对应的立方体体积
38、函数求交:给多个函数求所有交点
39、火车售票:多个车次,多人次操作购票退票,求最终售票情况
40、代码推导:给100行算法代码和输入,要求纸面推导输出结果
41、交织文本解读:从多段交织混合文本中寻找问题答案
42、长文本总结:从文本中提炼关键数据,输出核心摘要
43、目标数:通过数学运算将给定数字组合,计算得到目标数字
44、工具组合:给定若干工具,通过使用工具,得到指定输出
45、程序编写:完成复杂约束下的python编程
46、字母组合:从字母序列中找出存在的单词
48、字符处理:根据规则对一段文本进行字符级别处理和统计
49、激光布局:根据条件约束,在10x10空间中部署满足要求的激光器
50、日志分析:在约20K的生产服务器日志中找到有效线索进行归纳
51、复杂计算:综合考察K12范围内的数学公式和计算能力
52、观棋不语:从一场没有解说的对局中归纳游戏规则
53、管道疏通:使用一定手段使阻塞的管道通畅
54、高级拼图:从多块拼图中选择部分拼图完成图形
55、寻路问题:在给出的地图中寻找符合条件的通路

更新机制

  • 新模型测试后,总榜实时更新
  • 每月25号做一次成绩归档
  • 每个模型的详细评测首发在知乎个人号: 知乎主页,和微信公众号:大模型观测员

qrcode_for_gh_ced94128890d_258

For Tasks:

Click tags to check more tools for each tasks

For Jobs:

Alternative AI tools for llm_benchmark

Similar Open Source Tools

For similar tasks

For similar jobs