
chinese-llm-benchmark
目前已囊括203个大模型,覆盖chatgpt、gpt-4o、o3-mini、谷歌gemini、Claude3.5、智谱GLM-Zero、文心一言、qwen-max、百川、讯飞星火、商汤senseChat、minimax等商用模型, 以及DeepSeek-R1、qwq-32b、deepseek-v3、qwen2.5、llama3.3、phi-4、glm4、gemma3、mistral、书生internLM2.5等开源大模型。不仅提供能力评分排行榜,也提供所有模型的原始输出结果!
Stars: 3938

The Chinese LLM Benchmark is a continuous evaluation list of large models in CLiB, covering a wide range of commercial and open-source models from various companies and research institutions. It supports multidimensional evaluation of capabilities including classification, information extraction, reading comprehension, data analysis, Chinese encoding efficiency, and Chinese instruction compliance. The benchmark not only provides capability score rankings but also offers the original output results of all models for interested individuals to score and rank themselves.
README:
- 目前已囊括210个大模型,覆盖chatgpt、gpt-4o、o3-mini、谷歌gemini、Claude3.5、智谱GLM-Zero、文心一言、qwen-max、百川、讯飞星火、商汤senseChat、minimax等商用模型, 以及DeepSeek-R1、qwq-32b、deepseek-v3、qwen2.5、llama3.3、phi-4、glm4、gemma3、mistral、书生internLM2.5等开源大模型。
- 模型来源涉及国内外大厂、大模型创业公司、高校研究机构。
- 支持多维度能力评测,包括医疗、教育、金融、法律、行政公务、心理健康、推理与数学计算、语言与指令遵从等8个领域,以及细分的~300个维度(比如牙科、高中语文…)。
- 不仅提供排行榜,也提供规模超150万的大模型错题本!方便广大社区研究分析、改进大模型。
- 🔄最近更新
- ⚓TODO
- 📝大模型基本信息
-
📊排行榜
-
1、综合能力排行榜
- 1.1 推理类模型排行榜
-
1.2 商用大模型排行榜(含开源模型的付费API)
- 输出价格30元及以上
- 输出价格5~30元
- 输出价格1~5元
- 输出价格1元以下
-
1.3 开源大模型排行榜
- 5B以下
- 5B~20B
- 20B以上
- 2、医疗排行榜
- 3、教育排行榜
- 4、金融排行榜
- 5、法律排行榜
- 6、行政公务排行榜
- 7、心理健康排行榜
- 8、推理与数学计算排行榜
- 9、语言与指令遵从排行榜
-
1、综合能力排行榜
- 🌐各项能力评分
- ⚖️原始评测数据
- 为什么做榜单?
- 大模型选型及评测交流群
- [2025/4/5] v3.15版本
- 金融领域新增多个评测维度,详见link
- 删除陈旧的模型:abab7-chat-preview、gemini-2.0-flash-exp、gemma-2-9b-it、gemma-2-27b-it、qwen2.5-math-72b-instruct、Mistral-Nemo-Instruct-2407、Llama-3.1-Nemotron-70B-Instruct-fp8
- [2025/4/3] v3.14版本
- 重新梳理医学及金融领域的细分评测维度
- 新增2个模型:hunyuan-t1-20250321、deepseek-chat-v3-0324
- [2025/3/31] v3.13版本
- 新增“医学综合考试”排行榜,并计入总分,详见link
- [2025/3/29] v3.12版本
- 新增“金融”排行榜,并计入总分,详见link
- 删除陈旧的模型:Yi-1.5-34B-Chat、Yi-1.5-9B-Chat
- [2025/3/27] v3.11版本
- 新增“医学考研”排行榜,并计入总分,详见link
- “教育”领域所有子任务,剔除过于简单的测试样本,重新计算分数,总分也相应改变
- [2025/3/25] v3.10版本
- 新增“高中奥林匹克数学竞赛”排行榜,并计入总分,详见link
- “推理与数学计算”、“语言与指令遵从”剔除过于简单的测试样本,重新计算分数,总分也相应改变
- [2025/3/23] v3.9版本
- 新增“专业知识考试/中医学与中药学”排行榜,并计入总分
- “律师资格考试”排行榜新增“MMCU法律”子项
- 新增5个模型:hunyuan-turbos-20250313、gemma-3-1b-it、gemma-3-4b-it、gemma-3-12b-it、ERNIE-4.5-8K-Preview
- [2025/3/21] 发布v3.8版本评测榜单
- 新增“专业知识考试/预防医学与公共卫生学”、“心理健康”排行榜,并计入总分
- [2025/3/19] 发布v3.7版本评测榜单
- 新增“专业知识考试/临床医学”排行榜(含医学影像学、放射学等22个方向),并计入总分,详见link
- 高考排行榜新增政治学科,并增加大量考题,更新所有相关分数
- [2025/3/17] 发布v3.6版本评测榜单
- 新增“专业知识考试/基础医学”排行榜(含病理生理学、医学心理学等17个方向),并计入总分,详见link
- 新增2个模型:谷歌gemma-3-27b-it、Mistral-Small-24B-Instruct-2501
- [2025/3/15] 发布v3.5版本评测榜单
- 新增“医技考试”排行榜(含医技士-康复医学治疗技术、医技师-肿瘤学技术等22个方向),并计入总分,详见link
- [2025/3/13] 发布v3.4版本评测榜单
- 新增“药师考试”排行榜(含执业西药师、执业中药师等8个方向),并计入总分,详见link
- [2025/3/11] 发布v3.3版本评测榜单
- [2025/3/10] 发布v3.2版本评测榜单
- 新增“医师考试/高级职称”排行榜(含等消化内科高级职称、普通内科高级职称等8个方向),并计入总分,详见link
- [2025/3/7] 发布v3.1版本评测榜单
- 新增“医师考试/中级职称”排行榜(含超声波医学主治医师、妇产科主治医师等43个方向),并计入总分,详见link
- [2025/3/4] 发布v3.0版本评测榜单
- 综合能力得分计算方式改为:医疗、教育、法律、行政公务、推理与数学计算、语言与指令遵从等6个领域得分的平均值。
- 新增“医师考试/执业医师”排行榜(含中西医结合执业医师、口腔执业医师等5个方向),并计入总分,详见link
- [2025/3/3] 发布v2.22版本评测榜单
- 新增“医师考试/执业助理医师”排行榜(含临床执业助理医师、口腔执业助理医师等5个方向),并计入总分,详见link
- 删除陈旧的模型:SenseChat-Turbo、SenseChat-v4、SenseChat-5、Mixtral-8x7B-Instruct-v0.1
- [2025/2/28] 发布v2.21版本评测榜单
- 新增“CMB-医师考试-规培结业”排行榜(含外科、皮肤科等18个方向),并计入总分,详见link
- 删除陈旧的模型:Doubao-lite-32k-240428、Doubao-pro-32k-240615、o1-preview、WizardLM-2-8x22B、gemini-2.0-flash-lite-preview-02-05
- [2025/2/24] 发布v2.20版本评测榜单
- 新增高中学科排行榜、初中学科排行榜、小学学科排行榜,并计入总分
- 删除陈旧的模型:gpt-4o-2024-08-06、qwen-max-2024-09-19
- [2025/2/22] 发布v2.19版本评测榜单
- [2025/2/18] 发布v2.18版本评测榜单
- 新增2个模型:qwen2.5-max、gemini-2.0-flash-thinking-exp-01-21,☛查看模型完整信息
- 新增演绎推理排行榜、C3中文阅读理解排行榜,并计入总分
- [2025/2/14] 发布v2.17版本评测榜单
- 新增10个模型:GLM-Zero-Preview、MiniMax-Text-01、SenseChat-5-1202、SenseChat-Turbo-1202、GLM-4-FlashX、ERNIE-Lite-8K、ERNIE-Tiny-8K、ERNIE-Lite-Pro-128K、ERNIE-Speed-Pro-128K、qwen2.5-math-72b-instruct,☛查看模型完整信息
- 删除陈旧的模型:GLM4、gemini-1.0-pro、Llama-3.1-70B-Instruct、Meta-Llama-3.1-70B-Instruct-fp8
- [2025/2/13] 发布v2.16版本评测榜单
- 新增6个模型:qwq-32b-preview、o1-mini、o3-mini、gemini-2.0-pro-exp-02-05、gemini-2.0-flash-lite-preview-02-05、gemini-2.0-flash-001,☛查看模型完整信息
- [2025/2/12] 发布v2.15版本评测榜单
- 新增成语理解排行榜、情感分析排行榜,并计入总分
- [2025/2/10] 发布v2.14版本评测榜单
- 新增7个模型:DeepSeek-R1、DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Llama-8B、DeepSeek-R1-Distill-Qwen-14B、DeepSeek-R1-Distill-Qwen-32B、DeepSeek-R1-Distill-Llama-70B,☛查看模型完整信息
- [2025/1/29] 发布v2.13版本评测榜单
- 新增常识推理排行榜、文本蕴含(语言理解)排行榜,并计入总分
- 阅读理解评测样本增加至600多个,并更新各模型评分
- [2025/1/25] 发布v2.12版本评测榜单
- 新增高考榜单及各学科细分榜单(生物、化学、语文、地理、历史、数学、物理),并以各科平均分(100分制)计入总分
- [2025/1/23] 发布v2.11版本评测榜单
- 公务员考试kaogong、律师资格考试JEC-QA开始计入总分
- 新增4个模型:mistral-small、Hermes-3-Llama-3.1-405B、mistral-large、360gpt2-o1,☛查看模型完整信息
- [2025/1/22] 发布v2.10版本评测榜单
- 新增律师资格考试JEC-QA榜单,暂不计入总分
- 新增7个模型:ministral-3b、Mistral-7B-Instruct-v0.3、Mistral-Nemo-Instruct-2407、ministral-8b、Mixtral-8x7B-Instruct-v0.1、Llama-3.1-Nemotron-70B-Instruct-fp8、WizardLM-2-8x22B,☛查看模型完整信息
- [2025/1/20] 发布v2.9版本评测榜单
- 新增公务员考试kaogong榜单,暂不计入总分
- 新增5个模型:Llama-3.2-1B-Instruct、Llama-3.2-3B-Instruct、Llama-3.1-8B-Instruct-fp8、Llama-3.3-70B-Instruct-fp8、Llama-3.1-70B-Instruct-fp8,☛查看模型完整信息
- [2025/1/17] 发布v2.8版本评测榜单
- 新增9个模型:gemini-2.0-flash-exp、phi-4、gemini-1.5-flash-8b、360gpt-turbo、step-1-flash、Llama-3.3-70B-Instruct、360gpt-pro、360gpt2-pro、step-1-8k,☛查看模型完整信息
- 新增o1-mini、o1-preview的初中数学成绩
- 删除陈旧的模型:abab5.5-chat、abab5.5s-chat
- [2025/1/7] 发布v2.7版本评测榜单
- 新增代词理解CLUEWSC榜单(比如“他”是指谁)、诗词匹配CCPM榜单
- 新增5个模型:Claude-3.5-Sonnet、gemma-2-27b-it、Llama-3.1-405B-Instruct、Baichuan4-Air、Baichuan4-Turbo,☛查看模型完整信息
- 删除陈旧的模型:Baichuan3-Turbo、qwen2-72b-instruct、Qwen2-7B-Instruct、qwen2-1.5b-instruct、qwen2-0.5b-instruct、qwen2-57b-a14b-instruct
- [2024/12/28]v2.6版本, [2024/12/27]v2.5版本, [2024/12/25]v2.4版本, [2024/10/20]v2.3版本,[2024/9/29]v2.2版本,[2024/8/27]v2.1版本,[2024/8/7]v2.0版本,[2024/7/26]v1.21版本,[2024/7/15]v1.20版本,[2024/6/29]v1.19版本,[2024/6/2]v1.18版本,[2024/5/8]v1.17版本,[2024/4/13]v1.16版本,[2024/3/20]v1.15版本,[2024/2/28]v1.14版本,[2024/1/29]v1.13版本
- 2023年:[2023/12/10]v1.12版本,[2023/11/22]v1.11版本,[2023/11/5]v1.10版本,[2023/10/11]v1.9版本,[2023/9/13]v1.8版本,[2023/8/29]v1.7版本,[2023/8/13]v1.6版本,[2023/7/26]v1.5版本, [2023/7/18]v1.4版本, [2023/7/2]v1.3版本, [2023/6/17]v1.2版, [2023/6/10]v1.1版本, [2023/6/4]v1版本
各版本更新详情:CHANGELOG
- 引入更多维度的评测:代码能力、开放域问答、多轮对话、头脑风暴、翻译……
- 评测维度更细分,比如信息抽取可以细分时间实体抽取能力、地址实体抽取能力……
- 海纳百川,整合各类评测榜单,扩充细分领域榜单(比如教育领域、医疗领域)
- 加入更多评测数据,使得评测得分越来越有说服力
详见模型列表
综合能力得分为医疗、教育、金融、法律、行政公务、心理健康、推理与数学计算、语言与指令遵从等8个领域得分的平均值。
详细数据见total
排名 | 大模型 | 机构 | 输出价格 | 总分 | 医疗 | 教育 | 金融 | 法律 | 行政公务 | 心理健康 | 推理与数学计算 | 语言与指令遵从 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | hunyuan-turbos-20250226☛去体验 | 腾讯 | 2.0元 | 83.9 | 90.0 | 88.9 | 85.2 | 83.3 | 81.6 | 78.2 | 79.3 | 84.2 | |
2 | DeepSeek-R1☛去体验 | 深度求索 | 16.0元 | 81.4 | 81.9 | 89.5 | 82.9 | 74.8 | 88.6 | 61.5 | 87.6 | 84.8 | |
3 | hunyuan-turbos-20250313(new)☛去体验 | 腾讯 | 2.0元 | 80.3 | 85.1 | 87.8 | 80.5 | 72.2 | 80.0 | 72.9 | 79.8 | 84.4 |
完整排行榜见推理类模型排行榜
排名 | 大模型 | 机构 | 输出价格 | 总分 | 医疗 | 教育 | 金融 | 法律 | 行政公务 | 心理健康 | 推理与数学计算 | 语言与指令遵从 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | xunfei-4.0Ultra☛去体验 | 科大讯飞 | 70.0元 | 74.0 | 75.9 | 81.9 | 75.2 | 66.7 | 72.0 | 61.2 | 77.2 | 82.3 | |
2 | GLM-4-Plus☛去体验 | 智谱AI | 50.0元 | 73.6 | 75.1 | 81.3 | 74.0 | 63.1 | 76.7 | 59.0 | 75.2 | 84.1 | |
3 | xunfei-spark-max☛去体验 | 科大讯飞 | 30.0元 | 73.2 | 76.5 | 83.8 | 75.0 | 66.5 | 70.4 | 59.0 | 75.6 | 79.3 |
完整排行榜见30元及以上商用大模型
排名 | 大模型 | 机构 | 输出价格 | 总分 | 医疗 | 教育 | 金融 | 法律 | 行政公务 | 心理健康 | 推理与数学计算 | 语言与指令遵从 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | ERNIE-4.5-8K-Preview(new)☛去体验 | 百度 | 16.0元 | 86.0 | 92.9 | 87.0 | 85.2 | 90.3 | 87.0 | 75.2 | 81.6 | 88.4 | |
2 | DeepSeek-R1☛去体验 | 深度求索 | 16.0元 | 81.4 | 81.9 | 89.5 | 82.9 | 74.8 | 88.6 | 61.5 | 87.6 | 84.8 | |
3 | hunyuan-turbo☛去体验 | 腾讯 | 9.6元 | 80.5 | 88.9 | 87.1 | 84.8 | 75.7 | 76.2 | 71.8 | 77.5 | 82.3 |
完整排行榜见5~30元商用大模型
排名 | 大模型 | 机构 | 输出价格 | 总分 | 医疗 | 教育 | 金融 | 法律 | 行政公务 | 心理健康 | 推理与数学计算 | 语言与指令遵从 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | hunyuan-turbos-20250226☛去体验 | 腾讯 | 2.0元 | 83.9 | 90.0 | 88.9 | 85.2 | 83.3 | 81.6 | 78.2 | 79.3 | 84.2 | |
2 | Doubao-1.5-pro-32k-250115☛去体验 | 豆包 | 2.0元 | 81.6 | 86.6 | 89.9 | 84.2 | 72.3 | 78.3 | 74.4 | 80.8 | 86.5 | |
3 | hunyuan-turbos-20250313(new)☛去体验 | 腾讯 | 2.0元 | 80.3 | 85.1 | 87.8 | 80.5 | 72.2 | 80.0 | 72.9 | 79.8 | 84.4 |
完整排行榜见1~5元商用大模型
排名 | 大模型 | 机构 | 输出价格 | 总分 | 医疗 | 教育 | 金融 | 法律 | 行政公务 | 心理健康 | 推理与数学计算 | 语言与指令遵从 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | Doubao-1.5-lite-32k-250115☛去体验 | 豆包 | 0.6元 | 75.2 | 80.8 | 84.9 | 78.2 | 63.2 | 70.7 | 65.8 | 80.8 | 77.5 | |
2 | gemini-2.0-pro-exp-02-05☛去体验 | 0.0元 | 71.2 | 71.6 | 82.0 | 74.0 | 45.6 | 73.7 | 60.6 | 82.8 | 79.0 | ||
3 | gemini-2.0-flash-thinking-exp-01-21☛去体验 | 0.0元 | 70.2 | 65.0 | 76.6 | 67.2 | 47.9 | 85.1 | 53.5 | 87.8 | 78.5 |
完整排行榜见1元以下商用大模型
DIY自定义维度筛选榜单:☛ link
旗舰商用模型badcase: gpt-4o |
deepseek-chat-v3 |
更多
排名 | 大模型 | 机构 | 输出价格 | 总分 | 医疗 | 教育 | 金融 | 法律 | 行政公务 | 心理健康 | 推理与数学计算 | 语言与指令遵从 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | qwen2.5-3b-instruct☛去体验 | 阿里巴巴 | 0.9元 | 51.6 | 49.8 | 58.8 | 53.8 | 29.2 | 51.3 | 43.8 | 58.3 | 67.6 | |
2 | qwen2.5-1.5b-instruct☛去体验 | 阿里巴巴 | 0.0元 | 43.0 | 43.8 | 52.2 | 48.6 | 29.6 | 40.5 | 39.6 | 37.7 | 51.5 | |
3 | gemma-3-4b-it(new)☛去体验 | 0.0元 | 40.9 | 31.8 | 43.7 | 39.7 | 16.5 | 39.5 | 29.2 | 69.1 | 58.0 |
完整排行榜见5B以下开源大模型
排名 | 大模型 | 机构 | 输出价格 | 总分 | 医疗 | 教育 | 金融 | 法律 | 行政公务 | 心理健康 | 推理与数学计算 | 语言与指令遵从 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | DeepSeek-R1-Distill-Qwen-14B☛去体验 | 深度求索 | 0.7元 | 66.6 | 62.8 | 77.0 | 67.5 | 42.2 | 68.0 | 55.6 | 81.2 | 78.7 | |
2 | qwen2.5-14b-instruct☛去体验 | 阿里巴巴 | 6.0元 | 66.4 | 67.7 | 77.0 | 68.0 | 47.1 | 67.0 | 56.1 | 68.1 | 79.9 | |
3 | qwen2.5-7b-instruct☛去体验 | 阿里巴巴 | 2.0元 | 63.2 | 64.5 | 72.3 | 66.5 | 43.8 | 59.6 | 56.0 | 66.7 | 76.1 |
完整排行榜见5B~20B开源大模型
排名 | 大模型 | 机构 | 输出价格 | 总分 | 医疗 | 教育 | 金融 | 法律 | 行政公务 | 心理健康 | 推理与数学计算 | 语言与指令遵从 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | DeepSeek-R1☛去体验 | 深度求索 | 16.0元 | 81.4 | 81.9 | 89.5 | 82.9 | 74.8 | 88.6 | 61.5 | 87.6 | 84.8 | |
2 | hunyuan-large☛去体验 | 腾讯 | 12.0元 | 80.4 | 88.6 | 83.3 | 84.6 | 83.2 | 75.7 | 73.2 | 74.3 | 80.1 | |
3 | qwq-32b☛去体验 | 阿里巴巴 | 6.0元 | 78.0 | 76.5 | 86.1 | 78.3 | 62.5 | 86.5 | 63.0 | 85.6 | 85.2 |
完整排行榜见20B以上开源大模型
DIY自定义维度筛选榜单:☛link
☛☛完整排行榜见医疗
- 内科规培结业:排行榜 | 样本举例及badcase
- 中医内科主治医师:排行榜 | 样本举例及badcase
- 内科主治医师:排行榜 | 样本举例及badcase
- 心血管内科与呼吸内科主治医师:排行榜 | 样本举例及badcase
- 肾内科主治医师:排行榜 | 样本举例及badcase
- 消化内科主治医师:排行榜 | 样本举例及badcase
- 中西医结合内科主治医师:排行榜 | 样本举例及badcase
- 消化内科高级职称:排行榜 | 样本举例及badcase
- 普通内科高级职称:排行榜 | 样本举例及badcase
- 呼吸内科高级职称:排行榜 | 样本举例及badcase
- 心内科高级职称:排行榜 | 样本举例及badcase
- 结核病主治医师:排行榜 | 样本举例及badcase
- 内分泌科高级职称:排行榜 | 样本举例及badcase
(2)外科
☛☛完整排行榜见外科
- 外科规培结业:排行榜 | 样本举例及badcase
- 口腔颌面外科主治医师:排行榜 | 样本举例及badcase
- 整形外科主治医师:排行榜 | 样本举例及badcase
- 外科主治医师:排行榜 | 样本举例及badcase
- 普通外科高级职称:排行榜 | 样本举例及badcase
- 骨科:排行榜 | 样本举例及badcase
- 骨科:排行榜 | 样本举例及badcase
- 骨科高级职称:排行榜 | 样本举例及badcase
(3)妇产科
☛☛完整排行榜见妇产科
- 妇产科规培结业:排行榜 | 样本举例及badcase
- 妇产科主治医师:排行榜 | 样本举例及badcase
- 妇产科学副主任、主任医师职称考试:排行榜 | 样本举例及badcase
(4)儿科
☛☛完整排行榜见儿科
- 儿科规培结业:排行榜 | 样本举例及badcase
- 儿科主治医师:排行榜 | 样本举例及badcase
- 小儿外科:排行榜 | 样本举例及badcase
(5)眼科
☛☛完整排行榜见眼科
- 眼科规培结业:排行榜 | 样本举例及badcase
- 眼科主治医师:排行榜 | 样本举例及badcase
(6)口腔科
☛☛完整排行榜见口腔科
- 口腔科规培结业:排行榜 | 样本举例及badcase
- 口腔执业助理医师:排行榜 | 样本举例及badcase
- 口腔执业医师:排行榜 | 样本举例及badcase
- 口腔内科主治医师:排行榜 | 样本举例及badcase
- 口腔科主治医师:排行榜 | 样本举例及badcase
- 口腔修复科主治医师:排行榜 | 样本举例及badcase
- 口腔正畸学主治医师:排行榜 | 样本举例及badcase
(7)耳鼻咽喉科
☛☛完整排行榜见耳鼻咽喉科
- 耳鼻咽喉科规培结业:排行榜 | 样本举例及badcase
- 耳鼻咽喉科主治医师:排行榜 | 样本举例及badcase
(8)脑系科
☛☛完整排行榜见脑系科
- 神经内科规培结业:排行榜 | 样本举例及badcase
- 神经内科主治医师:排行榜 | 样本举例及badcase
- 精神科规培结业:排行榜 | 样本举例及badcase
- 精神病学主治医师:排行榜 | 样本举例及badcase
- 心理治疗学主治医师:排行榜 | 样本举例及badcase
- 心理咨询师:排行榜 | 样本举例及badcase
(9)皮肤科
☛☛完整排行榜见皮肤科
- 皮肤科规培结业:排行榜 | 样本举例及badcase
- 皮肤科中级职称:排行榜 | 样本举例及badcase
- 皮肤与性病学主治医师:排行榜 | 样本举例及badcase
(10)中医与中西医结合
☛☛完整排行榜见中医与中西医结合
- 中西医结合执业助理医师:排行榜 | 样本举例及badcase
- 中医执业助理医师:排行榜 | 样本举例及badcase
- 中西医结合执业医师:排行榜 | 样本举例及badcase
- 中医执业医师:排行榜 | 样本举例及badcase
- 中医针灸主治医师:排行榜 | 样本举例及badcase
(11)康复医学科
☛☛完整排行榜见康复医学科
- 康复医学科规培结业:排行榜 | 样本举例及badcase
- 康复医学主治医师:排行榜 | 样本举例及badcase
(12)全科医学科
☛☛完整排行榜见全科医学科
- 全科医学科规培结业:排行榜 | 样本举例及badcase
- 全科主治医师:排行榜 | 样本举例及badcase
(13)临床营养与重症医学
☛☛完整排行榜见临床营养与重症医学
- 临床执业助理医师:排行榜 | 样本举例及badcase
- 临床执业医师:排行榜 | 样本举例及badcase
- 风湿与临床免疫主治医师:排行榜 | 样本举例及badcase
- 重症医学主治医师:排行榜 | 样本举例及badcase
- 营养学主治医师:排行榜 | 样本举例及badcase
- 临床病理科规培结业:排行榜 | 样本举例及badcase
(14)肿瘤科
☛☛完整排行榜见肿瘤科
- 肿瘤学主治医师:排行榜 | 样本举例及badcase
(15)麻醉疼痛科
☛☛完整排行榜见麻醉疼痛科
- 麻醉科规培结业:排行榜 | 样本举例及badcase
- 麻醉科主治医师:排行榜 | 样本举例及badcase
- 疼痛科主治医师:排行榜 | 样本举例及badcase
(16)公共卫生与职业病
☛☛完整排行榜见公共卫生与职业病
- 公共卫生执业助理医师:排行榜 | 样本举例及badcase
- 公共卫生执业医师:排行榜 | 样本举例及badcase
- 医院感染中级职称:排行榜 | 样本举例及badcase
- 传染病主治医师:排行榜 | 样本举例及badcase
- 预防医学主治医师:排行榜 | 样本举例及badcase
- 传染病学中级职称:排行榜 | 样本举例及badcase
- 职业病主治医师:排行榜 | 样本举例及badcase
☛☛完整排行榜见护理
- 护士执业资格考试:排行榜 | 样本举例及badcase
- 护师资格考试:排行榜 | 样本举例及badcase
- 儿科主管护师:排行榜 | 样本举例及badcase
- 内科护理学:排行榜 | 样本举例及badcase
- 妇产科护理学:排行榜 | 样本举例及badcase
- 妇产科主管护师:排行榜 | 样本举例及badcase
- 外科主管护师:排行榜 | 样本举例及badcase
- 主管护师资格考试:排行榜 | 样本举例及badcase
- 内科主管护师:排行榜 | 样本举例及badcase
- 副主任、主任护师资格考试:排行榜 | 样本举例及badcase
☛☛完整排行榜见药师
- 执业西药师:排行榜 | 样本举例及badcase
- 执业中药师:排行榜 | 样本举例及badcase
- 药士初级考试:排行榜 | 样本举例及badcase
- 药师初级考试:排行榜 | 样本举例及badcase
- 中药学(士):排行榜 | 样本举例及badcase
- 中药学(师):排行榜 | 样本举例及badcase
- 主管药师资格考试:排行榜 | 样本举例及badcase
- 主管中药师:排行榜 | 样本举例及badcase
☛☛完整排行榜见医技
- 超声科:排行榜 | 样本举例及badcase
- 超声波医学主治医师:排行榜 | 样本举例及badcase
- 超声波医学主管技师:排行榜 | 样本举例及badcase
- 心电学主管技师:排行榜 | 样本举例及badcase
- 医学影像科:排行榜 | 样本举例及badcase
- 核医学主治医师:排行榜 | 样本举例及badcase
- 核医学主管技师:排行榜 | 样本举例及badcase
- 放射科主治医师:排行榜 | 样本举例及badcase
- 放射学技术(士):排行榜 | 样本举例及badcase
- 放射学技术(师):排行榜 | 样本举例及badcase
- 放射医学主管技师:排行榜 | 样本举例及badcase
- 检验技术(士):排行榜 | 样本举例及badcase
- 检验技术(师):排行榜 | 样本举例及badcase
- 微生物检验主管技师:排行榜 | 样本举例及badcase
- 理化检验主管技师:排行榜 | 样本举例及badcase
- 临床医学检验主管技师:排行榜 | 样本举例及badcase
- 病理科主治医师:排行榜 | 样本举例及badcase
- 病理学主管技师:排行榜 | 样本举例及badcase
- 病理学技术:排行榜 | 样本举例及badcase
- 康复医学治疗技术(士):排行榜 | 样本举例及badcase
- 康复医学治疗技术(师):排行榜 | 样本举例及badcase
- 康复医学与治疗主管技师:排行榜 | 样本举例及badcase
- 肿瘤学技术(士):排行榜 | 样本举例及badcase
- 肿瘤学技术(师):排行榜 | 样本举例及badcase
- 肿瘤放射治疗主管技师:排行榜 | 样本举例及badcase
- 输血技术主管技师:排行榜 | 样本举例及badcase
- 消毒技术主管技师:排行榜 | 样本举例及badcase
- 病案信息主管技师:排行榜 | 样本举例及badcase
(1)基础医学
☛☛完整排行榜见基础医学
-
医学三基:排行榜 | 样本举例及badcase
-
医学心理学:排行榜 | 样本举例及badcase
-
生物化学与分子生物学:排行榜 | 样本举例及badcase
-
细胞生物学:排行榜 | 样本举例及badcase
-
医学免疫学:排行榜 | 样本举例及badcase
-
免疫学:排行榜 | 样本举例及badcase
-
病理生理学:排行榜 | 样本举例及badcase
-
病理学:排行榜 | 样本举例及badcase
-
医学遗传学:排行榜 | 样本举例及badcase
-
寄生虫学:排行榜 | 样本举例及badcase
-
人体寄生虫学:排行榜 | 样本举例及badcase
-
系统解剖学:排行榜 | 样本举例及badcase
-
解剖学:排行榜 | 样本举例及badcase
-
局部解剖学:排行榜 | 样本举例及badcase
-
生物信息学:排行榜 | 样本举例及badcase
-
生理学:排行榜 | 样本举例及badcase
-
药理学:排行榜 | 样本举例及badcase
-
药物分析学:排行榜 | 样本举例及badcase
-
医学微生物学:排行榜 | 样本举例及badcase
-
组织学与胚胎学:排行榜 | 样本举例及badcase
-
医学统计学:排行榜 | 样本举例及badcase
(2)临床医学
☛☛完整排行榜见临床医学
-
临床医学:排行榜 | 样本举例及badcase
-
医学影像学:排行榜 | 样本举例及badcase
-
放射学:排行榜 | 样本举例及badcase
-
实验诊断学:排行榜 | 样本举例及badcase
-
神经病学:排行榜 | 样本举例及badcase
-
外科学:排行榜 | 样本举例及badcase
-
皮肤性病学:排行榜 | 样本举例及badcase
-
儿科学:排行榜 | 样本举例及badcase
-
核医学:排行榜 | 样本举例及badcase
-
物理诊断学:排行榜 | 样本举例及badcase
-
牙体牙髓病学:排行榜 | 样本举例及badcase
-
护理学基础:排行榜 | 样本举例及badcase
-
护理学:排行榜 | 样本举例及badcase
-
基础护理学:排行榜 | 样本举例及badcase
-
诊断学:排行榜 | 样本举例及badcase
-
超声医学:排行榜 | 样本举例及badcase
-
口腔护理学:排行榜 | 样本举例及badcase
-
循证医学:排行榜 | 样本举例及badcase
-
流行病学:排行榜 | 样本举例及badcase
-
口腔组织病理学:排行榜 | 样本举例及badcase
-
传染病学:排行榜 | 样本举例及badcase
-
口腔解剖生理学:排行榜 | 样本举例及badcase
-
麻醉学:排行榜 | 样本举例及badcase
-
介入放射学:排行榜 | 样本举例及badcase
(3)预防医学与公共卫生学
☛☛完整排行榜见预防医学与公共卫生学
- 预防医学:排行榜 | 样本举例及badcase
- 卫生学:排行榜 | 样本举例及badcase
- 医学伦理学:排行榜 | 样本举例及badcase
(4)中医学与中药学
☛☛完整排行榜见中医学与中药学
- 中医眼科学:排行榜 | 样本举例及badcase
- 金匮要略讲义:排行榜 | 样本举例及badcase
- 中医基础理论:排行榜 | 样本举例及badcase
- 中医诊断学:排行榜 | 样本举例及badcase
- 中医学:排行榜 | 样本举例及badcase
- 温病学:排行榜 | 样本举例及badcase
- 中国医学史:排行榜 | 样本举例及badcase
- 中医内科学:排行榜 | 样本举例及badcase
- 中医儿科学:排行榜 | 样本举例及badcase
- 伤寒论:排行榜 | 样本举例及badcase
- 内经讲义:排行榜 | 样本举例及badcase
医学考研,包含外科护理学、基础护理学、西医综合等5个方向,参考CMB。
☛☛完整排行榜见医学考研
- 外科护理学:排行榜 | 样本举例及badcase
- 基础护理学:排行榜 | 样本举例及badcase
- 考研政治:排行榜 | 样本举例及badcase
- 西医综合:排行榜 | 样本举例及badcase
- 中医综合:排行榜 | 样本举例及badcase
☛☛完整排行榜见教育
☛☛完整排行榜见小学学科
- 小学语文:排行榜 | 样本举例及badcase
- 小学英语:排行榜 | 样本举例及badcase
- 小学数学:排行榜 | 样本举例及badcase
- 小学道德与法治:排行榜 | 样本举例及badcase
- 小学科学:排行榜 | 样本举例及badcase
☛☛完整排行榜见初中学科
- 初中生物:排行榜 | 样本举例及badcase
- 初中化学:排行榜 | 样本举例及badcase
- 初中语文:排行榜 | 样本举例及badcase
- 初中英语:排行榜 | 样本举例及badcase
- 初中地理:排行榜 | 样本举例及badcase
- 初中历史:排行榜 | 样本举例及badcase
- 初中数学:排行榜 | 样本举例及badcase
- 初中物理:排行榜 | 样本举例及badcase
- 初中政治:排行榜 | 样本举例及badcase
☛☛完整排行榜见高中学科
- 高中生物:排行榜 | 样本举例及badcase
- 高中化学:排行榜 | 样本举例及badcase
- 高中语文:排行榜 | 样本举例及badcase
- 高中英语:排行榜 | 样本举例及badcase
- 高中地理:排行榜 | 样本举例及badcase
- 高中历史:排行榜 | 样本举例及badcase
- 高中数学:排行榜 | 样本举例及badcase
- 高中物理:排行榜 | 样本举例及badcase
- 高中政治:排行榜 | 样本举例及badcase
历年高考题,绝大部分为选择题,少部分为填空题。
☛☛完整排行榜见高考
- 高考生物:排行榜 | 样本举例及badcase
- 高考化学:排行榜 | 样本举例及badcase
- 高考语文:排行榜 | 样本举例及badcase
- 高考地理:排行榜 | 样本举例及badcase
- 高考历史:排行榜 | 样本举例及badcase
- 高考数学:排行榜 | 样本举例及badcase
- 高考物理:排行榜 | 样本举例及badcase
- 高考政治:排行榜 | 样本举例及badcase
☛☛完整排行榜见金融
☛☛完整排行榜见财务
- 初级会计职称:排行榜 | 样本举例及badcase
- 注册会计师:排行榜 | 样本举例及badcase
- 会计从业资格:排行榜 | 样本举例及badcase
- 审计师考试:排行榜 | 样本举例及badcase
- 注册税务师:排行榜 | 样本举例及badcase
- 注册管理会计师:排行榜 | 样本举例及badcase
☛☛完整排行榜见银行
- 银行初级资格:排行榜 | 样本举例及badcase
- 银从中级资格:排行榜 | 样本举例及badcase
- 银行从业资格:排行榜 | 样本举例及badcase
☛☛完整排行榜见保险
- 保险从业资格:排行榜 | 样本举例及badcase
☛☛完整排行榜见证券
- 证券专项考试:排行榜 | 样本举例及badcase
- 证券从业资格:排行榜 | 样本举例及badcase
☛☛完整排行榜见其他金融资格考试
- 初级经济师:排行榜 | 样本举例及badcase
- 中级经济师:排行榜 | 样本举例及badcase
- 反假货币知识:排行榜 | 样本举例及badcase
- 期货从业资格:排行榜 | 样本举例及badcase
- 金融理财师AFP:排行榜 | 样本举例及badcase
- 基金从业资格:排行榜 | 样本举例及badcase
- 黄金从业资格:排行榜 | 样本举例及badcase
- 中国精算师:排行榜 | 样本举例及badcase
☛☛完整排行榜见金融基础知识
- 金融学:排行榜 | 样本举例及badcase
- 公司战略与风险管理:排行榜 | 样本举例及badcase
- 宏观经济学:排行榜 | 样本举例及badcase
- 金融市场学:排行榜 | 样本举例及badcase
- 会计学:排行榜 | 样本举例及badcase
- 成本会计学:排行榜 | 样本举例及badcase
- 货币金融学:排行榜 | 样本举例及badcase
- 政治经济学:排行榜 | 样本举例及badcase
- 投资学:排行榜 | 样本举例及badcase
- 计量经济学:排行榜 | 样本举例及badcase
- 公司金融学:排行榜 | 样本举例及badcase
- 财政学:排行榜 | 样本举例及badcase
- 商业银行金融学:排行榜 | 样本举例及badcase
- 管理会计学:排行榜 | 样本举例及badcase
- 中央银行学:排行榜 | 样本举例及badcase
- 审计学:排行榜 | 样本举例及badcase
- 国际经济学:排行榜 | 样本举例及badcase
- 中级财务会计:排行榜 | 样本举例及badcase
- 财务管理学:排行榜 | 样本举例及badcase
- 微观经济学:排行榜 | 样本举例及badcase
- 国际金融学:排行榜 | 样本举例及badcase
- 金融工程学:排行榜 | 样本举例及badcase
- 经济法:排行榜 | 样本举例及badcase
- 高级财务会计:排行榜 | 样本举例及badcase
- 保险学:排行榜 | 样本举例及badcase
☛☛完整排行榜见金融应用
- 保险知识解读:排行榜 | 样本举例及badcase
- 金融术语解释:排行榜 | 样本举例及badcase
- 执业医师资格考试:排行榜 | 样本举例及badcase
- 理财知识解读:排行榜 | 样本举例及badcase
- 执业药师资格考试:排行榜 | 样本举例及badcase
- 金融文档抽取:排行榜 | 样本举例及badcase
- 研判观点提取:排行榜 | 样本举例及badcase
- 金融情绪识别:排行榜 | 样本举例及badcase
- 保险槽位识别:排行榜 | 样本举例及badcase
- 保险意图理解:排行榜 | 样本举例及badcase
- 金融意图理解:排行榜 | 样本举例及badcase
- 保险属性抽取:排行榜 | 样本举例及badcase
- 保险条款解读:排行榜 | 样本举例及badcase
- 金融产品分析:排行榜 | 样本举例及badcase
- 金融数值计算:排行榜 | 样本举例及badcase
- 金融事件解读:排行榜 | 样本举例及badcase
- 内容生成-投教话术生成:排行榜 | 样本举例及badcase
- 内容生成-文本总结归纳:排行榜 | 样本举例及badcase
- 内容生成-营销文案生成:排行榜 | 样本举例及badcase
- 内容生成-资讯标题生成:排行榜 | 样本举例及badcase
- 安全合规-金融合规性:排行榜 | 样本举例及badcase
- 安全合规-金融问题识别:排行榜 | 样本举例及badcase
- 安全合规-信息安全合规:排行榜 | 样本举例及badcase
- 安全合规-金融事实性:排行榜 | 样本举例及badcase
☛☛完整排行榜见法律
选择题,共1000道,参考AGIEval。
完整排行榜见JEC-QA-KD,☛查看JEC-QA-KD badcase
选择题,共1000道,参考AGIEval。
完整排行榜见JEC-QA-CA,☛查看JEC-QA-CA badcase
完整排行榜见MMCU法律,☛查看MMCU法律badcase
☛☛完整排行榜见行政公务
公务员考试行测选择题,共651道,参考AGIEval。 评测样本举例:
某乡镇进行新区规划,决定以市民公园为中心,在东南西北分别建设一个特色社区。这四个社区分别定为,文化区、休闲区、商业区和行政服务区。已知行政服务区在文化区的西南方向,文化区在休闲区的东南方向。
根据以上陈述,可以得出以下哪项?
(A)市民公园在行政服务区的北面
(B)休闲区在文化区的西南
(C)文化区在商业区的东北
(D)商业区在休闲区的东南
完整排行榜见公务员考试
☛查看公务员考试badcase
目前包含4个子项:MMCU心理,心理治疗学主治医师,心理咨询师,医学心理学。
☛☛完整排行榜见心理健康
完整排行榜见MMCU心理,☛查看MMCU心理badcase
完整排行榜见心理治疗学主治医师,☛查看心理治疗学主治医师badcase
完整排行榜见心理咨询师,☛查看心理咨询师badcase
完整排行榜见医学心理学,☛查看医学心理学badcase
☛☛完整排行榜见推理与数学计算
演绎推理(modus_tollens)选择题,共123道,参考ISP。
评测样本举例:
考虑以下语句:
1.如果约翰是个好父母,那么约翰就是严格但公平的。
2.约翰不严格但公平。
结论:因此,约翰不是一个好父母。
问题:根据陈述1.和2.,结论是否正确?
回答:
(A) 否
(B) 是
完整排行榜见演绎推理
☛查看演绎推理badcase
常识推理选择题,共99道,参考ISP。
评测样本举例:
以下是关于常识的选择题。
问题:当某人把土豆放到篝火边的余烬中,此时余烬并没有在
A、释放热量
B、吸收热量
完整排行榜见常识推理
☛查看常识推理badcase
学术界最常用的符号推理评测集,包含23个子任务,详细介绍见BBH。 评测样本举例:
Task description: Answer questions about which times certain events could have occurred.
Q: Today, Emily went to the museum. Between what times could they have gone?
We know that:
Emily woke up at 1pm.
Elizabeth saw Emily reading at the library from 2pm to 4pm.
Jessica saw Emily watching a movie at the theater from 4pm to 5pm.
Leslie saw Emily waiting at the airport from 5pm to 6pm.
William saw Emily buying clothes at the mall from 6pm to 7pm.
The museum was closed after 7pm.
Between what times could Emily have gone to the museum?
Options:
(A) 1pm to 2pm
(B) 6pm to 7pm
(C) 5pm to 6pm
(D) 2pm to 4pm
A:
完整排行榜见BBH
☛查看BBH符号推理badcase
考查大模型的数学基础能力之算数能力,测试题目为1000以内的整数加减法、不超过2位有效数字的浮点数加减乘除。 举例:166 + 215 + 53 = ?,0.97 + 0.4 / 4.51 = ?
完整排行榜见arithmetic
☛查看算术能力badcase
专门考查大模型对表格的理解分析能力,常用于数据分析。
评测样本举例:
姓名,年龄,性别,国籍,身高(cm),体重(kg),学历
张三,28,男,中国,180,70,本科
Lisa,33,女,美国,165,58,硕士
Paulo,41,男,巴西,175,80,博士
Miyuki,25,女,日本,160,50,大专
Ahmed,30,男,埃及,175,68,本科
Maria,29,女,墨西哥,170,65,硕士
Antonio,36,男,西班牙,182,75,博士
基于这个表格回答:学历最低的是哪国人?
完整排行榜见tableqa
☛查看数据分析badcase
2024年预赛试题,参考Math24o。 评测样本举例:
设集合 $S={1, 2, 3, \cdots, 9 9 7, 9 9 8 }$,集合 $S$ 的 $k$ 个 $499$ 元子集 $A_{1},A_{2}, \cdots, A_{k}$ 满足:对 $S$ 中任一二元子集 $B$,均存在 $i \in{1, 2, \cdots, k }$,使得 $B \subset A_{i}$。求 $k$ 的最小值。
完整排行榜见高中奥林匹克数学竞赛
☛查看高中奥林匹克数学竞赛badcase
☛☛完整排行榜见语言与指令遵从
给定上下文,选择最匹配的成语。
评测样本举例:
说完作品的优点,咱们再来聊聊为何说它最后的结局____,片子本身提出的话题观点很尖锐,“扶弟魔”也成为众多当代年轻人婚姻里的不定因素,所以对于这种过于敏感的东西,片子的结局仅仅只是以弟弟的可爱化解了姐姐的心结,最后选择陪伴照顾...
给上文空格处选择最合适的成语或俗语:
(A) 有条有理
(B) 偏听偏信
(C) 狗尾续貂
(D) 半壁江山
(E) 身家性命
(F) 胆小如鼠
(G) 独善其身
完整排行榜见成语理解
☛查看成语理解badcase
分析用户评论的情感属性,消极或积极。
评测样本举例:
用了几天,发现很多问题,无线网容易掉线,屏幕容易刮花,打开网页容易死掉,不值的买
以上用户评论是正面还是负面?
(A) 负面
(B) 正面
完整排行榜见情感分析
☛查看情感分析badcase
文本蕴含,判断两个句子之间的语义关系:蕴含、中立、矛盾,参考OCNLI。
评测样本举例:
句子一:农机具购置补贴覆盖到全国所有农牧业县(场),中央财政拟安排资金130亿元,比上年增加90亿元
句子二:按农民人数发放补贴
以上两个句子是什么关系?
(A)蕴含
(B)中立
(C)矛盾
完整排行榜见文本蕴含
☛查看文本蕴含badcase
评测样本举例:
将下列单词按词性分类。
狗,追,跑,大人,高兴,树
完整排行榜见classification
☛查看分类能力badcase
评测样本举例:
“中信银行3亿元,交通银行增长约2.7亿元,光大银行约1亿元。”
提取出以上文本中的所有组织机构名称
完整排行榜见extract
☛查看信息抽取能力badcase
阅读理解能力是一种符合能力,考查针对给定信息的理解能力。
依据给定信息的种类,可以细分为:文章问答、表格问答、对话问答……
评测样本举例:
牙医:好的,让我们看看你的牙齿。从你的描述和我们的检查结果来看,你可能有一些牙齦疾病,导致牙齿的神经受到刺激,引起了敏感。此外,这些黑色斑点可能是蛀牙。
病人:哦,真的吗?那我该怎么办?
牙医:别担心,我们可以为你制定一个治疗计划。我们需要首先治疗牙龈疾病,然后清除蛀牙并填充牙洞。在此过程中,我们将确保您感到舒适,并使用先进的技术和材料来实现最佳效果。
病人:好的,谢谢您,医生。那么我什么时候可以开始治疗?
牙医:让我们为您安排一个约会。您的治疗将在两天后开始。在此期间,请继续刷牙,使用牙线,并避免吃过于甜腻和酸性的食物和饮料。
病人:好的,我会的。再次感谢您,医生。
牙医:不用谢,我们会尽最大的努力帮助您恢复健康的牙齿。
基于以上对话回答:病人在检查中发现的牙齿问题有哪些?
完整排行榜见mrc
☛查看阅读理解能力badcase
经典中文阅读理解选择题,共763道,参考C3。 评测样本举例:
我公司现招聘一名经济法方面的律师,要求:年龄在35岁以下,至少会一门外语,有三年以上工作经验。欢迎符合条件者前来应聘。
根据上文回答以下选择题:应聘这个工作的人必须:
(A) 超过35岁
(B) 有管理经验
(C) 会说普通话
(D) 工作三年以上
完整排行榜见C3
☛查看C3中文阅读理解badcase
中文指代消解任务,参考CLUEWSC2020。 评测样本举例:
少平仍然不知道怎样给奶奶说清他姐夫的事,就只好随口说:“他犯了点错误,人家让他劳教!”
上述文本中的“他犯了点错误”中的“他”是指少平吗?
选项:(A)是
(B)否
完整排行榜见CLUEWSC
☛查看代词理解CLUEWSC badcase
中国古典诗歌匹配,给定中国古典诗歌的现代问描述,要求从候选的四句诗中选出与现代文描述语义匹配的那一句。 利用古典诗歌和现代文翻译的平行语料构建正确选项,并利用正确选项从古代诗歌语料库中利用相似检索构造出错误候选。 参考CCPM。 评测样本举例:
昏暗的灯熄灭了又被重新点亮。
上述文本最匹配下面哪句诗:
(A)渔灯灭复明
(B)残灯灭又然
(C)残灯暗复明
(D)残灯灭又明
完整排行榜见CCPM
☛查看诗词匹配CCPM badcase
参考谷歌IFEval,并将其翻译和适配到中文,精选9类25种指令,说明如下:
完整排行榜见IFEval
☛查看中文指令遵从badcase
评分方法:从各个维度给大模型打分,每个维度都对应一个评测数据集,包含若干道题。 每道题依据大模型回复质量给1~5分,将评测集内所有题的得分累加并归一化为100分制,即作为最终得分。
所有评分数据详见alldata
包含各维度评测集以及大模型输出结果,详见本项目的eval文件目录
- 大模型百花齐放,也参差不齐。不少媒体的宣传往往夸大其词,避重就轻,容易混淆视听;而某些公司为了PR,也过分标榜自己大模型的能力,动不动就“达到chatgpt水平”,动不动就“国内第一”。 所谓“外行看热闹,内行看门道”,业界急需一股气流,摒弃浮躁,静下心来打磨前沿技术,真真正正用技术实力说话。这就少不了一个公开、公正、公平的大模型评测系统,把各类大模型的优点、不足一一展示出来。 如此,大家既能把握当下的发展水平、与国外顶尖技术的差距,也能更加清晰地看明白未来的努力方向,而不被资本热潮、舆论热潮所裹挟。
- 对于产业界来说,特别是对于不具备大模型研发能力的公司,熟悉大模型的技术边界、高效有针对性地做大模型技术选型,在现如今显得尤为重要。 而一个公开、公正、公平的大模型评测系统,恰好能够提供应有的助力,避免重复造轮子,避免因技术栈不同而导致不必要的争论,避免“鸡同鸭讲”。
- 对于大模型研发人员,包括对大模型技术感兴趣的人、学术界看中实践的人,各类大模型的效果对比,反应出了背后不同技术路线、技术方法的有效性,这就提供了非常好的参考意义。 不同大模型的相互参考、借鉴,帮忙大家躲过不必要的坑、避免重复实验带来的资源浪费,有助于整个大模型生态圈的良性高效发展。
For Tasks:
Click tags to check more tools for each tasksFor Jobs:
Alternative AI tools for chinese-llm-benchmark
Similar Open Source Tools

chinese-llm-benchmark
The Chinese LLM Benchmark is a continuous evaluation list of large models in CLiB, covering a wide range of commercial and open-source models from various companies and research institutions. It supports multidimensional evaluation of capabilities including classification, information extraction, reading comprehension, data analysis, Chinese encoding efficiency, and Chinese instruction compliance. The benchmark not only provides capability score rankings but also offers the original output results of all models for interested individuals to score and rank themselves.

DISC-LawLLM
DISC-LawLLM is a legal domain large model that aims to provide professional, intelligent, and comprehensive **legal services** to users. It is developed and open-sourced by the Data Intelligence and Social Computing Lab (Fudan-DISC) at Fudan University.

ai-app
The 'ai-app' repository is a comprehensive collection of tools and resources related to artificial intelligence, focusing on topics such as server environment setup, PyCharm and Anaconda installation, large model deployment and training, Transformer principles, RAG technology, vector databases, AI image, voice, and music generation, and AI Agent frameworks. It also includes practical guides and tutorials on implementing various AI applications. The repository serves as a valuable resource for individuals interested in exploring different aspects of AI technology.

ChatGPT-Next-Web-Pro
ChatGPT-Next-Web-Pro is a tool that provides an enhanced version of ChatGPT-Next-Web with additional features and functionalities. It offers complete ChatGPT-Next-Web functionality, file uploading and storage capabilities, drawing and video support, multi-modal support, reverse model support, knowledge base integration, translation, customizations, and more. The tool can be deployed with or without a backend, allowing users to interact with AI models, manage accounts, create models, manage API keys, handle orders, manage memberships, and more. It supports various cloud services like Aliyun OSS, Tencent COS, and Minio for file storage, and integrates with external APIs like Azure, Google Gemini Pro, and Luma. The tool also provides options for customizing website titles, subtitles, icons, and plugin buttons, and offers features like voice input, file uploading, real-time token count display, and more.

gpt_server
The GPT Server project leverages the basic capabilities of FastChat to provide the capabilities of an openai server. It perfectly adapts more models, optimizes models with poor compatibility in FastChat, and supports loading vllm, LMDeploy, and hf in various ways. It also supports all sentence_transformers compatible semantic vector models, including Chat templates with function roles, Function Calling (Tools) capability, and multi-modal large models. The project aims to reduce the difficulty of model adaptation and project usage, making it easier to deploy the latest models with minimal code changes.

GodHook
GodHook is an Xposed module that integrates various fun features, including automatic replies with support for multiple AI language models, subscription functionality for daily news, inspirational quotes, and weather updates, as well as interface functions to execute host app message functions for operations alerts and data push scenarios. It also offers various other features waiting to be explored. The module is designed for learning and communication purposes only and should not be used for malicious purposes. It requires technical knowledge to configure API model information and aims to lower the technical barrier for wider usage in the future.

MiniCPM
MiniCPM is a series of open-source large models on the client side jointly developed by Face Intelligence and Tsinghua University Natural Language Processing Laboratory. The main language model MiniCPM-2B has only 2.4 billion (2.4B) non-word embedding parameters, with a total of 2.7B parameters. - After SFT, MiniCPM-2B performs similarly to Mistral-7B on public comprehensive evaluation sets (better in Chinese, mathematics, and code capabilities), and outperforms models such as Llama2-13B, MPT-30B, and Falcon-40B overall. - After DPO, MiniCPM-2B also surpasses many representative open-source large models such as Llama2-70B-Chat, Vicuna-33B, Mistral-7B-Instruct-v0.1, and Zephyr-7B-alpha on the current evaluation set MTBench, which is closest to the user experience. - Based on MiniCPM-2B, a multi-modal large model MiniCPM-V 2.0 on the client side is constructed, which achieves the best performance of models below 7B in multiple test benchmarks, and surpasses larger parameter scale models such as Qwen-VL-Chat 9.6B, CogVLM-Chat 17.4B, and Yi-VL 34B on the OpenCompass leaderboard. MiniCPM-V 2.0 also demonstrates leading OCR capabilities, approaching Gemini Pro in scene text recognition capabilities. - After Int4 quantization, MiniCPM can be deployed and inferred on mobile phones, with a streaming output speed slightly higher than human speech speed. MiniCPM-V also directly runs through the deployment of multi-modal large models on mobile phones. - A single 1080/2080 can efficiently fine-tune parameters, and a single 3090/4090 can fully fine-tune parameters. A single machine can continuously train MiniCPM, and the secondary development cost is relatively low.

Llama-Chinese
Llama中文社区是一个专注于Llama模型在中文方面的优化和上层建设的高级技术社区。 **已经基于大规模中文数据,从预训练开始对Llama2模型进行中文能力的持续迭代升级【Done】**。**正在对Llama3模型进行中文能力的持续迭代升级【Doing】** 我们热忱欢迎对大模型LLM充满热情的开发者和研究者加入我们的行列。

BlueLM
BlueLM is a large-scale pre-trained language model developed by vivo AI Global Research Institute, featuring 7B base and chat models. It includes high-quality training data with a token scale of 26 trillion, supporting both Chinese and English languages. BlueLM-7B-Chat excels in C-Eval and CMMLU evaluations, providing strong competition among open-source models of similar size. The models support 32K long texts for better context understanding while maintaining base capabilities. BlueLM welcomes developers for academic research and commercial applications.

pmhub
PmHub is a smart project management system based on SpringCloud, SpringCloud Alibaba, and LLM. It aims to help students quickly grasp the architecture design and development process of microservices/distributed projects. PmHub provides a platform for students to experience the transformation from monolithic to microservices architecture, understand the pros and cons of both architectures, and prepare for job interviews. It offers popular technologies like SpringCloud-Gateway, Nacos, Sentinel, and provides high-quality code, continuous integration, product design documents, and an enterprise workflow system. PmHub is suitable for beginners and advanced learners who want to master core knowledge of microservices/distributed projects.

MedicalGPT
MedicalGPT is a training medical GPT model with ChatGPT training pipeline, implement of Pretraining, Supervised Finetuning, RLHF(Reward Modeling and Reinforcement Learning) and DPO(Direct Preference Optimization).

go-stock
Go-stock is a tool for analyzing stock market data using the Go programming language. It provides functionalities for fetching stock data, performing technical analysis, and visualizing trends. With Go-stock, users can easily retrieve historical stock prices, calculate moving averages, and plot candlestick charts. This tool is designed to help investors and traders make informed decisions based on data-driven insights.

llms-from-scratch-cn
This repository provides a detailed tutorial on how to build your own large language model (LLM) from scratch. It includes all the code necessary to create a GPT-like LLM, covering the encoding, pre-training, and fine-tuning processes. The tutorial is written in a clear and concise style, with plenty of examples and illustrations to help you understand the concepts involved. It is suitable for developers and researchers with some programming experience who are interested in learning more about LLMs and how to build them.

TigerBot
TigerBot is a cutting-edge foundation for your very own LLM, providing a world-class large model for innovative Chinese-style contributions. It offers various upgrades and features, such as search mode enhancements, support for large context lengths, and the ability to play text-based games. TigerBot is suitable for prompt-based game engine development, interactive game design, and real-time feedback for playable games.

video-subtitle-remover
Video-subtitle-remover (VSR) is a software based on AI technology that removes hard subtitles from videos. It achieves the following functions: - Lossless resolution: Remove hard subtitles from videos, generate files with subtitles removed - Fill the region of removed subtitles using a powerful AI algorithm model (non-adjacent pixel filling and mosaic removal) - Support custom subtitle positions, only remove subtitles in defined positions (input position) - Support automatic removal of all text in the entire video (no input position required) - Support batch removal of watermark text from multiple images.
For similar tasks

Azure-Analytics-and-AI-Engagement
The Azure-Analytics-and-AI-Engagement repository provides packaged Industry Scenario DREAM Demos with ARM templates (Containing a demo web application, Power BI reports, Synapse resources, AML Notebooks etc.) that can be deployed in a customer’s subscription using the CAPE tool within a matter of few hours. Partners can also deploy DREAM Demos in their own subscriptions using DPoC.

sorrentum
Sorrentum is an open-source project that aims to combine open-source development, startups, and brilliant students to build machine learning, AI, and Web3 / DeFi protocols geared towards finance and economics. The project provides opportunities for internships, research assistantships, and development grants, as well as the chance to work on cutting-edge problems, learn about startups, write academic papers, and get internships and full-time positions at companies working on Sorrentum applications.

tidb
TiDB is an open-source distributed SQL database that supports Hybrid Transactional and Analytical Processing (HTAP) workloads. It is MySQL compatible and features horizontal scalability, strong consistency, and high availability.

zep-python
Zep is an open-source platform for building and deploying large language model (LLM) applications. It provides a suite of tools and services that make it easy to integrate LLMs into your applications, including chat history memory, embedding, vector search, and data enrichment. Zep is designed to be scalable, reliable, and easy to use, making it a great choice for developers who want to build LLM-powered applications quickly and easily.

telemetry-airflow
This repository codifies the Airflow cluster that is deployed at workflow.telemetry.mozilla.org (behind SSO) and commonly referred to as "WTMO" or simply "Airflow". Some links relevant to users and developers of WTMO: * The `dags` directory in this repository contains some custom DAG definitions * Many of the DAGs registered with WTMO don't live in this repository, but are instead generated from ETL task definitions in bigquery-etl * The Data SRE team maintains a WTMO Developer Guide (behind SSO)

mojo
Mojo is a new programming language that bridges the gap between research and production by combining Python syntax and ecosystem with systems programming and metaprogramming features. Mojo is still young, but it is designed to become a superset of Python over time.

pandas-ai
PandasAI is a Python library that makes it easy to ask questions to your data in natural language. It helps you to explore, clean, and analyze your data using generative AI.

databend
Databend is an open-source cloud data warehouse that serves as a cost-effective alternative to Snowflake. With its focus on fast query execution and data ingestion, it's designed for complex analysis of the world's largest datasets.
For similar jobs

sweep
Sweep is an AI junior developer that turns bugs and feature requests into code changes. It automatically handles developer experience improvements like adding type hints and improving test coverage.

teams-ai
The Teams AI Library is a software development kit (SDK) that helps developers create bots that can interact with Teams and Microsoft 365 applications. It is built on top of the Bot Framework SDK and simplifies the process of developing bots that interact with Teams' artificial intelligence capabilities. The SDK is available for JavaScript/TypeScript, .NET, and Python.

ai-guide
This guide is dedicated to Large Language Models (LLMs) that you can run on your home computer. It assumes your PC is a lower-end, non-gaming setup.

classifai
Supercharge WordPress Content Workflows and Engagement with Artificial Intelligence. Tap into leading cloud-based services like OpenAI, Microsoft Azure AI, Google Gemini and IBM Watson to augment your WordPress-powered websites. Publish content faster while improving SEO performance and increasing audience engagement. ClassifAI integrates Artificial Intelligence and Machine Learning technologies to lighten your workload and eliminate tedious tasks, giving you more time to create original content that matters.

chatbot-ui
Chatbot UI is an open-source AI chat app that allows users to create and deploy their own AI chatbots. It is easy to use and can be customized to fit any need. Chatbot UI is perfect for businesses, developers, and anyone who wants to create a chatbot.

BricksLLM
BricksLLM is a cloud native AI gateway written in Go. Currently, it provides native support for OpenAI, Anthropic, Azure OpenAI and vLLM. BricksLLM aims to provide enterprise level infrastructure that can power any LLM production use cases. Here are some use cases for BricksLLM: * Set LLM usage limits for users on different pricing tiers * Track LLM usage on a per user and per organization basis * Block or redact requests containing PIIs * Improve LLM reliability with failovers, retries and caching * Distribute API keys with rate limits and cost limits for internal development/production use cases * Distribute API keys with rate limits and cost limits for students

uAgents
uAgents is a Python library developed by Fetch.ai that allows for the creation of autonomous AI agents. These agents can perform various tasks on a schedule or take action on various events. uAgents are easy to create and manage, and they are connected to a fast-growing network of other uAgents. They are also secure, with cryptographically secured messages and wallets.

griptape
Griptape is a modular Python framework for building AI-powered applications that securely connect to your enterprise data and APIs. It offers developers the ability to maintain control and flexibility at every step. Griptape's core components include Structures (Agents, Pipelines, and Workflows), Tasks, Tools, Memory (Conversation Memory, Task Memory, and Meta Memory), Drivers (Prompt and Embedding Drivers, Vector Store Drivers, Image Generation Drivers, Image Query Drivers, SQL Drivers, Web Scraper Drivers, and Conversation Memory Drivers), Engines (Query Engines, Extraction Engines, Summary Engines, Image Generation Engines, and Image Query Engines), and additional components (Rulesets, Loaders, Artifacts, Chunkers, and Tokenizers). Griptape enables developers to create AI-powered applications with ease and efficiency.