chinese-llm-benchmark

chinese-llm-benchmark

目前已囊括203个大模型,覆盖chatgpt、gpt-4o、o3-mini、谷歌gemini、Claude3.5、智谱GLM-Zero、文心一言、qwen-max、百川、讯飞星火、商汤senseChat、minimax等商用模型, 以及DeepSeek-R1、qwq-32b、deepseek-v3、qwen2.5、llama3.3、phi-4、glm4、gemma3、mistral、书生internLM2.5等开源大模型。不仅提供能力评分排行榜,也提供所有模型的原始输出结果!

Stars: 3822

Visit
 screenshot

The Chinese LLM Benchmark is a continuous evaluation list of large models in CLiB, covering a wide range of commercial and open-source models from various companies and research institutions. It supports multidimensional evaluation of capabilities including classification, information extraction, reading comprehension, data analysis, Chinese encoding efficiency, and Chinese instruction compliance. The benchmark not only provides capability score rankings but also offers the original output results of all models for interested individuals to score and rank themselves.

README:

CLiB中文大模型能力评测榜单(持续更新)

  • 目前已囊括208个大模型,覆盖chatgpt、gpt-4o、o3-mini、谷歌gemini、Claude3.5、智谱GLM-Zero、文心一言、qwen-max、百川、讯飞星火、商汤senseChat、minimax等商用模型, 以及DeepSeek-R1、qwq-32b、deepseek-v3、qwen2.5、llama3.3、phi-4、glm4、gemma3、mistral、书生internLM2.5等开源大模型。
  • 模型来源涉及国内外大厂、大模型创业公司、高校研究机构。
  • 支持多维度能力评测,包括医疗、教育、法律、行政公务、心理健康、推理与数学计算、语言与指令遵从等6个领域,以及细分的200多个维度(比如牙科、高中语文…)。
  • 不仅提供能力评分排行榜,也提供所有模型的原始输出结果!有兴趣的朋友可以自己打分、自己排行!

目录

最近更新

  • [2025/3/23] v3.9版本
    • 新增“专业知识考试/中医学与中药学”排行榜,并计入总分
    • “律师资格考试”排行榜新增“MMCU法律”子项
    • 新增5个模型:hunyuan-turbos-20250313、gemma-3-1b-it、gemma-3-4b-it、gemma-3-12b-it、ERNIE-4.5-8K-Preview
  • [2025/3/21] 发布v3.8版本评测榜单
    • 新增“专业知识考试/预防医学与公共卫生学”、“心理健康”排行榜,并计入总分
  • [2025/3/19] 发布v3.7版本评测榜单
    • 新增“专业知识考试/临床医学”排行榜(含医学影像学、放射学等22个方向),并计入总分,详见link
    • 高考排行榜新增政治学科,并增加大量考题,更新所有相关分数
  • [2025/3/17] 发布v3.6版本评测榜单
    • 新增“专业知识考试/基础医学”排行榜(含病理生理学、医学心理学等17个方向),并计入总分,详见link
    • 新增2个模型:谷歌gemma-3-27b-it、Mistral-Small-24B-Instruct-2501
  • [2025/3/15] 发布v3.5版本评测榜单
    • 新增“医技考试”排行榜(含医技士-康复医学治疗技术、医技师-肿瘤学技术等22个方向),并计入总分,详见link
  • [2025/3/13] 发布v3.4版本评测榜单
    • 新增“药师考试”排行榜(含执业西药师、执业中药师等8个方向),并计入总分,详见link
  • [2025/3/11] 发布v3.3版本评测榜单
    • 新增“护理考试”排行榜(含护士执业资格考试、护师资格考试等10个方向),并计入总分,详见link
    • 新增6个模型:qwq-32b、qwq-plus-2025-03-05、step-2-mini、hunyuan-turbos-20250226、xunfei-spark-lite,☛查看模型完整信息
  • [2025/3/10] 发布v3.2版本评测榜单
    • 新增“医师考试/高级职称”排行榜(含等消化内科高级职称、普通内科高级职称等8个方向),并计入总分,详见link
  • [2025/3/7] 发布v3.1版本评测榜单
    • 新增“医师考试/中级职称”排行榜(含超声波医学主治医师、妇产科主治医师等43个方向),并计入总分,详见link
  • [2025/3/4] 发布v3.0版本评测榜单
    • 综合能力得分计算方式改为:医疗、教育、法律、行政公务、推理与数学计算、语言与指令遵从等6个领域得分的平均值。
    • 新增“医师考试/执业医师”排行榜(含中西医结合执业医师、口腔执业医师等5个方向),并计入总分,详见link
  • [2025/3/3] 发布v2.22版本评测榜单
    • 新增“医师考试/执业助理医师”排行榜(含临床执业助理医师、口腔执业助理医师等5个方向),并计入总分,详见link
    • 删除陈旧的模型:SenseChat-Turbo、SenseChat-v4、SenseChat-5、Mixtral-8x7B-Instruct-v0.1
  • [2025/2/28] 发布v2.21版本评测榜单
    • 新增“CMB-医师考试-规培结业”排行榜(含外科、皮肤科等18个方向),并计入总分,详见link
    • 删除陈旧的模型:Doubao-lite-32k-240428、Doubao-pro-32k-240615、o1-preview、WizardLM-2-8x22B、gemini-2.0-flash-lite-preview-02-05
  • [2025/2/24] 发布v2.20版本评测榜单
    • 新增高中学科排行榜、初中学科排行榜、小学学科排行榜,并计入总分
    • 删除陈旧的模型:gpt-4o-2024-08-06、qwen-max-2024-09-19
  • [2025/2/22] 发布v2.19版本评测榜单
    • 新增6个模型:kimi-latest-8k、SenseChat-5-beta、chatgpt-4o-latest、Doubao-1.5-pro-32k-250115、Doubao-1.5-lite-32k-250115、360zhinao2-o1,☛查看模型完整信息
    • 新增推理类大模型排行榜,详见link
  • [2025/2/18] 发布v2.18版本评测榜单
    • 新增2个模型:qwen2.5-max、gemini-2.0-flash-thinking-exp-01-21,☛查看模型完整信息
    • 新增演绎推理排行榜、C3中文阅读理解排行榜,并计入总分
  • [2025/2/14] 发布v2.17版本评测榜单
    • 新增10个模型:GLM-Zero-Preview、MiniMax-Text-01、SenseChat-5-1202、SenseChat-Turbo-1202、GLM-4-FlashX、ERNIE-Lite-8K、ERNIE-Tiny-8K、ERNIE-Lite-Pro-128K、ERNIE-Speed-Pro-128K、qwen2.5-math-72b-instruct,☛查看模型完整信息
    • 删除陈旧的模型:GLM4、gemini-1.0-pro、Llama-3.1-70B-Instruct、Meta-Llama-3.1-70B-Instruct-fp8
  • [2025/2/13] 发布v2.16版本评测榜单
    • 新增6个模型:qwq-32b-preview、o1-mini、o3-mini、gemini-2.0-pro-exp-02-05、gemini-2.0-flash-lite-preview-02-05、gemini-2.0-flash-001,☛查看模型完整信息
  • [2025/2/12] 发布v2.15版本评测榜单
    • 新增成语理解排行榜、情感分析排行榜,并计入总分
  • [2025/2/10] 发布v2.14版本评测榜单
    • 新增7个模型:DeepSeek-R1、DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Llama-8B、DeepSeek-R1-Distill-Qwen-14B、DeepSeek-R1-Distill-Qwen-32B、DeepSeek-R1-Distill-Llama-70B,☛查看模型完整信息
  • [2025/1/29] 发布v2.13版本评测榜单
    • 新增常识推理排行榜、文本蕴含(语言理解)排行榜,并计入总分
    • 阅读理解评测样本增加至600多个,并更新各模型评分
  • [2025/1/25] 发布v2.12版本评测榜单
    • 新增高考榜单及各学科细分榜单(生物、化学、语文、地理、历史、数学、物理),并以各科平均分(100分制)计入总分
  • [2025/1/23] 发布v2.11版本评测榜单
    • 公务员考试kaogong、律师资格考试JEC-QA开始计入总分
    • 新增4个模型:mistral-small、Hermes-3-Llama-3.1-405B、mistral-large、360gpt2-o1,☛查看模型完整信息
  • [2025/1/22] 发布v2.10版本评测榜单
    • 新增律师资格考试JEC-QA榜单,暂不计入总分
    • 新增7个模型:ministral-3b、Mistral-7B-Instruct-v0.3、Mistral-Nemo-Instruct-2407、ministral-8b、Mixtral-8x7B-Instruct-v0.1、Llama-3.1-Nemotron-70B-Instruct-fp8、WizardLM-2-8x22B,☛查看模型完整信息
  • [2025/1/20] 发布v2.9版本评测榜单
    • 新增公务员考试kaogong榜单,暂不计入总分
    • 新增5个模型:Llama-3.2-1B-Instruct、Llama-3.2-3B-Instruct、Llama-3.1-8B-Instruct-fp8、Llama-3.3-70B-Instruct-fp8、Llama-3.1-70B-Instruct-fp8,☛查看模型完整信息
  • [2025/1/17] 发布v2.8版本评测榜单
    • 新增9个模型:gemini-2.0-flash-exp、phi-4、gemini-1.5-flash-8b、360gpt-turbo、step-1-flash、Llama-3.3-70B-Instruct、360gpt-pro、360gpt2-pro、step-1-8k,☛查看模型完整信息
    • 新增o1-mini、o1-preview的初中数学成绩
    • 删除陈旧的模型:abab5.5-chat、abab5.5s-chat
  • [2025/1/7] 发布v2.7版本评测榜单
    • 新增代词理解CLUEWSC榜单(比如“他”是指谁)、诗词匹配CCPM榜单
    • 新增5个模型:Claude-3.5-Sonnet、gemma-2-27b-it、Llama-3.1-405B-Instruct、Baichuan4-Air、Baichuan4-Turbo,☛查看模型完整信息
    • 删除陈旧的模型:Baichuan3-Turbo、qwen2-72b-instruct、Qwen2-7B-Instruct、qwen2-1.5b-instruct、qwen2-0.5b-instruct、qwen2-57b-a14b-instruct
  • [2024/12/28]v2.6版本, [2024/12/27]v2.5版本, [2024/12/25]v2.4版本, [2024/10/20]v2.3版本,[2024/9/29]v2.2版本,[2024/8/27]v2.1版本,[2024/8/7]v2.0版本,[2024/7/26]v1.21版本,[2024/7/15]v1.20版本,[2024/6/29]v1.19版本,[2024/6/2]v1.18版本,[2024/5/8]v1.17版本,[2024/4/13]v1.16版本,[2024/3/20]v1.15版本,[2024/2/28]v1.14版本,[2024/1/29]v1.13版本
  • 2023年:[2023/12/10]v1.12版本,[2023/11/22]v1.11版本,[2023/11/5]v1.10版本,[2023/10/11]v1.9版本,[2023/9/13]v1.8版本,[2023/8/29]v1.7版本,[2023/8/13]v1.6版本,[2023/7/26]v1.5版本, [2023/7/18]v1.4版本, [2023/7/2]v1.3版本, [2023/6/17]v1.2版, [2023/6/10]v1.1版本, [2023/6/4]v1版本

各版本更新详情:CHANGELOG

TODO

  • 引入更多维度的评测:代码能力、开放域问答、多轮对话、头脑风暴、翻译……
  • 评测维度更细分,比如信息抽取可以细分时间实体抽取能力、地址实体抽取能力……
  • 海纳百川,整合各类评测榜单,扩充细分领域榜单(比如教育领域、医疗领域)
  • 加入更多评测数据,使得评测得分越来越有说服力

大模型基本信息

价格单位:元/1M tokens,即元每百万token

model producer open-source price_input price_output 直接体验 download paper badcase
GLM-4-Flash 智谱AI No 0.0 0.0 link / link link
ERNIE-Speed-8K 百度 No 0.0 0.0 link / / link
internlm2_5-7b-chat 上海人工智能实验室 Yes 0.3 0.3 link link / link
Yi-1.5-9B-Chat 零一万物 Yes 0.4 0.4 link link link link
Llama-3.1-8B-Instruct meta Yes 0.4 0.4 link link link link
Doubao-lite-32k 豆包 No 0.3 0.6 link / / link
glm-4-9b-chat 智谱AI Yes 0.6 0.6 link link link link
gemma-2-9b-it google Yes 0.6 0.6 link link link link
qwen2.5-7b-instruct 阿里巴巴 Yes 1.0 2.0 link link / link
gemini-1.5-flash google No 0.5 2.2 link / / link
gpt-4o-mini openAI No 1.1 4.3 link / link link
... ... ... ... ... ... ... ... ...

更多模型信息详见:

📊 排行榜

1、综合能力排行榜

综合能力得分为医疗、教育、法律、行政公务、心理健康、推理与数学计算、语言与指令遵从等7个领域得分的平均值。 lin
详细数据见total

1.1、推理类模型排行榜

排名 大模型 机构 输出价格 总分 医疗 教育 法律 行政公务 心理健康 推理与数学计算 语言与指令遵从
1 hunyuan-turbos-20250226(new)☛去体验 腾讯 2.0元 86.0 88.2 92.3 83.3 81.6 78.2 91.5 90.2
2 DeepSeek-R1☛去体验 深度求索 16.0元 83.1 82.6 93.8 74.8 88.6 61.5 92.7 91.2
3 hunyuan-turbos-20250313(new)☛去体验 腾讯 2.0元 82.4 84.4 91.1 72.2 80.0 72.9 92.1 84.4

完整排行榜见推理类模型排行榜

1.2、商用大模型排行榜(含开源模型的付费API)

(1)输出价格30元及以上商用大模型排行榜
排名 大模型 机构 输出价格 总分 医疗 教育 法律 行政公务 心理健康 推理与数学计算 语言与指令遵从
1 xunfei-4.0Ultra☛去体验 科大讯飞 70.0元 76.7 76.9 87.7 66.7 72.0 61.2 88.9 87.5
2 GLM-4-Plus☛去体验 智谱AI 50.0元 76.3 75.4 87.7 63.1 76.7 59.0 89.1 88.8
3 xunfei-spark-max☛去体验 科大讯飞 30.0元 75.4 77.5 89.2 66.5 70.4 59.0 86.0 85.3

完整排行榜见30元及以上商用大模型

(2)输出价格5~30元商用大模型排行榜
排名 大模型 机构 输出价格 总分 医疗 教育 法律 行政公务 心理健康 推理与数学计算 语言与指令遵从
1 ERNIE-4.5-8K-Preview(new)☛去体验 百度 16.0元 88.0 91.7 89.4 90.3 87.0 75.2 94.2 88.4
2 DeepSeek-R1☛去体验 深度求索 16.0元 83.1 82.6 93.8 74.8 88.6 61.5 92.7 91.2
3 hunyuan-large☛去体验 腾讯 12.0元 82.6 86.0 89.0 83.2 75.7 73.2 86.9 87.7

完整排行榜见5~30元商用大模型

(3)输出价格1~5元商用大模型排行榜
排名 大模型 机构 输出价格 总分 医疗 教育 法律 行政公务 心理健康 推理与数学计算 语言与指令遵从
1 hunyuan-turbos-20250226(new)☛去体验 腾讯 2.0元 86.0 88.2 92.3 83.3 81.6 78.2 91.5 90.2
2 Doubao-1.5-pro-32k-250115☛去体验 豆包 2.0元 84.0 86.1 93.3 72.3 78.3 74.4 92.8 91.3
3 hunyuan-turbos-20250313(new)☛去体验 腾讯 2.0元 82.4 84.4 91.1 72.2 80.0 72.9 92.1 84.4

完整排行榜见1~5元商用大模型

(4)输出价格1元以下商用大模型排行榜
排名 大模型 机构 输出价格 总分 医疗 教育 法律 行政公务 心理健康 推理与数学计算 语言与指令遵从
1 Doubao-1.5-lite-32k-250115☛去体验 豆包 0.6元 77.9 81.5 89.6 63.2 70.7 65.8 91.7 86.5
2 gemini-2.0-flash-thinking-exp-01-21☛去体验 Google 0.0元 74.2 67.6 83.8 47.9 85.1 53.5 93.9 86.9
3 gemini-2.0-pro-exp-02-05☛去体验 Google 0.0元 74.0 73.1 86.6 45.6 73.7 60.6 92.0 87.5

完整排行榜见1元以下商用大模型

DIY自定义维度筛选榜单:☛ link

旗舰商用模型badcase: gpt-4o | deepseek-chat-v3 | 更多


1.3、开源大模型排行榜

(1)5B以下开源大模型排行榜
排名 大模型 机构 输出价格 总分 医疗 教育 法律 行政公务 心理健康 推理与数学计算 语言与指令遵从
1 qwen2.5-3b-instruct☛去体验 阿里巴巴 0.9元 56.0 50.5 67.2 29.2 51.3 43.8 72.2 77.7
2 qwen2.5-1.5b-instruct☛去体验 阿里巴巴 0.0元 47.3 44.5 62.3 29.6 40.5 39.6 49.6 65.9
3 gemma-3-4b-it(new)☛去体验 Google 0.0元 44.4 33.2 53.3 16.5 39.5 29.2 81.0 58.0

完整排行榜见5B以下开源大模型

(2)5B~20B开源大模型排行榜
排名 大模型 机构 输出价格 总分 医疗 教育 法律 行政公务 心理健康 推理与数学计算 语言与指令遵从
1 DeepSeek-R1-Distill-Qwen-14B☛去体验 深度求索 0.7元 69.9 63.7 83.8 42.2 68.0 55.6 89.8 85.6
2 qwen2.5-14b-instruct☛去体验 阿里巴巴 6.0元 69.8 68.2 84.1 47.1 67.0 56.1 82.6 86.9
3 internlm2_5-20b-chat☛去体验 上海人工智能实验室 1.0元 66.8 66.0 77.5 46.4 66.4 52.7 77.1 84.4

完整排行榜见5B~20B开源大模型

(3)20B以上开源大模型排行榜
排名 大模型 机构 输出价格 总分 医疗 教育 法律 行政公务 心理健康 推理与数学计算 语言与指令遵从
1 DeepSeek-R1☛去体验 深度求索 16.0元 83.1 82.6 93.8 74.8 88.6 61.5 92.7 91.2
2 hunyuan-large☛去体验 腾讯 12.0元 82.6 86.0 89.0 83.2 75.7 73.2 86.9 87.7
3 qwq-32b(new)☛去体验 阿里巴巴 6.0元 80.8 76.8 91.2 62.5 86.5 63.0 94.3 90.9

完整排行榜见20B以上开源大模型

DIY自定义维度筛选榜单:☛link



2、医疗排行榜

☛☛完整排行榜见医疗

2.1 医师考试/规培结业

医师考试之规培结业,均为选择题,含外科、皮肤科等18个方向,参考CMB
☛☛完整排行榜见医师考试/规培结业

(1)外科

完整排行榜见规培结业/外科,☛查看规培结业/外科badcase

(2)皮肤科

完整排行榜见皮肤科,☛查看皮肤科badcase

(3)妇产科

完整排行榜见妇产科,☛查看妇产科badcase

(4)耳鼻咽喉科

完整排行榜见耳鼻咽喉科,☛查看耳鼻咽喉科badcase

(5)神经内科

完整排行榜见神经内科,☛查看神经内科badcase

(6)儿科

完整排行榜见儿科,☛查看儿科badcase

(7)麻醉科

完整排行榜见麻醉科,☛查看麻醉科badcase

(8)小儿外科

完整排行榜见小儿外科,☛查看小儿外科badcase

(9)眼科

完整排行榜见眼科,☛查看眼科badcase

(10)临床病理科

完整排行榜见临床病理科,☛查看临床病理科badcase

(11)超声科

完整排行榜见超声科,☛查看超声科badcase

(12)康复医学科

完整排行榜见康复医学科,☛查看康复医学科badcase

(13)骨科

完整排行榜见骨科,☛查看骨科badcase

(14)内科

完整排行榜见内科,☛查看内科badcase

(15)口腔科

完整排行榜见口腔科,☛查看口腔科badcase

(16)医学影像科

完整排行榜见医学影像科,☛查看医学影像科badcase

(17)全科医学科

完整排行榜见全科医学科,☛查看全科医学科badcase

(18)精神科

完整排行榜见精神科,☛查看精神科badcase


2.2 医师考试/执业助理医师

医师考试之执业助理医师,均为选择题,含临床执业助理医师、口腔执业助理医师等5个方向,参考CMB
☛☛完整排行榜见医师考试/执业助理医师

(1)临床执业助理医师

完整排行榜见临床执业助理医师,☛查看临床执业助理医师badcase

(2)中西医结合执业助理医师

完整排行榜见中西医结合执业助理医师,☛查看中西医结合执业助理医师badcase

(3)口腔执业助理医师

完整排行榜见口腔执业助理医师,☛查看口腔执业助理医师badcase

(4)公共卫生执业助理医师

完整排行榜见公共卫生执业助理医师,☛查看公共卫生执业助理医师badcase

(5)中医执业助理医师

完整排行榜见中医执业助理医师,☛查看中医执业助理医师badcase


2.3 医师考试/执业医师

医师考试之执业医师,均为选择题,含中西医结合执业医师、公共卫生执业医师等5个方向,参考CMB
☛☛完整排行榜见医师考试/执业医师

(1)中西医结合执业医师

完整排行榜见中西医结合执业医师,☛查看中西医结合执业医师badcase

(2)中医执业医师

完整排行榜见中医执业医师,☛查看中医执业医师badcase

(3)公共卫生执业医师

完整排行榜见公共卫生执业医师,☛查看公共卫生执业医师badcase

(4)临床执业医师

完整排行榜见临床执业医师,☛查看临床执业医师badcase

(5)口腔执业医师

完整排行榜见口腔执业医师,☛查看口腔执业医师badcase


2.4 医师考试/中级职称

医师考试之中级职称,均为选择题,含超声波医学主治医师、妇产科主治医师等43个方向,参考CMB
☛☛完整排行榜见医师考试/中级职称

(1)超声波医学主治医师

完整排行榜见超声波医学主治医师,☛查看超声波医学主治医师badcase

(2)妇产科主治医师

完整排行榜见妇产科主治医师,☛查看妇产科主治医师badcase

(3)中医内科主治医师

完整排行榜见中医内科主治医师,☛查看中医内科主治医师badcase

(4)精神病学主治医师

完整排行榜见精神病学主治医师,☛查看精神病学主治医师badcase

(5)皮肤科

完整排行榜见皮肤科,☛查看皮肤科badcase

(6)内科主治医师

完整排行榜见内科主治医师,☛查看内科主治医师badcase

(7)康复医学主治医师

完整排行榜见康复医学主治医师,☛查看康复医学主治医师badcase

(8)神经内科主治医师

完整排行榜见神经内科主治医师,☛查看神经内科主治医师badcase

(9)核医学主治医师

完整排行榜见核医学主治医师,☛查看核医学主治医师badcase

(10)口腔内科主治医师

完整排行榜见口腔内科主治医师,☛查看口腔内科主治医师badcase

(11)儿科主治医师

完整排行榜见儿科主治医师,☛查看儿科主治医师badcase

(12)结核病主治医师

完整排行榜见结核病主治医师,☛查看结核病主治医师badcase

(13)心血管内科与呼吸内科主治医师

完整排行榜见心血管内科与呼吸内科主治医师,☛查看心血管内科与呼吸内科主治医师badcase

(14)重症医学主治医师

完整排行榜见重症医学主治医师,☛查看重症医学主治医师badcase

(15)职业病主治医师

完整排行榜见职业病主治医师,☛查看职业病主治医师badcase

(16)口腔科主治医师

完整排行榜见口腔科主治医师,☛查看口腔科主治医师badcase

(17)放射科主治医师

完整排行榜见放射科主治医师,☛查看放射科主治医师badcase

(18)耳鼻咽喉科主治医师

完整排行榜见耳鼻咽喉科主治医师,☛查看耳鼻咽喉科主治医师badcase

(19)肿瘤学主治医师

完整排行榜见肿瘤学主治医师,☛查看肿瘤学主治医师badcase

(20)医院感染

完整排行榜见医院感染,☛查看医院感染badcase

(21)麻醉科主治医师

完整排行榜见麻醉科主治医师,☛查看麻醉科主治医师badcase

(22)疼痛科主治医师

完整排行榜见疼痛科主治医师,☛查看疼痛科主治医师badcase

(23)病理科主治医师

完整排行榜见病理科主治医师,☛查看病理科主治医师badcase

(24)传染病主治医师

完整排行榜见传染病主治医师,☛查看传染病主治医师badcase

(25)皮肤与性病学主治医师

完整排行榜见皮肤与性病学主治医师,☛查看皮肤与性病学主治医师badcase

(26)肾内科主治医师

完整排行榜见肾内科主治医师,☛查看肾内科主治医师badcase

(27)口腔修复科主治医师

完整排行榜见口腔修复科主治医师,☛查看口腔修复科主治医师badcase

(28)预防医学主治医师

完整排行榜见预防医学主治医师,☛查看预防医学主治医师badcase

(29)中医针灸主治医师

完整排行榜见中医针灸主治医师,☛查看中医针灸主治医师badcase

(30)口腔颌面外科主治医师

完整排行榜见口腔颌面外科主治医师,☛查看口腔颌面外科主治医师badcase

(31)风湿与临床免疫主治医师

完整排行榜见风湿与临床免疫主治医师,☛查看风湿与临床免疫主治医师badcase

(32)消化内科主治医师

完整排行榜见消化内科主治医师,☛查看消化内科主治医师badcase

(33)心理治疗学主治医师

完整排行榜见心理治疗学主治医师,☛查看心理治疗学主治医师badcase

(34)传染病学

完整排行榜见传染病学,☛查看传染病学badcase

(35)全科主治医师

完整排行榜见全科主治医师,☛查看全科主治医师badcase

(36)眼科主治医师

完整排行榜见眼科主治医师,☛查看眼科主治医师badcase

(37)口腔正畸学主治医师

完整排行榜见口腔正畸学主治医师,☛查看口腔正畸学主治医师badcase

(38)中西医结合内科主治医师

完整排行榜见中西医结合内科主治医师,☛查看中西医结合内科主治医师badcase

(39)营养学主治医师

完整排行榜见营养学主治医师,☛查看营养学主治医师badcase

(40)整形外科主治医师

完整排行榜见整形外科主治医师,☛查看整形外科主治医师badcase

(41)心理咨询师

完整排行榜见心理咨询师,☛查看心理咨询师badcase

(42)骨科

完整排行榜见骨科,☛查看骨科badcase

(43)外科主治医师

完整排行榜见外科主治医师,☛查看外科主治医师badcase


2.5 医师考试/高级职称

医师考试之高级职称,均为选择题,含等消化内科高级职称、普通内科高级职称等8个方向,参考CMB
☛☛完整排行榜见医师考试/高级职称

(1)消化内科高级职称

完整排行榜见消化内科高级职称,☛查看消化内科高级职称badcase

(2)普通内科高级职称

完整排行榜见普通内科高级职称,☛查看普通内科高级职称badcase

(3)普通外科高级职称

完整排行榜见普通外科高级职称,☛查看普通外科高级职称badcase

(4)骨科高级职称

完整排行榜见骨科高级职称,☛查看骨科高级职称badcase

(5)呼吸内科高级职称

完整排行榜见呼吸内科高级职称,☛查看呼吸内科高级职称badcase

(6)内分泌科高级职称

完整排行榜见内分泌科高级职称,☛查看内分泌科高级职称badcase

(7)心内科高级职称

完整排行榜见心内科高级职称,☛查看心内科高级职称badcase

(8)妇产科学副主任、主任医师职称考试

完整排行榜见妇产科学副主任、主任医师职称考试,☛查看妇产科学副主任、主任医师职称考试badcase


2.6 护理考试

护理考试,均为选择题,含护士执业资格考试、护师资格考试等10个方向,参考CMB
☛☛完整排行榜见护理考试

(1)护士执业资格考试

完整排行榜见护士执业资格考试,☛查看护士执业资格考试badcase

(2)护师资格考试

完整排行榜见护师资格考试,☛查看护师资格考试badcase

(3)儿科主管护师

完整排行榜见儿科主管护师,☛查看儿科主管护师badcase

(4)内科护理学

完整排行榜见内科护理学,☛查看内科护理学badcase

(5)妇产科护理学

完整排行榜见妇产科护理学,☛查看妇产科护理学badcase

(6)妇产科主管护师

完整排行榜见妇产科主管护师,☛查看妇产科主管护师badcase

(7)外科主管护师

完整排行榜见外科主管护师,☛查看外科主管护师badcase

(8)主管护师资格考试

完整排行榜见主管护师资格考试,☛查看主管护师资格考试badcase

(9)内科主管护师

完整排行榜见内科主管护师,☛查看内科主管护师badcase

(10)副主任、主任护师资格考试

完整排行榜见副主任、主任护师资格考试,☛查看副主任、主任护师资格考试badcase


2.7 药师考试

药师考试,均为选择题,含执业西药师、执业中药师等8个方向,参考CMB
☛☛完整排行榜见药师考试

(1)执业西药师

完整排行榜见执业西药师,☛查看执业西药师badcase

(2)执业中药师

完整排行榜见执业中药师,☛查看执业中药师badcase

(3)初级药士-药士初级考试

完整排行榜见初级药士-药士初级考试,☛查看初级药士-药士初级考试badcase

(4)初级药师-药师初级考试

完整排行榜见初级药师-药师初级考试,☛查看初级药师-药师初级考试badcase

(5)初级中药士-中药学(士)

完整排行榜见初级中药士-中药学(士),☛查看初级中药士-中药学(士)badcase

(6)初级中药师-中药学(师)

完整排行榜见初级中药师-中药学(师),☛查看初级中药师-中药学(师)badcase

(7)主管药师-主管药师资格考试

完整排行榜见主管药师-主管药师资格考试,☛查看主管药师-主管药师资格考试badcase

(8)主管中药师

完整排行榜见主管中药师,☛查看主管中药师badcase


2.8 医技考试

医技考试,均为选择题,含医技士-康复医学治疗技术(士)、医技师-肿瘤学技术(师)等22个方向,参考CMB
☛☛完整排行榜见医技考试

(1)康复医学治疗技术(士)

完整排行榜见康复医学治疗技术(士),☛查看康复医学治疗技术(士)badcase

(2)放射学技术(士)

完整排行榜见放射学技术(士),☛查看放射学技术(士)badcase

(3)检验技术(士)

完整排行榜见检验技术(士),☛查看检验技术(士)badcase

(4)肿瘤学技术(士)

完整排行榜见肿瘤学技术(士),☛查看肿瘤学技术(士)badcase

(5)康复医学治疗技术(师)

完整排行榜见康复医学治疗技术(师),☛查看康复医学治疗技术(师)badcase

(6)肿瘤学技术(师)

完整排行榜见肿瘤学技术(师),☛查看肿瘤学技术(师)badcase

(7)放射学技术(师)

完整排行榜见放射学技术(师),☛查看放射学技术(师)badcase

(8)检验技术(师)

完整排行榜见检验技术(师),☛查看检验技术(师)badcase

(9)肿瘤放射治疗主管技师

完整排行榜见肿瘤放射治疗主管技师,☛查看肿瘤放射治疗主管技师badcase

(10)超声波医学主管技师

完整排行榜见超声波医学主管技师,☛查看超声波医学主管技师badcase

(11)输血技术主管技师

完整排行榜见输血技术主管技师,☛查看输血技术主管技师badcase

(12)微生物检验主管技师

完整排行榜见微生物检验主管技师,☛查看微生物检验主管技师badcase

(13)放射医学主管技师

完整排行榜见放射医学主管技师,☛查看放射医学主管技师badcase

(14)病理学主管技师

完整排行榜见病理学主管技师,☛查看病理学主管技师badcase

(15)理化检验主管技师

完整排行榜见理化检验主管技师,☛查看理化检验主管技师badcase

(16)病理学技术

完整排行榜见病理学技术,☛查看病理学技术badcase

(17)临床医学检验主管技师

完整排行榜见临床医学检验主管技师,☛查看临床医学检验主管技师badcase

(18)病案信息主管技师

完整排行榜见病案信息主管技师,☛查看病案信息主管技师badcase

(19)核医学主管技师

完整排行榜见核医学主管技师,☛查看核医学主管技师badcase

(20)心电学主管技师

完整排行榜见心电学主管技师,☛查看心电学主管技师badcase

(21)消毒技术主管技师

完整排行榜见消毒技术主管技师,☛查看消毒技术主管技师badcase

(22)康复医学与治疗主管技师

完整排行榜见康复医学与治疗主管技师,☛查看康复医学与治疗主管技师badcase


2.9 专业知识考试/基础医学

专业知识考试/基础医学,均为选择题,包含病理生理学、医学心理学等17个方向,参考CMB
☛☛完整排行榜见基础医学

(1)病理生理学

完整排行榜见病理生理学,☛查看病理生理学badcase

(2)医学心理学

完整排行榜见医学心理学,☛查看医学心理学badcase

(3)生物化学与分子生物学

完整排行榜见生物化学与分子生物学,☛查看生物化学与分子生物学badcase

(4)细胞生物学

完整排行榜见细胞生物学,☛查看细胞生物学badcase

(5)医学免疫学

完整排行榜见医学免疫学,☛查看医学免疫学badcase

(6)病理学

完整排行榜见病理学,☛查看病理学badcase

(7)医学遗传学

完整排行榜见医学遗传学,☛查看医学遗传学badcase

(8)寄生虫学

完整排行榜见寄生虫学,☛查看寄生虫学badcase

(9)系统解剖学

完整排行榜见系统解剖学,☛查看系统解剖学badcase

(10)生物信息学

完整排行榜见生物信息学,☛查看生物信息学badcase

(11)生理学

完整排行榜见生理学,☛查看生理学badcase

(12)药理学

完整排行榜见药理学,☛查看药理学badcase

(13)医学微生物学

完整排行榜见医学微生物学,☛查看医学微生物学badcase

(14)局部解剖学

完整排行榜见局部解剖学,☛查看局部解剖学badcase

(15)组织学与胚胎学

完整排行榜见组织学与胚胎学,☛查看组织学与胚胎学badcase

(16)人体寄生虫学

完整排行榜见人体寄生虫学,☛查看人体寄生虫学badcase

(17)CMB-专业知识考试-基础医学-医学统计学

完整排行榜见医学统计学,☛查看医学统计学badcase


2.10 专业知识考试/临床医学

专业知识考试/临床医学,均为选择题,包含医学影像学、放射学等22个方向,参考CMB
☛☛完整排行榜见临床医学

(1)医学影像学

完整排行榜见医学影像学,☛查看医学影像学badcase

(2)放射学

完整排行榜见放射学,☛查看放射学badcase

(3)实验诊断学

完整排行榜见实验诊断学,☛查看实验诊断学badcase

(4)神经病学

完整排行榜见神经病学,☛查看神经病学badcase

(5)外科学

完整排行榜见外科学,☛查看外科学badcase

(6)皮肤性病学

完整排行榜见皮肤性病学,☛查看皮肤性病学badcase

(7)儿科学

完整排行榜见儿科学,☛查看儿科学badcase

(8)核医学

完整排行榜见核医学,☛查看核医学badcase

(9)物理诊断学

完整排行榜见物理诊断学,☛查看物理诊断学badcase

(10)牙体牙髓病学

完整排行榜见牙体牙髓病学,☛查看牙体牙髓病学badcase

(11)护理学基础

完整排行榜见护理学基础,☛查看护理学基础badcase

(12)诊断学

完整排行榜见诊断学,☛查看诊断学badcase

(13)超声医学

完整排行榜见超声医学,☛查看超声医学badcase

(14)口腔护理学

完整排行榜见口腔护理学,☛查看口腔护理学badcase

(15)循证医学

完整排行榜见循证医学,☛查看循证医学badcase

(16)基础护理学

完整排行榜见基础护理学,☛查看基础护理学badcase

(17)流行病学

完整排行榜见流行病学,☛查看流行病学badcase

(18)口腔组织病理学

完整排行榜见口腔组织病理学,☛查看口腔组织病理学badcase

(19)传染病学

完整排行榜见传染病学,☛查看传染病学badcase

(20)口腔解剖生理学

完整排行榜见口腔解剖生理学,☛查看口腔解剖生理学badcase

(21)麻醉学

完整排行榜见麻醉学,☛查看麻醉学badcase

(22)介入放射学

完整排行榜见介入放射学,☛查看介入放射学badcase


2.11 专业知识考试/预防医学与公共卫生学

专业知识考试/预防医学与公共卫生学,均为选择题,包含预防医学、卫生学、医学伦理学等3个方向,参考CMB
☛☛完整排行榜见预防医学与公共卫生学

(1)预防医学

完整排行榜见预防医学,☛查看预防医学badcase

(2)卫生学

完整排行榜见卫生学,☛查看卫生学badcase

(3)医学伦理学

完整排行榜见医学伦理学,☛查看医学伦理学badcase


2.12 专业知识考试/中医学与中药学

专业知识考试/中医学与中药学,均为选择题,包含中医眼科学、金匮要略讲义、中医基础理论等11个方向,参考CMB
☛☛完整排行榜见中医学与中药学

(1)中医眼科学

完整排行榜见中医眼科学,☛查看中医眼科学badcase

(2)金匮要略讲义

完整排行榜见金匮要略讲义,☛查看金匮要略讲义badcase

(3)中医基础理论

完整排行榜见中医基础理论,☛查看中医基础理论badcase

(4)中医诊断学

完整排行榜见中医诊断学,☛查看中医诊断学badcase

(5)中医学

完整排行榜见中医学,☛查看中医学badcase

(6)温病学

完整排行榜见温病学,☛查看温病学badcase

(7)中国医学史

完整排行榜见中国医学史,☛查看中国医学史badcase

(8)中医内科学

完整排行榜见中医内科学,☛查看中医内科学badcase

(9)中医儿科学

完整排行榜见中医儿科学,☛查看中医儿科学badcase

(10)伤寒论

完整排行榜见伤寒论,☛查看伤寒论badcase

(11)内经讲义

完整排行榜见内经讲义,☛查看内经讲义badcase


2.13 医学考研TODO




3、教育排行榜

☛☛完整排行榜见教育

3.1 高考

历年高考题,共1500多道,绝大部分为选择题,少部分为填空题。
☛☛完整排行榜见高考

(1)高考生物

评测样本举例:

已知(1)酶、(2)抗体、(3)激素、(4)糖原、(5)脂肪、(6)核酸都是人体内有重要作用的物质。下列说法正确的 是
(A)(1)(2)(3)都是由氨基酸通过肽键连接而成的
(B)(3)(4)(5)都是生物大分子, 都以碳链为骨架
(C)(1)(2)(6)都是由含氮的单体连接成的多聚体
(D)(4)(5)(6)都是人体细胞内的主要能源物质

完整排行榜见高考生物,☛查看高考生物badcase

(2)高考化学

评测样本举例:

以下是中华民族为人类文明进步做出巨大贡献的几个事例, 运用化学知识对其 进行的分析不合理的是 ( )
(A)四千余年前用谷物酿造出酒和酯, 酿造过程中只发生水解反应
(B)商代后期铸造出工艺精湛的后(司)母戊鼎, 该鼎属于铜合金制品
(C)汉代烧制出“明如镜、声如磬”的瓷器,其主要原料为黏土
(D)屠呦呦用乙醚从青蒿中提取出对治疗疘疾有特效的青高素, 该过程包括萃取操作

完整排行榜见高考化学,☛查看高考化学badcase

(3)高考语文

评测样本举例:

下列各句中,没有语病的一句是
(A)根据本报和部分出版机构联合开展的调查显示,儿童的阅读启蒙集中在1~2岁之间,并且阅读时长是随着年龄的增长而增加的。
(B)为了培养学生关心他人的美德,我们学校决定组织开展义工服务活动,三个月内要求每名学生完成20个小时的义工服务。
(C)在互联网时代,各领域发展都需要速度更快、成本更低的信息网络,网络提速降费能够推动“互联网+”快速发展和企业广泛收益。
(D)面对经济全球化带来的机遇和挑战,正确的选择是,充分利用一切机遇,合作一切挑战,引导好经济全球化走向。

完整排行榜见高考语文,☛查看高考语文badcase

(4)高考地理

评测样本举例:

农业生产中地膜覆盖对土壤理化性状的主要作用是()
①保持土壤温度 ②减少水肥流失 ③增加土壤厚度 ④改善土壤质地
(A)①② (B)①④ (C)②③ (D)③④

完整排行榜见高考地理,☛查看高考地理badcase

(5)高考历史

评测样本举例:

“一万年农业,五千年文明,两千年大一统”指的是
(A)中华文明 (B)埃及文明 (C)印度文明 (D)希腊文明

完整排行榜见高考历史,☛查看高考历史badcase

(6)高考数学

评测样本举例:

已知 a ∈ R, (1+a*i)i=3+i, (i为虚数单位), 则 a=()
(A)-1 (B)1 (C)-3 (D)3

完整排行榜见高考数学,☛查看高考数学badcase

(7)高考物理

评测样本举例:

20 世纪 60 年代, 我国以国防为主的尖端科技取得了突破性的发展。1964 年, 我国第一颗原子弹试爆成 功; 1967 年, 我国第一颗氢弹试爆成功。关于原子弹和氢弹, 下列说法正确的是( )
(A)原子弹和氢弹都是根据核裂变原理研制的
(B)原子弹和氢弹都是根据核聚变原理研制的
(C)原子弹是根据核裂变原理研制的,氢弹是根据核聚变原理研制的
(D)原子弹是根据核聚变原理研制的,氢弹是根据核裂变原理研制的

完整排行榜见高考物理,☛查看高考物理badcase

(8)高考政治

评测样本举例:

2020年,电影《夺冠》以1981年到2019年期间中国女排十夺世界冠军为主线,通过艺术形式展现了中国女排祖国至上、团结协作、顽强拼搏、永不言败的精神面貌,给观众带来心灵的震撼和鼓舞,受到普遍好评.从中可获得的启示是( )
①人民群众满意与否是衡量文艺作品价值的根本尺度
②优秀的文艺作品都是对现实生活的真实再现
③塑造典型艺术形象是艺术创作的根本价值追求
④反映时代精神的文艺作品能够增强人的精神力量
(A)③④ (B)①② (C)②③ (D)①④

完整排行榜见高考政治,☛查看高考政治badcase

3.2 高中学科

☛☛完整排行榜见高中学科

(1)高中生物

评测样本举例:

回答以下选择题:人体内含有多种多样的蛋白质,每种蛋白质( )
(A) 都具有一定的空间结构
(B) 都含有21种氨基酸
(C) 都是在细胞内发挥作用
(D) 都能调节生物体的生命活动

完整排行榜见高中生物,☛查看高中生物badcase

(2)高中化学

评测样本举例:

回答以下选择题:实验室需配制一种强酸溶液500mL,c($H^+$)=2mol/L,下列配制方法可行的是
(A) 取100mL5mol/L$HNO_3$,加水稀释至500mL
(B) 取100mL5mol/L$H_2SO_4$,加入400mL水
(C) 取100mL5mol/L$H_2SO_4$,加水稀释至500mL
(D) 取100mL5mol/LHCl,加水稀释至500mL

完整排行榜见高中化学,☛查看高中化学badcase

(3)高中语文

评测样本举例:

回答以下选择题:下列句子中,词语使用不恰当的一项是( )
(A) 说“木叶”不说“树叶”,决非古人标新立异,“木叶”作为意象而言,蕴含着更多的意味,包含着更多的情感,更能体现其艺术特征。
(B) 我们时常说到乡愁,什么是乡愁?乡愁是我们的百姓对生养自己的故土故乡刻骨铭心的情感与爱恋,是家园真正的精神价值。
(C) 企业的发展需要通才,所谓通才不是指万金油或叫作万应锭式的人,而是指能在技术研发、成本核算、外交沟通等方面都能挑大梁的人才。
(D) 无数案例告诉我们,防止电话诈骗,最有效的方法是对陌生电话的求救、告急多问几个为什么,这样就可避免落于言筌。

完整排行榜见高中语文,☛查看高中语文badcase

(4)高中英语

评测样本举例:

回答以下选择题:For long I’ve been trying to ________ what it is that makes Jack so annoyed.
(A) stand out
(B) carry out
(C) watch out
(D) figure out

完整排行榜见高中英语,☛查看高中英语badcase

(5)高中地理

评测样本举例:

回答以下选择题:北京时间2017年10月9日12时13分,长征二号丁运载火箭托举着委内瑞拉遥感卫星二号,在酒泉卫星发射中心顺利升空。卫星顺利进入预定轨道,发射任务取得圆满成功。该卫星发射时,我国下列现象可能出现的是( )
(A) 地球公转速度正在加快
(B) 北京昼长夜短
(C) 上海正午太阳高度达最小值
(D) 酒泉该日太阳从东北方升起

完整排行榜见高中地理,☛查看高中地理badcase

(6)高中历史

评测样本举例:

回答以下选择题:1992年,邓小平到南方视察,围绕“什么是社会主义、怎样建设社会主义”做了重要讲话,下列与此相关的内容是( )
(A) 社会主义的本质是解放生产力、发展生产力
(B) 解放思想,实事求是,团结一致向前看
(C) 以经济建设为中心
(D) 非公有制经济是社会主义市场经济的重要组成部分

完整排行榜见高中历史,☛查看高中历史badcase

(7)高中数学

评测样本举例:

回答以下选择题:下列命题中,是正确的全称命题的是( ) (A) 对数函数在定义域上是单调函数.
(B) 对任意的a,b, 都有a^2+b^2-2a-2b+2<0 ;
(C) 菱形的两条对角线相等;
(D) exists x,sqrt(x^2)=x;

完整排行榜见高中数学,☛查看高中数学badcase

(8)高中物理

评测样本举例:

回答以下选择题:原计划的“铱”卫星通信系统是在距地球表面780 km的太空轨道上建立一个由77颗小卫星组成的星座。这些小卫星均匀分布在覆盖全球的7条轨道上,每条轨道上有11颗卫星,由于这一方案的卫星排布像化学元素“铱”原子的核外77个电子围绕原子核运动一样,所以称为“铱”星系统。后来改为由66颗卫星,分布在6条轨道上,每条轨道上由11颗卫星组成,仍称它为“铱”星系统。“铱”星系统的66颗卫星,其运行轨道的共同特点是(  )
(A) “铱”星运行轨道高于同步卫星轨道
(B) 以地轴为中心的圆形轨道
(C) 以地心为中心的圆形轨道
(D) 轨道平面必须处于赤道平面内

完整排行榜见高中物理,☛查看高中物理badcase

(9)高中政治

评测样本举例:

回答以下选择题:国家鼓励民营企业依法进入更多领域,引入非国有资本参与国有企业改革,更好地激发非公有制经济的活力和创造力。这是因为( )
(A) 非公有制经济具有规模小、投资少、经营灵活的特点
(B) 国有经济在我国重要行业和关键领域占支配地位
(C) 非公有制经济是我国经济社会发展的重要基础
(D) 国家引导非公有制经济健康发展

完整排行榜见高中政治,☛查看高中政治badcase

3.3 初中学科

☛☛完整排行榜见初中学科

(1)初中生物

评测样本举例:

回答以下选择题:日常生活中,下列不利于保护人体呼吸系统的做法是( )
(A) 长时间大声说话能锻炼声带
(B) 长跑时尽量不用嘴吸气
(C) 哮喘患者应避免接触花粉等刺激物
(D) 吃饭时不要边吃边说笑

完整排行榜见初中生物,☛查看初中生物badcase

(2)初中化学

评测样本举例:

回答以下选择题:下列物质由离子构成的是
(A) 二氧化碳
(B) 水银
(C) 氯化钠
(D) 水蒸气

完整排行榜见初中化学,☛查看初中化学badcase

(3)初中语文

评测样本举例:

回答以下选择题:阅读下面两首诗。 使至塞上 王维 单车欲问边,属国过居延。 征蓬出汉塞,归雁入胡天。 大漠孤烟直,长河落日圆。 萧关逢候骑,都护在燕然。 汉江①临泛 王维 楚塞②三湘接,荆门九派③通。 江流天地外,山色有无中。 郡邑浮前浦,波澜动远空。 襄阳好风日,留醉与山翁。 【注释】①汉江:即汉水。②楚塞:指古代楚国地界。③九派:长江干流及其支流的统称。 对两首诗理解和分析不恰当的一项是(  )
(A) 王维的诗以“诗中有画”著称,这两首诗在意境创造上也很好地体现了这一特点。
(B) 《使至塞上》首联写了诗人奉使出征,独当重任,到边疆察看,过居延属国的内容。
(C) 《汉江临泛》尾联通过具体细腻的景物描写,表达了诗人对襄阳风物的热爱,也洋溢着积极乐观的情绪。
(D) 《使至塞上》用一“直”一“圆”展现了边塞的壮阔;《汉江临泛》用一“浮”一“动”渲染了水势的磅礴。

完整排行榜见初中语文,☛查看初中语文badcase

(4)初中英语

评测样本举例:

回答以下选择题:The boy’s hair is ________ the girl’s hair.
(A) than
(B) shorter than
(C) short than
(D) shorter

完整排行榜见初中英语,☛查看初中英语badcase

(5)初中地理

评测样本举例:

回答以下选择题:印度的“绿色革命”运动,实现了( )
(A) 促进了旅游业的发展
(B) 工业产品大量出口
(C) 提高了粮食产量,实现了粮食自给
(D) 促进了电脑软件的研发

完整排行榜见初中地理,☛查看初中地理badcase

(6)初中历史

评测样本举例:

回答以下选择题:北宋为了摆脱政治危机,实现富国强兵于1069年实行( )
(A) 行省制
(B) 商鞅变法
(C) 王安石变法
(D) 重文轻武的政策

完整排行榜见初中历史,☛查看初中历史badcase

(7)初中数学

评测样本举例:

回答以下选择题:下列说法正确的是( )
(A) 如果两个数互为倒数,那么它们的积一定是1
(B) 两个正数互为倒数,其中一个数必大于1
(C) 一个假分数的倒数一定小于本身
(D) 如果一个数的倒数是它本身,那么这个数一定是1

完整排行榜见初中数学,☛查看初中数学badcase

(8)初中物理

评测样本举例:

回答以下选择题:质量相等的A、B两实心物块,密度之比ρA∶ρB=3∶2,分别放入足够多的水中,两物块静止时均漂浮且所受浮力分别为FA和FB,则浮力FA与FB之比是(  )
(A) 无法确定
(B) 1∶1
(C) 2∶3
(D) 3∶2

完整排行榜见初中物理,☛查看初中物理badcase

(9)初中政治

评测样本举例:

回答以下选择题:做自信的中国人要( )
(A) 唯我独尊
(B) 妄自尊大
(C) 故步自封
(D) 不卑不亢

完整排行榜见初中政治,☛查看初中政治badcase

3.4 小学学科

☛☛完整排行榜见小学学科

(1)小学语文

评测样本举例:

回答以下选择题:下列说法最得体的是( )
(A) “嗨,老头,快告诉我电影院怎么走!”
(B) “把你的电话号码(mǎ)说一遍。”
(C) “叔叔,把报纸给我。”
(D) “奶奶您好,我坐您旁边,可以吗?”

完整排行榜见小学语文,☛查看小学语文badcase

(2)小学英语

评测样本举例:

回答以下选择题:—Can I have some water, please? ( )—______
(A) Yes, I can.
(B) Look at the watermelon.
(C) Sure, here you are.
(D) I’m OK.

完整排行榜见小学英语,☛查看小学英语badcase

(3)小学数学

评测样本举例:

回答以下选择题:某市出租车收费标准如下:3千米及3千米以内5元,超过3千米的部分按每千米1.4元收费(不足1千米时按1千米计算),妈妈打车去离家7.5千米的超市,她应付车费()元。
(A) 14
(B) 11.3
(C) 12
(D) 13

完整排行榜见小学数学,☛查看小学数学badcase

(4)小学道德与法治

评测样本举例:

回答以下选择题:谁的想法是正确的( )
(A) 小刚只想和性格一样,习惯一样,兴趣爱好相同的人交朋友
(B) 晓红是急性子,丽丽是慢性子,但是晓红认为她俩也会相处的很好
(C) 小明会上网,李刚不懂电脑,所以小明觉得他俩没有共同语言
(D) 王梅认为不能和“不同”的同学打交道

完整排行榜见小学道德与法治,☛查看小学道德与法治badcase

(5)小学科学

评测样本举例:

回答以下选择题:使用过的口罩在垃圾分类中属于( )。
(A) 可回收垃圾
(B) 其他垃圾
(C) 有害垃圾
(D) 厨余垃圾

完整排行榜见小学科学,☛查看小学科学badcase


4、法律排行榜

☛☛完整排行榜见法律

4.1 律师资格考试

(1)JEC-QA-KD

选择题,共1000道,参考AGIEval
完整排行榜见JEC-QA-KD,☛查看JEC-QA-KD badcase

(2)JEC-QA-KD

选择题,共1000道,参考AGIEval
完整排行榜见JEC-QA-CA,☛查看JEC-QA-CA badcase

(3)MMCU法律

完整排行榜见MMCU法律,☛查看MMCU法律badcase


5、行政公务排行榜

☛☛完整排行榜见行政公务

5.1 公务员考试

公务员考试行测选择题,共651道,参考AGIEval。 评测样本举例:

某乡镇进行新区规划,决定以市民公园为中心,在东南西北分别建设一个特色社区。这四个社区分别定为,文化区、休闲区、商业区和行政服务区。已知行政服务区在文化区的西南方向,文化区在休闲区的东南方向。
根据以上陈述,可以得出以下哪项?
(A)市民公园在行政服务区的北面
(B)休闲区在文化区的西南
(C)文化区在商业区的东北
(D)商业区在休闲区的东南

完整排行榜见公务员考试
☛查看公务员考试badcase


6、心理健康排行榜

目前包含4个子项:MMCU心理,心理治疗学主治医师,心理咨询师,医学心理学。
☛☛完整排行榜见心理健康

(1)MMCU心理

完整排行榜见MMCU心理,☛查看MMCU心理badcase

(2)心理治疗学主治医师

完整排行榜见心理治疗学主治医师,☛查看心理治疗学主治医师badcase

(3)心理咨询师

完整排行榜见心理咨询师,☛查看心理咨询师badcase

(4)医学心理学

完整排行榜见医学心理学,☛查看医学心理学badcase


7、推理与数学计算排行榜

☛☛完整排行榜见推理与数学计算

7.1 演绎推理

演绎推理(modus_tollens)选择题,共123道,参考ISP

评测样本举例:

考虑以下语句:
1.如果约翰是个好父母,那么约翰就是严格但公平的。
2.约翰不严格但公平。
结论:因此,约翰不是一个好父母。
问题:根据陈述1.和2.,结论是否正确?
回答:
(A) 否
(B) 是

完整排行榜见演绎推理
☛查看演绎推理badcase


7.2 常识推理

常识推理选择题,共99道,参考ISP

评测样本举例:

以下是关于常识的选择题。
问题:当某人把土豆放到篝火边的余烬中,此时余烬并没有在
A、释放热量
B、吸收热量

完整排行榜见常识推理
☛查看常识推理badcase


7.3 符号推理BBH

学术界最常用的符号推理评测集,包含23个子任务,详细介绍见BBH。 评测样本举例:

Task description: Answer questions about which times certain events could have occurred.
Q: Today, Emily went to the museum. Between what times could they have gone?
We know that:
Emily woke up at 1pm.
Elizabeth saw Emily reading at the library from 2pm to 4pm.
Jessica saw Emily watching a movie at the theater from 4pm to 5pm.
Leslie saw Emily waiting at the airport from 5pm to 6pm.
William saw Emily buying clothes at the mall from 6pm to 7pm.
The museum was closed after 7pm.
Between what times could Emily have gone to the museum?
Options:
(A) 1pm to 2pm
(B) 6pm to 7pm
(C) 5pm to 6pm
(D) 2pm to 4pm
A:

完整排行榜见BBH
☛查看BBH符号推理badcase


7.4 算术能力

考查大模型的数学基础能力之算数能力,测试题目为1000以内的整数加减法、不超过2位有效数字的浮点数加减乘除。 举例:166 + 215 + 53 = ?,0.97 + 0.4 / 4.51 = ?

完整排行榜见arithmetic
☛查看算术能力badcase


7.5 七八九年级数学

七/八/九年级的平均分计入总分。
评分标准:七、八、九年级分别有40道题、21道题、36道题,所有题目都只判断对错(没有中间分数)。对于任何题目,只有模型response完全正确才给分,部分正确或错误都不得分。
评测样本举例:

因式分解:3x^2y-12xy+12y

完整排行榜见初中数学
☛查看七年级数学badcase ☛查看八年级数学badcase ☛查看九年级数学badcase


7.6 表格问答

专门考查大模型对表格的理解分析能力,常用于数据分析。
评测样本举例:

姓名,年龄,性别,国籍,身高(cm),体重(kg),学历
张三,28,男,中国,180,70,本科
Lisa,33,女,美国,165,58,硕士
Paulo,41,男,巴西,175,80,博士
Miyuki,25,女,日本,160,50,大专
Ahmed,30,男,埃及,175,68,本科
Maria,29,女,墨西哥,170,65,硕士
Antonio,36,男,西班牙,182,75,博士
基于这个表格回答:学历最低的是哪国人?

完整排行榜见tableqa
☛查看数据分析badcase


8、语言与指令遵从排行榜

☛☛完整排行榜见语言与指令遵从

8.1 成语理解

给定上下文,选择最匹配的成语。

评测样本举例:

说完作品的优点,咱们再来聊聊为何说它最后的结局____,片子本身提出的话题观点很尖锐,“扶弟魔”也成为众多当代年轻人婚姻里的不定因素,所以对于这种过于敏感的东西,片子的结局仅仅只是以弟弟的可爱化解了姐姐的心结,最后选择陪伴照顾...
给上文空格处选择最合适的成语或俗语:
(A) 有条有理
(B) 偏听偏信
(C) 狗尾续貂
(D) 半壁江山
(E) 身家性命
(F) 胆小如鼠
(G) 独善其身

完整排行榜见成语理解
☛查看成语理解badcase


8.2 情感分析

分析用户评论的情感属性,消极或积极。

评测样本举例:

用了几天,发现很多问题,无线网容易掉线,屏幕容易刮花,打开网页容易死掉,不值的买
以上用户评论是正面还是负面?
(A) 负面
(B) 正面

完整排行榜见情感分析
☛查看情感分析badcase


8.3 文本蕴含

文本蕴含,判断两个句子之间的语义关系:蕴含、中立、矛盾,参考OCNLI

评测样本举例:

句子一:农机具购置补贴覆盖到全国所有农牧业县(场),中央财政拟安排资金130亿元,比上年增加90亿元
句子二:按农民人数发放补贴
以上两个句子是什么关系?
(A)蕴含
(B)中立
(C)矛盾

完整排行榜见文本蕴含
☛查看文本蕴含badcase


8.4 分类能力

评测样本举例:

将下列单词按词性分类。
狗,追,跑,大人,高兴,树

完整排行榜见classification
☛查看分类能力badcase


8.5 信息抽取

评测样本举例:

“中信银行3亿元,交通银行增长约2.7亿元,光大银行约1亿元。”
提取出以上文本中的所有组织机构名称

完整排行榜见extract
☛查看信息抽取能力badcase


8.6 阅读理解

阅读理解能力是一种符合能力,考查针对给定信息的理解能力。 依据给定信息的种类,可以细分为:文章问答、表格问答、对话问答……
评测样本举例:

牙医:好的,让我们看看你的牙齿。从你的描述和我们的检查结果来看,你可能有一些牙齦疾病,导致牙齿的神经受到刺激,引起了敏感。此外,这些黑色斑点可能是蛀牙。
病人:哦,真的吗?那我该怎么办?
牙医:别担心,我们可以为你制定一个治疗计划。我们需要首先治疗牙龈疾病,然后清除蛀牙并填充牙洞。在此过程中,我们将确保您感到舒适,并使用先进的技术和材料来实现最佳效果。
病人:好的,谢谢您,医生。那么我什么时候可以开始治疗?
牙医:让我们为您安排一个约会。您的治疗将在两天后开始。在此期间,请继续刷牙,使用牙线,并避免吃过于甜腻和酸性的食物和饮料。
病人:好的,我会的。再次感谢您,医生。
牙医:不用谢,我们会尽最大的努力帮助您恢复健康的牙齿。
基于以上对话回答:病人在检查中发现的牙齿问题有哪些?

完整排行榜见mrc
☛查看阅读理解能力badcase


8.7 C3中文阅读理解

经典中文阅读理解选择题,共763道,参考C3。 评测样本举例:

我公司现招聘一名经济法方面的律师,要求:年龄在35岁以下,至少会一门外语,有三年以上工作经验。欢迎符合条件者前来应聘。
根据上文回答以下选择题:应聘这个工作的人必须:
(A) 超过35岁
(B) 有管理经验
(C) 会说普通话
(D) 工作三年以上

完整排行榜见C3
☛查看C3中文阅读理解badcase


8.8 代词理解CLUEWSC

中文指代消解任务,参考CLUEWSC2020。 评测样本举例:

少平仍然不知道怎样给奶奶说清他姐夫的事,就只好随口说:“他犯了点错误,人家让他劳教!”
上述文本中的“他犯了点错误”中的“他”是指少平吗?
选项:(A)是
(B)否

完整排行榜见CLUEWSC
☛查看代词理解CLUEWSC badcase


8.9 诗词匹配CCPM

中国古典诗歌匹配,给定中国古典诗歌的现代问描述,要求从候选的四句诗中选出与现代文描述语义匹配的那一句。 利用古典诗歌和现代文翻译的平行语料构建正确选项,并利用正确选项从古代诗歌语料库中利用相似检索构造出错误候选。 参考CCPM。 评测样本举例:

昏暗的灯熄灭了又被重新点亮。
上述文本最匹配下面哪句诗:
(A)渔灯灭复明
(B)残灯灭又然
(C)残灯暗复明
(D)残灯灭又明

完整排行榜见CCPM
☛查看诗词匹配CCPM badcase


8.10 中文指令遵从

参考谷歌IFEval,并将其翻译和适配到中文,精选9类25种指令,说明如下: lin

完整排行榜见IFEval
☛查看中文指令遵从badcase


🌐各项能力评分

评分方法:从各个维度给大模型打分,每个维度都对应一个评测数据集,包含若干道题。 每道题依据大模型回复质量给1~5分,将评测集内所有题的得分累加并归一化为100分制,即作为最终得分。

所有评分数据详见alldata

⚖️原始评测数据

包含各维度评测集以及大模型输出结果,详见本项目的eval文件目录

为什么做榜单?

  • 大模型百花齐放,也参差不齐。不少媒体的宣传往往夸大其词,避重就轻,容易混淆视听;而某些公司为了PR,也过分标榜自己大模型的能力,动不动就“达到chatgpt水平”,动不动就“国内第一”。 所谓“外行看热闹,内行看门道”,业界急需一股气流,摒弃浮躁,静下心来打磨前沿技术,真真正正用技术实力说话。这就少不了一个公开、公正、公平的大模型评测系统,把各类大模型的优点、不足一一展示出来。 如此,大家既能把握当下的发展水平、与国外顶尖技术的差距,也能更加清晰地看明白未来的努力方向,而不被资本热潮、舆论热潮所裹挟。
  • 对于产业界来说,特别是对于不具备大模型研发能力的公司,熟悉大模型的技术边界、高效有针对性地做大模型技术选型,在现如今显得尤为重要。 而一个公开、公正、公平的大模型评测系统,恰好能够提供应有的助力,避免重复造轮子,避免因技术栈不同而导致不必要的争论,避免“鸡同鸭讲”。
  • 对于大模型研发人员,包括对大模型技术感兴趣的人、学术界看中实践的人,各类大模型的效果对比,反应出了背后不同技术路线、技术方法的有效性,这就提供了非常好的参考意义。 不同大模型的相互参考、借鉴,帮忙大家躲过不必要的坑、避免重复实验带来的资源浪费,有助于整个大模型生态圈的良性高效发展。

大模型选型及评测交流群

先加小编微信,后拉入群,备注“加群”
lin



关注大模型评测微信公众号,及时获取最新评测信息
lin

For Tasks:

Click tags to check more tools for each tasks

For Jobs:

Alternative AI tools for chinese-llm-benchmark

Similar Open Source Tools

For similar tasks

For similar jobs