kcores-llm-arena

kcores-llm-arena

LLM Arena by KCORES team

Stars: 344

Visit
 screenshot

KCORES LLM Arena is a large model evaluation tool that focuses on real-world scenarios, using human scoring and benchmark testing to assess performance. It aims to provide an unbiased evaluation of large models in real-world applications. The tool includes programming ability tests and specific benchmarks like Mandelbrot Set, Mars Mission, Solar System, and Ball Bouncing Inside Spinning Heptagon. It supports various programming languages and emphasizes performance optimization, rendering, animations, physics simulations, and creative implementations.

README:

KCORES LLM Arena - KCORES 大模型竞技场

KCORES LLM Arena

Desc

现有的大模型评测大多数都是做选择题, 导致十分容易针对测试进行优化, 进而结果失真.

所以本测试专注于现实世界场景, 并采用人工评分和基准测试的方式进行评测, 力争还原大模型在现实世界中的表现.

编程能力测试

  • version: 2025-03-02
  • Winner: 👑Claude-3.7-Sonnet-Thinking

结论

目前最好的编程大模型是什么?直接说结论,👑Claude-3.7-Sonnet-Thinking 当之无愧, 甚至 Claude 系列都是非常好的选择。

那么除了Claude全家桶,最好的选择是什么?答案是 DeepSeek-R1

OpenAI 系列呢?答案是 OpenAI-o1

Gemini 系列则是 Gemini-2.0-Pro

Grok 嘛...开心那就好

Coding Benchmark

测试子项

Mandelbrot Set Meet LiBai Benchmark

该项目主要测试

  • 性能优化
    • 双缓冲或三缓冲
    • 离屏渲染
    • WebWorker 多线程
  • 需求还原
    • 给定了20种颜色进行渲染
    • 动画效果
    • CSS样式
  • 字符串处理
    • 过滤
    • 去重
    • 保证字符串顺序
  • 计算
    • FPS与平均FPS计算
  • 数学
    • Mandelbrot Set
    • 理解 Mandelbrot Set 各个气泡
    • 使画面中心保持在气泡交界处
  • 编程语言
    • JavaScript
    • HTML, CSS
  • Prompt 语言
    • 英语

Mandelbrot Set Meet LiBai

Mars Mission Benchmark

该项目主要测试

  • 需求还原
    • 展示各个行星
    • 动画效果展示公转
    • 展示轨迹
  • 需求补全
    • 补全演示中缺失的坐标系与图例
    • 渲染太阳
  • 计算
    • 圆周轨道与运行周期
    • 飞船的飞行轨迹
    • 飞船准确降落行星
  • 物理
    • 天体运行轨道半径
    • 天体运行周期
    • 飞行器发射窗口与返回窗口
  • 编程语言 -Python
  • Prompt 语言
    • 中文

Mars Mission

Solar System Benchmark

该项目主要测试

  • 需求还原
    • 展示各个行星
    • 动画效果展示公转
    • 展示轨迹
    • CSS样式
    • 动画效果
    • 行星名称标签
  • 计算
    • 圆周轨道与运行周期
    • FPS与平均FPS计算
  • 物理
    • 天体运行轨道半径
    • 天体运行周期
    • 天体大小
  • 创意
    • 行星的颜色渲染
  • 编程语言
    • JavaScript
    • HTML, CSS
  • Prompt 语言
    • 中文

Solar System

Ball Bouncing Inside Spinning Heptagon

该项目主要测试

  • 需求还原

    • 展示7边形旋转
    • 展示20个小球的物理运动
    • 展示小球上面的数字
    • 小球大小一致
  • 计算

    • 相关物理效果计算
    • 7边形的旋转
    • 小球不会重叠
    • 小球不会超过7边形
  • 物理

    • 摩擦,碰撞,重力,小球弹性模拟
  • 编程语言 -Python

  • Prompt 语言

    • 英语

    Ball Bouncing Inside Spinning Heptagon

License

KCORES License Version 1.0

For Tasks:

Click tags to check more tools for each tasks

For Jobs:

Alternative AI tools for kcores-llm-arena

Similar Open Source Tools

For similar tasks

For similar jobs