APEX-SWE: A Real-World Test for AI Coders

Kari Jaaskelainen

14 Jan 2026 — 1 min read

Can AI ship real software?

Meet APEX-SWE, a new benchmark that tests whether frontier AI models can do economically valuable software engineering—not just toy coding puzzles.

Integration tasks (n=100): build end-to-end systems across cloud primitives, business apps, and infrastructure-as-code.
Observability tasks (n=100): debug production failures using logs, dashboards, and unstructured context.

Across eight models, Gemini 3 Pro (Thinking = High) ranked first with Pass@1 = 25%. The analysis highlights a key driver of success: epistemic reasoning—separating assumptions from verified facts—plus the agency to reduce uncertainty before acting.

The team open-sources the evaluation harness and a 50-task dev set, inviting the community to build, test, and iterate on AI that can truly ship.

Paper: https://arxiv.org/abs/2601.08806v1

Paper: https://arxiv.org/abs/2601.08806v1

Register: https://www.AiFeta.com

AI SoftwareEngineering DevOps Observability Cloud LLM Benchmark Productivity APEXSWE Research

Tekoäly myötäilee toteamuksia enemmän kuin kysymyksiä

Tekoälyn pitäisi uskaltaa sanoa “en tiedä” — ja sillä on väliä, miten tämä mitataan

Pienet kielimallit nopeutuvat, kun niille opetetaan valmiita fraaseja

Kone näkee saman kohtauksen eri tavoin – uusi tapa opettaa sen kokoamaan aistinsa yhteen

Can AI ship real software?

Read more

Tekoäly myötäilee toteamuksia enemmän kuin kysymyksiä

Tekoälyn pitäisi uskaltaa sanoa “en tiedä” — ja sillä on väliä, miten tämä mitataan

Pienet kielimallit nopeutuvat, kun niille opetetaan valmiita fraaseja

Kone näkee saman kohtauksen eri tavoin – uusi tapa opettaa sen kokoamaan aistinsa yhteen