Generate, evaluate, iterate: synthetic data to supercharge AI judges

Share
Generate, evaluate, iterate: synthetic data to supercharge AI judges

Teach your AI judge—faster—with synthetic test cases

Evaluating AI with "LLM-as-a-judge" works—until you run out of good examples. This study introduces a tool that generates rich, customizable synthetic test cases to refine your evaluation criteria, all within a human-in-the-loop workflow.

  • Configure domains, personas, lengths, desired outcomes—even borderline cases.
  • AI-assisted inline editing to tweak existing tests.
  • Full transparency: see the prompts and explanations used to generate each case.

In a user study (N=24), 83% preferred this tool over manual test creation, citing speed and diversity without extra workload. Crucially, synthetic data was as effective as hand-crafted data for improving evaluation rubrics and aligning with human preferences.

Generate. Evaluate. Iterate. Scale your AI evaluations without sacrificing quality.

Paper: http://arxiv.org/abs/2511.04478v1

Paper: http://arxiv.org/abs/2511.04478v1

Register: https://www.AiFeta.com

AI LLM SyntheticData Evaluation HumanInTheLoop HCI ML Research AIEvaluation

Read more

Aikaleimat voivat kertoa hoitojaksoista – jos kone ymmärtää säännöt

Aikaleimat voivat kertoa hoitojaksoista – jos kone ymmärtää säännöt

Lääkärin työpöydällä vilisee merkintöjä: diagnoosikoodeja, laboratoriotuloksia, lääkityksen aloituksia ja lopetuksia. Kaikella on päivämäärä ja kellonaika. Silti se, mitä lääkäri oikeasti tarvitsee, on tarina: milloin sairausjakso alkoi, mitä hoitoa annettiin ja milloin se päättyi. Tietokone osaa hakea yksittäisiä rivejä nopeasti. Mutta osaako se nähdä kokonaisuuden? Tähän asti moni järjestelmä on tyytynyt

By Kari Jaaskelainen
Yhteinen sävel voi olla alue, ei lause

Yhteinen sävel voi olla alue, ei lause

Useimmat verkkoalustat kysyvät meiltä samaa kysymystä yhä uudelleen: oletko samaa vai eri mieltä? Peukku ylös, peukku alas. Silti arjessa harva mielipide tiivistyy yhteen lauseeseen. Ihmiset myös välittävät joistakin aiheista paljon, toisista vähemmän. Jos etsimme yhteistä maaperää, pitäisikö meidän etsiä sitä yksittäisten väittämien sijasta jostakin niiden väliltä? Tähän asti verkon keskustelualustoilla

By Kari Jaaskelainen