We work with frontier labs, universities, and research teams. If you're working on hard problems in data quality, agent evaluation, or failure diagnosis, let's talk.

Get in touch

Research that turnsinto infrastructure.

Focus areas

Publications & Blog

Building a Foundational Guardrail for General Agentic Systems via Synthetic Data

CoDA: Agentic Systems for Collaborative Data Visualization

TOUCAN: Synthesizing 1.5M Tool-Agentic Data from Real-World MCP Environments

ChemOrch: Empowering LLMs with Chemical Intelligence via Synthetic Instructions

ImplicitPersona: Persona Data Generation for SFT & RL

VisualSphinx: Large-Scale Synthetic Vision Logic Puzzles for RL

KodCode: A Diverse, Challenging, and Verifiable Synthetic Dataset for Coding

Stronger Models are NOT Stronger Teachers for Instruction Tuning

Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing

Collaborate with us

Research that turns
into infrastructure.