Synthetic Data in AI Training

Status: public · Confidence: medium (0.84) · Basis: verified_sources

## TL;DR

Synthetic data training uses generated or simulated data to augment scarce, imbalanced, or safety-constrained datasets. This repair maps claims to SMOTE, GANs, and domain randomization.

## Core Explanation

The sampled entry had partial source coverage. This version keeps three source-backed synthetic-data techniques.

## Further Reading

- [SMOTE: Synthetic Minority Over-sampling Technique](https://doi.org/10.1613/jair.953)
- [Generative Adversarial Networks](https://arxiv.org/abs/1406.2661)
- [Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World](https://arxiv.org/abs/1703.06907)