
AI, 분석 또는 데이터 과학 분야의 누구에게 물어보든 그들은 합성 데이터가 미래라고 말할 것입니다. 하지만 그들에게 "합성 데이터"가 무슨 뜻인지 물어보면 매우 다른 답변을 들을 것입니다. 그 이유는 합성 데이터가 단 하나의 것이 아니라 여러 사용 사례와 정의가 있는 광범위한 범주이기 때문입니다. 그리고 그 모호성 때문에 대화가 혼란스러워집니다.
그럼, 소음을 걸러내 봅시다. 합성 데이터는 핵심적으로 두 가지 핵심 차원에서 작동합니다. 첫 번째는 기존 데이터 세트에서 누락된 데이터를 채우는 것부터 완전히 새로운 데이터 세트를 생성하는 것까지 다양한 스펙트럼입니다. 두 번째는 원시 데이터 수준의 개입과 통찰력 또는 결과 수준의 개입을 구분합니다.
이러한 차원을 차트의 축으로 상상해 보세요. 이렇게 하면 네 개의 사분면이 생성되는데, 각각 다른 유형의 합성 데이터를 나타냅니다. 데이터 임퓨테이션, 사용자 생성, 인사이트 모델링, 제조된 결과입니다 . 각각은 고유한 기능을 수행하며, 어떤 용량으로든 데이터를 사용하는 경우 차이점을 알아야 합니다.
어떤 사람들은 데이터 임퓨테이션이 진정한 합성 데이터가 아니라고 주장할 수 있지만, 현대의 임퓨테이션 기술은 단순한 평균 또는 중간값 대체를 넘어 발전했습니다. 오늘날 고급 임퓨테이션은 머신 러닝과 생성 AI 모델을 활용하여 생성된 값을 그 어느 때보다 더 정교하고 맥락적으로 관련성 있게 만듭니다.
데이터 임퓨테이션은 누락된 데이터 와 원시 데이터 개입 의 교차점에 있습니다. 즉, 우리는 갭이 있는 기존 데이터 세트를 사용하고 있으며, 우리의 목표는 이를 완성하기 위한 그럴듯한 값을 생성하는 것입니다. 다른 유형의 합성 데이터와 달리 임퓨테이션은 완전히 새로운 정보를 만드는 것이 아니라 불완전한 데이터를 더 유용하게 만드는 것입니다.
예: 미디어 효과 연구를 수행하는 시장 조사 회사는 설문 조사 응답이 누락되어 청중 응답 데이터에 갭이 있을 수 있습니다. 불완전한 데이터 세트를 폐기하는 대신 통계 모델링이나 머신 러닝과 같은 imputation 기술을 사용하면 현실적인 추정치를 생성하여 분석가가 데이터에서 여전히 의미 있는 통찰력을 얻을 수 있습니다.
사용자 생성은 새로운 데이터 생성 과 원시 데이터 개입 사이에 있습니다. 기존 데이터를 수정하는 대신 이 접근 방식은 완전히 새로운 사용자 프로필과 행동을 만들어냅니다. 실제 사용자 데이터를 사용할 수 없거나, 민감하거나, 인위적으로 확장해야 할 때 특히 유용합니다.
사용자 생성은 제품 테스트, 보안 강화, AI 모델 훈련에 있어서 획기적인 변화를 가져옵니다.
예: 스트리밍 서비스는 실제 고객 데이터를 노출하지 않고 추천 엔진을 테스트하기 위해 합성 사용자 프로필을 만들 수 있습니다. 사이버 보안 회사도 공격 시나리오를 시뮬레이션하고 사기 탐지 시스템을 훈련하기 위해 동일한 작업을 수행합니다.
인사이트 모델링은 기존 데이터 와 인사이트 레벨에서의 개입의 교차점에서 작동합니다. 원시 데이터 포인트를 조작하는 대신 실제 레코드를 노출하지 않고도 실제 데이터의 통계적 속성을 보존하는 데이터 세트를 만듭니다. 따라서 개인 정보 보호에 민감한 애플리케이션에 이상적입니다.
인사이트 모델링은 또한 연구자들이 기존 데이터세트에서 인사이트를 확장할 수 있게 해줍니다. 특히 대규모 데이터를 수집하는 것이 비실용적일 때 더욱 그렇습니다. 이는 마케팅 조사에서 흔히 볼 수 있는 일로, 데이터 수집이 번거롭고 비용이 많이 들 수 있습니다. 그러나 이 접근 방식에는 실제 훈련 데이터의 견고한 기반이 필요합니다.
예: 카피 테스트를 수행하는 시장 조사 회사는 규범적 데이터베이스를 확장하기 위해 인사이트 모델링을 사용할 수 있습니다. 수집된 설문 응답에만 의존하는 대신, 회사는 기존 규범적 데이터에서 패턴을 외삽하는 합성 인사이트 모델을 생성할 수 있습니다. 이를 통해 브랜드는 새로운 설문 응답을 지속적으로 수집하지 않고도 더 광범위하고 예측 가능한 데이터 세트에 대해 크리에이티브 성과를 테스트할 수 있습니다.
제조된 결과는 새로운 데이터 생성 과 통찰력 수준의 개입 의 극단적인 끝에 있습니다. 이 접근 방식은 아직 존재하지 않지만 AI 훈련, 모델링 및 시뮬레이션에 필수적인 환경이나 시나리오를 시뮬레이션하기 위해 처음부터 완전히 새로운 데이터 세트를 생성하는 것을 포함합니다.
때로는 필요한 데이터가 단순히 존재하지 않거나 실제 세계에서 수집하기에는 너무 비싸거나 위험합니다. 바로 여기서 Manufactured Outcomes가 등장합니다. 이 프로세스는 완전히 새로운 데이터 세트를 생성하여 종종 복제하기 어려운 환경에서 AI 시스템을 훈련합니다.
예: 자율주행차 회사는 보행자가 갑자기 도로를 횡단하는 것과 같은 합성 도로 시나리오를 생성하여 실제 운전 영상에서 자주 나오지 않는 드물지만 중요한 상황에 대한 AI를 훈련시킵니다.
합성 데이터는 강력한 솔루션을 제공하지만 위험이 없는 것은 아닙니다. 각 유형의 합성 데이터에는 데이터 품질, 신뢰성 및 윤리적 사용에 영향을 줄 수 있는 고유한 과제가 있습니다. 염두에 두어야 할 몇 가지 주요 우려 사항은 다음과 같습니다.
합성 데이터가 품질 기준을 충족하는지 확인하려면 다음 질문을 고려하세요.
합성 데이터는 광범위한 용어이며, AI, 분석 또는 데이터 중심 분야에서 작업하는 경우 어떤 종류의 데이터를 다루고 있는지 명확히 해야 합니다. 누락된 데이터를 채우고 있습니까(임퓨테이션), 테스트 사용자를 만들고 있습니까(사용자 생성), 익명화된 패턴을 생성하고 있습니까(인사이트 모델링), 아니면 처음부터 완전히 새로운 데이터 세트를 구축하고 있습니까(제조된 결과)?
이들 각각은 우리가 데이터를 사용하고 보호하는 방식에서 다른 역할을 하며, 이를 이해하는 것은 빠르게 진화하는 AI와 데이터 과학의 세계에서 정보에 입각한 결정을 내리는 데 중요합니다. 그러니 다음에 누군가가 "합성 데이터"라는 용어를 던지면 그들에게 물어보세요: 어떤 종류인가요?