968 판독값

AI에 종사하는 모든 사람은 합성 데이터를 좋아하지만 그것이 무엇인지에 대해서는 아무도 동의할 수 없습니다.

~에 의해 Marc Ryan5m2025/03/09

너무 오래; 읽다

합성 데이터는 여러 사용 사례와 정의가 있는 광범위한 범주입니다. 합성 데이터는 핵심적으로 두 가지 핵심 차원에서 작동합니다. 첫 번째는 기존 데이터 세트에서 누락된 데이터를 채우는 것부터 완전히 새로운 데이터 세트를 생성하는 것까지 다양한 스펙트럼입니다. 두 번째는 원시 데이터 수준의 개입과 통찰력 또는 결과 수준의 개입을 구분합니다.

featured image - AI에 종사하는 모든 사람은 합성 데이터를 좋아하지만 그것이 무엇인지에 대해서는 아무도 동의할 수 없습니다.

AI, 분석 또는 데이터 과학 분야의 누구에게 물어보든 그들은 합성 데이터가 미래라고 말할 것입니다. 하지만 그들에게 "합성 데이터"가 무슨 뜻인지 물어보면 매우 다른 답변을 들을 것입니다. 그 이유는 합성 데이터가 단 하나의 것이 아니라 여러 사용 사례와 정의가 있는 광범위한 범주이기 때문입니다. 그리고 그 모호성 때문에 대화가 혼란스러워집니다.

그럼, 소음을 걸러내 봅시다. 합성 데이터는 핵심적으로 두 가지 핵심 차원에서 작동합니다. 첫 번째는 기존 데이터 세트에서 누락된 데이터를 채우는 것부터 완전히 새로운 데이터 세트를 생성하는 것까지 다양한 스펙트럼입니다. 두 번째는 원시 데이터 수준의 개입과 통찰력 또는 결과 수준의 개입을 구분합니다.

이러한 차원을 차트의 축으로 상상해 보세요. 이렇게 하면 네 개의 사분면이 생성되는데, 각각 다른 유형의 합성 데이터를 나타냅니다. 데이터 임퓨테이션, 사용자 생성, 인사이트 모델링, 제조된 결과입니다 . 각각은 고유한 기능을 수행하며, 어떤 용량으로든 데이터를 사용하는 경우 차이점을 알아야 합니다.

데이터 임퓨테이션: 빈칸 채우기

어떤 사람들은 데이터 임퓨테이션이 진정한 합성 데이터가 아니라고 주장할 수 있지만, 현대의 임퓨테이션 기술은 단순한 평균 또는 중간값 대체를 넘어 발전했습니다. 오늘날 고급 임퓨테이션은 머신 러닝과 생성 AI 모델을 활용하여 생성된 값을 그 어느 때보다 더 정교하고 맥락적으로 관련성 있게 만듭니다.

데이터 임퓨테이션은 누락된 데이터 와 원시 데이터 개입 의 교차점에 있습니다. 즉, 우리는 갭이 있는 기존 데이터 세트를 사용하고 있으며, 우리의 목표는 이를 완성하기 위한 그럴듯한 값을 생성하는 것입니다. 다른 유형의 합성 데이터와 달리 임퓨테이션은 완전히 새로운 정보를 만드는 것이 아니라 불완전한 데이터를 더 유용하게 만드는 것입니다.

예: 미디어 효과 연구를 수행하는 시장 조사 회사는 설문 조사 응답이 누락되어 청중 응답 데이터에 갭이 있을 수 있습니다. 불완전한 데이터 세트를 폐기하는 대신 통계 모델링이나 머신 러닝과 같은 imputation 기술을 사용하면 현실적인 추정치를 생성하여 분석가가 데이터에서 여전히 의미 있는 통찰력을 얻을 수 있습니다.

사용자 생성: 가짜 사람, 진짜 통찰력

사용자 생성은 새로운 데이터 생성 과 원시 데이터 개입 사이에 있습니다. 기존 데이터를 수정하는 대신 이 접근 방식은 완전히 새로운 사용자 프로필과 행동을 만들어냅니다. 실제 사용자 데이터를 사용할 수 없거나, 민감하거나, 인위적으로 확장해야 할 때 특히 유용합니다.

사용자 생성은 제품 테스트, 보안 강화, AI 모델 훈련에 있어서 획기적인 변화를 가져옵니다.

예: 스트리밍 서비스는 실제 고객 데이터를 노출하지 않고 추천 엔진을 테스트하기 위해 합성 사용자 프로필을 만들 수 있습니다. 사이버 보안 회사도 공격 시나리오를 시뮬레이션하고 사기 탐지 시스템을 훈련하기 위해 동일한 작업을 수행합니다.

인사이트 모델링: 개인정보 위험 없는 패턴

인사이트 모델링은 기존 데이터 와 인사이트 레벨에서의 개입의 교차점에서 작동합니다. 원시 데이터 포인트를 조작하는 대신 실제 레코드를 노출하지 않고도 실제 데이터의 통계적 속성을 보존하는 데이터 세트를 만듭니다. 따라서 개인 정보 보호에 민감한 애플리케이션에 이상적입니다.

인사이트 모델링은 또한 연구자들이 기존 데이터세트에서 인사이트를 확장할 수 있게 해줍니다. 특히 대규모 데이터를 수집하는 것이 비실용적일 때 더욱 그렇습니다. 이는 마케팅 조사에서 흔히 볼 수 있는 일로, 데이터 수집이 번거롭고 비용이 많이 들 수 있습니다. 그러나 이 접근 방식에는 실제 훈련 데이터의 견고한 기반이 필요합니다.

예: 카피 테스트를 수행하는 시장 조사 회사는 규범적 데이터베이스를 확장하기 위해 인사이트 모델링을 사용할 수 있습니다. 수집된 설문 응답에만 의존하는 대신, 회사는 기존 규범적 데이터에서 패턴을 외삽하는 합성 인사이트 모델을 생성할 수 있습니다. 이를 통해 브랜드는 새로운 설문 응답을 지속적으로 수집하지 않고도 더 광범위하고 예측 가능한 데이터 세트에 대해 크리에이티브 성과를 테스트할 수 있습니다.

제조된 결과: 데이터가 아직 존재하지 않는 경우

제조된 결과는 새로운 데이터 생성 과 통찰력 수준의 개입 의 극단적인 끝에 있습니다. 이 접근 방식은 아직 존재하지 않지만 AI 훈련, 모델링 및 시뮬레이션에 필수적인 환경이나 시나리오를 시뮬레이션하기 위해 처음부터 완전히 새로운 데이터 세트를 생성하는 것을 포함합니다.

때로는 필요한 데이터가 단순히 존재하지 않거나 실제 세계에서 수집하기에는 너무 비싸거나 위험합니다. 바로 여기서 Manufactured Outcomes가 등장합니다. 이 프로세스는 완전히 새로운 데이터 세트를 생성하여 종종 복제하기 어려운 환경에서 AI 시스템을 훈련합니다.

예: 자율주행차 회사는 보행자가 갑자기 도로를 횡단하는 것과 같은 합성 도로 시나리오를 생성하여 실제 운전 영상에서 자주 나오지 않는 드물지만 중요한 상황에 대한 AI를 훈련시킵니다.

합성 데이터의 위험 및 고려 사항

합성 데이터는 강력한 솔루션을 제공하지만 위험이 없는 것은 아닙니다. 각 유형의 합성 데이터에는 데이터 품질, 신뢰성 및 윤리적 사용에 영향을 줄 수 있는 고유한 과제가 있습니다. 염두에 두어야 할 몇 가지 주요 우려 사항은 다음과 같습니다.

편향 확산: 추정, 통찰 모델링 또는 제조된 결과에 사용되는 기본 데이터에 편향이 포함되어 있는 경우, 이러한 편향은 강화되거나 심지어 증폭될 수 있습니다.
실제 세계의 대표성 부족: 사용자 생성 및 데이터 제조로 인해 생성되는 데이터는 현실적으로 보이지만 실제 사용자 행동이나 시장 상황의 미묘한 차이를 포착하지 못할 수 있습니다.
과도한 적합과 잘못된 신뢰: 인사이트 모델링을 부적절하게 적용하면 학습 세트와 너무 밀접하게 일치하는 데이터가 생성되어 오해의 소지가 있는 결론을 도출할 수 있습니다.
규제 및 윤리적 문제: GDPR 및 CCPA와 같은 개인정보 보호법은 실제 개인을 식별하기 위해 역공학을 수행할 수 있는 경우에는 합성 데이터에도 여전히 적용됩니다.

합성 데이터를 평가할 때 묻는 핵심 질문

합성 데이터가 품질 기준을 충족하는지 확인하려면 다음 질문을 고려하세요.

원래 데이터의 출처는 어디인가요? 합성 데이터의 기초를 이해하면 잠재적인 편향과 한계를 평가하는 데 도움이 됩니다.
합성 데이터는 어떻게 생성되었나요? 머신 러닝, 통계 모델 또는 규칙 기반 시스템 등 다양한 방법이 합성 데이터의 신뢰성에 영향을 미칩니다.
합성 데이터는 실제 데이터의 통계적 무결성을 유지합니까? 생성된 데이터가 단순히 복제하지 않고 실제 데이터와 유사하게 동작하도록 합니다.
합성 데이터를 감사하거나 검증할 수 있습니까? 신뢰할 수 있는 합성 데이터는 검증 메커니즘이 있어야 합니다.
규제 및 윤리 지침을 준수합니까? 데이터가 합성적이라는 것이 개인정보 보호 규정에서 면제된다는 것을 의미하지는 않습니다.
기본 데이터 모델을 업데이트하는 프로세스가 있습니까? 합성 데이터는 기반이 되는 실제 데이터만큼만 좋습니다. 기본 데이터 세트를 지속적으로 업데이트하는 프로세스를 보장하면 모델이 오래되어 현재 추세와 맞지 않는 것을 방지할 수 있습니다.

마무리하기

합성 데이터는 광범위한 용어이며, AI, 분석 또는 데이터 중심 분야에서 작업하는 경우 어떤 종류의 데이터를 다루고 있는지 명확히 해야 합니다. 누락된 데이터를 채우고 있습니까(임퓨테이션), 테스트 사용자를 만들고 있습니까(사용자 생성), 익명화된 패턴을 생성하고 있습니까(인사이트 모델링), 아니면 처음부터 완전히 새로운 데이터 세트를 구축하고 있습니까(제조된 결과)?

이들 각각은 우리가 데이터를 사용하고 보호하는 방식에서 다른 역할을 하며, 이를 이해하는 것은 빠르게 진화하는 AI와 데이터 과학의 세계에서 정보에 입각한 결정을 내리는 데 중요합니다. 그러니 다음에 누군가가 "합성 데이터"라는 용어를 던지면 그들에게 물어보세요: 어떤 종류인가요?

L O A D I N G
. . . comments & more!

About Author

Marc Ryan@marcryan

Data Product guy with roots in research and analytics.

Read my stories