NLP Papers

[Industry] Synthetic Data Augmentation Using Large Language Models (LLM): A Case-Study of the Kamyr Digester

NowZero 2025. 4. 8. 19:04

Abstract

전통적인 머신러닝 접근법은 데이터의 부족 및 희소성이라는 문제에 시달리며, 이는 알고리즘의 정교함과 무관하게 전반적인 성능을 저하시킨다. 연구자들은 다양한 데이터 증강 기법을 활용해 왔지만, 이러한 외삽은 초기 데이터셋의 제한된 지식 공간에 본질적으로 제약을 받는다. 따라서 머신러닝 분야에서는 균형 잡히고 강건하며 방대한 데이터셋의 수집이 매우 중요하며, 이는 수집 과정의 어려움에도 불구하고 핵심적인 요소로 간주된다. 본 연구는 대형 언어 모델(Large Language Models, LLMs)을 활용하여 합성 데이터를 생성함으로써 데이터 부족 문제를 완화하기 위한 새로운 증강 기법을 제안한다. 이를 입증하기 위해 제지 산업에서 사용되는 "Kamyr Digester"를 사례로 삼아, LLM 기반 데이터 생성 기법이 데이터 부족을 완화하는 데 있어 갖는 장점을 종합적으로 분석한다.

1. Introduction

세계 제지 산업은 다양한 산업 분야(포장, 인쇄, 위생용품 등)의 지속적인 수요에 힘입어 대형 기업 중심의 통합 구조로 발전하고 있다. 특히 판지 및 종이판지 생산, 인쇄 매체용 종이 제공 등에서 핵심적인 역할을 한다.

비록 산업이 통합되고 있으나, 주요 기업들은 여전히 **연구개발(R&D)**에 적극적으로 투자하고 있으며, 머신러닝, IoT, Industry 4.0 등의 첨단 기술을 도입해 생산 공정의 효율화와 예측 유지보수, 비용 절감을 실현하고 있다.

펄프 생산은 주로 화학적 펄프화 공정을 통해 이뤄지며, 목재 칩은 **소화조(digester)**를 통해 셀룰로오스와 기타 성분을 분리하여 원료로 사용된다. 소화조는 **연속식(continuous)**과 배치식(batch) 두 가지로 나뉘며, 연속식 소화조는 효율성과 경제성이 높아 선호된다. 본 연구에서는 Kamyr 소화조, 연속식 소화조의 대표 모델을 사례로 사용하였다.

2. Challenges

A. 데이터 부족 및 데이터 불균형
머신러닝에서 신뢰할 수 있고, 다양한 데이터를 충분히 확보하는 것은 물류적, 윤리적, 질적 문제로 인해 매우 도전적인 과제이다. 특히 민감한 분야에서는 프라이버시 보호까지 요구되며, 데이터 수집은 고비용·고복잡성 작업이 된다 [4].

**데이터 부족(data insufficiency)**은 관련 데이터가 부족하거나 다양성이 낮아 분석과 모델링에 필요한 기준을 충족하지 못하는 경우 발생하며, 이는 결과의 신뢰도 저하, 통계적 왜곡, 편향 등으로 이어질 수 있다 [5].

**데이터 불균형(data imbalance)**은 클래스 간 데이터 수 비대칭으로 인해 모델이 다수 클래스에 편향되는 문제로, 일반화 성능 저하와 정확도 감소 등을 유발한다. 이를 완화하기 위해 언더샘플링과 오버샘플링이 활용된다 [6].

B. 전통적 증강 기법의 한계
데이터 부족을 해결하기 위해 다양한 합성 데이터 증강 기법들이 적용되며, 예로는 지터링, 시간 왜곡, VAEs, GANs 등이 있다. 그러나 이러한 전통적 기법들은 원본 데이터의 분포와 구조적 특성을 정밀하게 재현하기 어렵고, 부정확하거나 단순한 증강은 오히려 모델 성능 저하로 이어질 수 있다 [7][8].

결론적으로, 정확하고 의미 있는 합성 데이터 생성을 위해서는 데이터의 복잡성과 맥락에 대한 깊은 이해가 필요하며, 기존 증강 기법만으로는 한계가 존재한다.

3. Related Works

Shashank Shetty 외 (2023) [9]는 RAD-DCGAN이라는 합성곱 기반 생성적 적대 신경망을 이용해 X-ray 및 MRI 기반 방사선 이미지를 생성하고, 이를 통해 학습된 딥러닝 모델이 기존 증강 기법보다 4–5% 높은 정확도를 달성했음을 보고하였다.

Jiayi Yuan 외 (2023) [10]는 LLM 기반 환자-임상시험 매칭(LLM-PTM) 기법을 제안하여, 전자 건강 기록과 임상시험 기준 간의 적합성을 LLM을 통해 개선하였다. 탈감작된 데이터를 활용해 개인정보를 보호하며, 평균 7.32% 성능 향상12.12%의 일반화 능력 향상을 달성하였다.

Weixing Liu 외 (2021) [11]는 원격 탐사 영상에서 항공기 탐지를 위해 3D CAD 기반 합성 이미지 생성 프레임워크를 제안하고, CycleGAN을 다중 스케일 주의 모듈(MSA)로 개선하여, 데이터 부족 상황에서도 탐지 성능을 크게 향상시킬 수 있음을 실험을 통해 입증하였다.

4. Propsed Method

A. 다운스트림 파이프라인
본 연구는 불완전한 시계열 데이터를 처리하고, LLM 기반 합성 데이터 증강을 통해 머신러닝 모델 성능을 평가하는 파이프라인을 제안한다.
결측값은 ADF 검정을 통해 정상성 여부를 판별한 후, 정상 데이터는 ARIMA, 비정상 데이터는 스플라인 회귀로 보간된다.
전처리된 데이터에 대해 다양한 회귀 모델을 적용하고, 이후 GPT 기반 LLM을 활용해 데이터를 증강한다. 증강된 데이터는 통계 기법으로 정량적 품질 평가가 이루어진다.

 

B. ChatGPT (LLM 기반 생성 모델)
ChatGPT는 Transformer 디코더 전용 구조를 기반으로 하며, 자기-어텐션 메커니즘을 통해 입력 간 문맥 정보를 효과적으로 파악한다.
문맥 이해 능력을 활용해 일관성 있고 신뢰성 있는 합성 데이터를 생성할 수 있으며, 본 연구는 ChatGPT를 이용한 데이터 증강 효과를 벤치마크하였다.

5. Experiments

A. 데이터셋 (Dataset)
Kamyr Digester 데이터셋은 Dayal 외 (1994) [14]의 연구에서 확보된 것으로, 총 19개의 라벨(변수)로 구성되어 있으며, 각각은 시계열 형태의 데이터를 포함하고 있다. 이들 변수에는 칩 투입률(chip rate), 블로우 플로우(blow flow), 소화조의 온도(temperature of the digester) 등 센서를 통해 측정된 다양한 공정 파라미터가 포함된다. 이 중 Y-Kappa 값은 펄프화 공정 이후의 리그닌(lignin) 함량을 측정하는 지표로서, 본 연구의 **종속 변수(dependent variable)**로 설정된다.

해당 데이터셋은 관측치가 단 300개에 불과하며(그림 6 참조), 다수의 결측값이 존재하여 강건한 데이터 전처리가 필수적으로 요구된다. 특히, Kamyr Digester 장비가 현재는 노후화되었거나 사용되지 않을 가능성이 높아, 동일한 조건 하에서의 데이터 재생성 또는 복제가 사실상 불가능하다는 점에서 제한성이 크다.

또한, 변수 중 **“AAWhiteSt-4”**와 **“SulphidityL-4”**는 전체 관측치의 45% 이상이 결측값으로 나타나 연구 분석에서 제외되었다. 이러한 결측률은 분석 결과의 신뢰도를 심각하게 저해할 수 있기 때문에, 기준 이상으로 결측이 많은 변수는 분석에서 배제하는 보수적 접근을 취하였다.

 

B. ADF 검정 (ADF Test)
데이터셋 내 결측값 처리를 위해, 결측률이 1% 미만인 속성에 대해서는 인접 값의 평균을 계산하여 단순 보간(imputation)을 수행하였다. 반면, ChipRate, BF-CMratio, BlowFlow, ChipLevel4, UCZAA, WeakWashF와 같이 상대적으로 결측값이 많은 속성들에 대해서는 보다 정교한 처리 방식이 적용되었다.

우선, 해당 속성들의 정상성(stationarity)을 평가하기 위해 Augmented Dickey-Fuller (ADF) 검정이 수행되었다. 이는 결측값 보간의 정밀도를 높이기 위한 사전 단계로 활용되며, 시계열의 통계적 특성이 시간에 따라 일정한지를 판별한다. 그림 7은 해당 속성들의 변동성을 시각화한 것이다. 또한, 표 1은 결측률이 1%를 초과하는 속성들에 대해 신뢰수준 0.05로 수행한 ADF 검정 결과를 요약한 것이다.

ADF 검정은 귀무가설(null hypothesis)을 “시계열이 비정상(non-stationary)이다”로 설정하며, p-value가 0.05 미만이면 귀무가설을 기각할 수 있다 [15]. 즉, p-value < 0.05인 경우 해당 시계열이 정상성을 가진다고 판단되어, 이후 ARIMA와 같은 정상 데이터에 적합한 보간 기법을 적용할 수 있다. 이러한 방식은 결측 데이터의 구조적 특성에 따라 적절한 보간 모델을 선택함으로써, 전체 데이터 품질을 향상시키는 데 기여한다.

 

C. 결측값 보간 (Imputation of Missing Values)
정상성 있는 속성에 대해서는 ARIMA(1,1,1)를 활용한 시계열 예측 기반 보간이 적용되었으며, 각 결측값마다 1스텝 예측을 반복 수행해 결측값을 대체하였다.

반면, **비정상 속성(BF-CMratio, UCZAA)**에는 ARIMA가 부적합하므로 스플라인 보간(Spline Interpolation) 기법을 적용하였다. 스플라인 보간은 구간별 다항식 곡선을 통해 연속적이고 부드러운 값을 추정하는 방식이다.

이러한 전처리 과정을 통해 결측값이 모두 보간되어, 합성 데이터 생성 및 머신러닝 분석을 위한 완전한 데이터셋이 구축되었다.

 

D. 시계열 예측 (Time-series Forecasting)
종속 변수인 **“Y-Kappa”**에 대해, 과거 시계열 추세만을 기반으로 예측을 수행하는 것이 실효성이 없음을 입증하기 위해, 예측 성능을 정량적으로 평가하는 지표로 평균제곱근오차(RMSE)평균절대백분오차(MAPE) [17]가 사용되었다.

주어진 데이터셋 내에서 Y-Kappa 변수의 예측 가능성을 평가하기 위해 다양한 시계열 예측 기법이 적용되었다. 사용된 모델은 다음의 세 가지로 구성된다:

  1. 지수 평활법(Exponential Smoothing)
  2. Holt-Winters 지수 평활법(Holt-Winters Exponential Smoothing)
  3. 계절형 자기회귀 누적 이동 평균(Seasonal ARIMA, SARIMA)

각 모델은 Y-Kappa의 예측값을 산출한 뒤, 실제 관측값과 비교되었으며(그림 10 참조), 이를 통해 적합도(goodness-of-fit)를 평가하였다. 세 가지 시계열 예측 알고리즘에 대한 MAPE 및 RMSE 지표표 2에 정리되어 있다.

예측 결과에서 관찰된 전반적인 낮은 적합도와 상대적으로 높은 오차 지표 값은, Y-Kappa 변수가 단일 시계열의 과거 추세만으로는 예측되기 어려우며, 데이터셋 내의 다른 속성들과의 복잡한 상호작용에 의해 크게 영향을 받는다는 사실을 시사한다. 따라서 Y-Kappa는 단일 시계열 기반 예측 모델만으로는 정확하게 예측할 수 없으며, 이를 위해서는 다변량적 접근(multivariate approach)이 필요하다.

 

E. LLM을 활용한 합성 데이터 증강 (Synthetic Data Augmentation using LLMs)
소규모 데이터셋은 일반적으로 대표성 부족다양성 결여와 같은 문제로 인해, 머신러닝 모델의 강건성(robustness) 및 일반화 능력(generalizability)에 부정적인 영향을 미칠 수 있다. 이러한 맥락에서, 본 연구는 기존 데이터셋 내의 내재된 패턴을 유지한 채, 합성 데이터를 추가하여 데이터셋을 확장하는 방법을 제안한다. 이를 위해 OpenAI의 혁신적인 대형 언어 모델인 GPT-3.5가 활용되었다.

프롬프트는 **데이터셋의 기저 추세(trends)**와 **주기성(cyclicity)**을 유지할 수 있도록 신중하게 설계되었으며, 출력 공간의 제약으로 인해 데이터는 15개 단위로 배치(batch) 생성된다(그림 11 참조). 생성된 각 배치는 **수작업을 통한 이상치 검증(sanity testing)**을 거쳐, 비정상적인 값이나 외부적 요인에 의해 유입된 이상값이 포함되지 않도록 한다 [18].

이와 같은 방식으로, 기존 데이터셋의 크기를 두 배로 확장하며, 분석에 충분한 데이터 다양성과 규모를 확보할 수 있게 되었다.

 

F. 합성 데이터 분석 (Synthetic Data Analysis)
합성 데이터는 전처리된 실제 데이터셋과 비교하여 벤치마크 평가가 수행되었으며 [19], 이를 통해 증강된 데이터가 기존 데이터의 기저 패턴과 추세를 충실히 복제하고, 속성 고유의 특성을 유지하고 있는지를 확인하였다.

그림 12는 중심 경향성 척도(measures of central tendency)—예: 평균, 중앙값—가 실제 및 합성 데이터셋 간에 유사하게 유지되고 있음을 시각적으로 보여준다. 또한, 그림 13은 두 개의 특정 속성에 대한 분포를 비교한 것으로, 합성 데이터셋이 **데이터 분포(distribution)**를 효과적으로 복제하고 있음을 보여준다. 다만, 증강된 데이터에는 **소폭의 비대칭성(skew)**이 도입되어 있음을 확인할 수 있는데, 이는 LLM 기반 생성 과정의 자연스러운 변동성으로 해석될 수 있다.

6. Results

합성 데이터의 유효성을 평가하기 위해, 원본 데이터셋이 기준(control) 프레임워크로 사용되었다. 데이터셋에 포함된 19개의 독립 변수를 활용하여 종속 변수인 **“Y-Kappa”**를 설명하기 위해 **15개의 회귀 모델(regressors)**이 적용되었다.

모델 성능은 **평균제곱근오차(RMSE)**와 **결정계수(R² Score)**를 통해 정량적으로 측정되었으며, 해당 결과는 표 3에 정리되어 있다. 일반적으로 RMSE 값이 낮고, R² 점수가 높을수록 모델의 성능이 우수한 것으로 간주된다.

그림 14는 원본 데이터셋과 LLM 기반 합성 데이터셋 간에 도출된 회귀 성능의 변화를 시각화한 것이다. 이 비교를 통해 합성 데이터가 실제 데이터의 통계적 특성과 학습 신호를 얼마나 효과적으로 재현하였는지를 정량적으로 분석할 수 있다. 결과적으로, 합성 데이터를 포함한 모델이 일부 회귀기에서 향상된 성능을 보임으로써, 데이터 증강이 모델 일반화에 긍정적인 영향을 미쳤음을 시사한다.

7. Conclusion

본 연구에서 사용된 회귀 모델(regressors)은 합성 데이터 증강이 성능에 미치는 영향을 평가하기 위한 벤치마크로 활용되었다. 주목할 만한 점은, Ridge Regressor, K-Nearest Neighbours Regressor(KNN), **주성분 회귀(PCR)**의 경우, 증강된 데이터셋에서 성능 저하가 관찰된 반면, 나머지 대부분의 모델은 향상된 성능을 보였다는 점이다. 또한, 증강 데이터셋은 “Y-Kappa” 값에 대한 시계열 예측보다 우수한 성능을 나타냈다.

특히, MLP(Multi-Layer Perceptron) 회귀기는 성능 향상이 두드러졌으며, RMSE가 0.538 감소하고, R² 점수는 0.20 증가하는 성과를 보였다. 데이터셋 전반에 걸쳐 MARS(Multivariate Adaptive Regression Splines) 모델은 일관되게 높은 R² 값을 유지하였으며, 이는 Kamyr Digester의 공정 모델링에 매우 적합한 모델임을 시사한다. 또한, **의사결정트리(Decision Tree Regressor)**는 모든 회귀기 중 성능 개선폭이 가장 컸다.
표 4는 합성 데이터셋 적용 이후, 각 회귀기의 성능 변화 요약을 제공한다.

본 연구는 전통적 머신러닝 파이프라인의 패러다임 전환을 도모하고자 하며, 정교한 합성 데이터 생성 기술을 통해 보다 강건한 모델 개발을 가능하게 하는 방법론을 제안하였다. 아울러, **대형 언어 모델(LLMs)**을 활용한 데이터 증강 기법의 적합성을 실증적으로 평가함으로써, 향후 다양한 응용 분야에 이를 확장할 수 있는 기반을 마련하였다.

향후 연구에서는 합성 데이터 생성의 적용 범위를 이미지, 비디오 등 다양한 데이터 모달리티로 확장할 수 있으며, 이는 프라이버시 보호 머신러닝(privacy-preserving machine learning) 분야의 연구 진전을 위한 핵심적 역할을 할 것으로 기대된다.

 

사견

Industrial data에 LLM 활용하여 증강한 사례. 프롬프트가 공개되지 않아서 어떻게 경향성을 LLM에 추가해서 증강하였는지는 확실하지 않음. LLM 활용 Industrial data augmentation ref.