본문 바로가기

NLP Papers

[Applications] Large Language Models for Healthcare Data Augmentation: An Example onPatient-Trial Matching

Abstract

환자를 적절한 임상시험과 매칭하는 과정은 의학 연구의 발전과 최적의 치료 제공에 있어 필수적이다. 그러나 현재의 접근 방식은 데이터 표준화, 윤리적 고려사항, 전자의무기록(EHR)과 임상시험 기준 간의 상호운용성 부족과 같은 여러 도전에 직면해 있다. 본 논문에서는 대형 언어 모델(LLM)이 지닌 고급 자연어 생성 능력을 활용하여, EHR과 임상시험 설명 간의 호환성을 개선함으로써 이러한 문제를 해결할 수 있는 가능성을 탐구한다. 우리는 LLM 기반 환자-임상시험 매칭(LLM-PTM)을 위한 혁신적인 개인정보 보호 중심 데이터 증강 기법을 제안하며, 이는 LLM의 이점을 유지하면서 민감한 환자 데이터의 보안성과 기밀성을 보장한다. 실험 결과, 제안한 LLM-PTM 방법은 평균 7.32%의 성능 향상을 달성하였으며, 새로운 데이터에 대한 일반화 성능도 12.12% 개선되었다. 또한, 본 접근 방식의 효과를 보다 명확히 보여주기 위해 사례 연구를 제시하고, 그 기본 원리에 대한 심층적인 이해를 제공한다.

1.Introduction

환자에게 적합한 임상시험을 식별하는 일은 의학적 치료의 신뢰성 있는 평가와 검증을 위해 매우 중요하다. 이 과정은 환자에게 최선의 치료를 받을 수 있는 기회를 제공할 뿐만 아니라, 의학 연구의 발전에도 기여한다. 임상시험 매칭을 지원하는 모델은 환자의 프로파일을 현재 진행 중인 연구의 적격 요건과 비교함으로써 가능한 매칭 후보를 식별한다 [1]. 그러나 개별 환자에게 이상적인 임상시험을 찾아내는 일은 복잡하고 시간이 많이 소요될 수 있다. 이때 고도화된 임상시험 매칭 기법이 중요한 역할을 한다. 인공지능(AI) 또는 특정 알고리즘을 활용함으로써, 연구자들은 환자에게 적합한 임상시험을 효과적으로 매칭할 수 있으며 [2, 3], 이는 연구 수가 지속적으로 증가함에 따라 점점 더 중요한 과제로 부상하고 있다. 보다 자세한 내용은 본 논문의 서론을 참고하길 바란다.

그 잠재적 이점에도 불구하고, 임상시험 절차에 AI를 통합하는 데에는 여러 가지 장애 요인이 존재한다. 대표적인 문제로는 데이터 접근성, 표준화 문제, 윤리적 고려사항 등이 있다 [4]. 특히, 전자의무기록(EHR)에서 사용되는 온톨로지 및 용어 체계와 임상시험의 포함 및 제외 기준에서 사용되는 체계 간의 불일치는 주요한 도전 과제이다. 최근 연구들은 이러한 문제를 블랙박스 임베딩 매칭 기법을 통해 해결하고자 하였지만 [5, 6], 여전히 이질적인 두 정보 출처 간의 상호운용성 부족은 AI 기반 임상시험 매칭 서비스의 효율성을 저해할 수 있다.

대형 언어 모델(LLM)의 등장 [7]은 EHR과 임상시험 설명 간의 호환성을 개선할 수 있는 새로운 가능성을 제시한다. LLM은 고도화된 자연어 처리 능력을 바탕으로, EHR과 임상시험의 포함/제외 기준에 존재하는 다양한 용어와 온톨로지를 효과적으로 해석하고 이해하며 조화시킬 수 있다. 이러한 상호운용성의 증진은 매칭 과정을 보다 효율화할 뿐만 아니라, 환자에게 적합한 임상시험을 보다 정확하게 식별할 수 있도록 한다. 결과적으로, 대형 언어 모델은 임상시험 매칭 방식을 혁신함으로써, 더 나은 환자 결과를 이끌고 의학 연구의 효율성 향상에 기여할 수 있다.

하지만 LLM을 임상시험 매칭에 적용할 때 가장 중요한 도전 과제는 민감한 환자 데이터를 다룰 때 발생하는 개인정보 보호 문제이다. 이러한 데이터에는 개인 식별 정보 및 건강 관련 정보가 포함될 수 있으며, 환자의 신뢰를 유지하고 법적·윤리적 기준을 준수하기 위해서는 데이터의 보안성과 기밀성을 보장하는 것이 필수적이다. 이를 해결하기 위해, 본 연구에서는 LLM의 장점을 유지하면서도 데이터 프라이버시를 우선시하는 혁신적인 데이터 증강 방식을 제안한다. 실제 구현 단계에서는 원본 환자 데이터를 LLM에 직접 입력하는 대신, 비식별화된 환자 데이터를 프롬프트로 활용하여 임상시험 데이터를 증강하는 방식으로 LLM을 안내한다. 종합적인 실험을 통해, 본 논문에서 제안하는 LLM-PTM은 평균 7.32%의 성능 향상과 함께, 새로운 데이터에 대한 일반화 성능도 12.12% 개선됨을 확인하였다. 또한, 본 방법의 효과를 구체적으로 입증하기 위해 사례 연구를 수행하고, 그 이론적 원리에 대한 보다 폭넓은 통찰을 제공한다.

2.Preliminary

2.1 환자-임상시험 매칭 (Patient Trial Matching)

임상 연구 분야에서, 임상시험은 새로운 질병 치료법을 개발하기 위한 유일하게 확립된 방법론이다. 그러나 이러한 임상시험은 종종 높은 비용, 부정확성, 불충분한 환자 모집 등과 같은 문제에 직면한다. 상당수의 임상시험은 필요한 환자 모집에 어려움을 겪으며, 이 중 50%는 모집 문제로 인해 지연되고, 일부는 실험을 개시하기에 충분한 참가자를 확보하지 못하고 실패한다 [8]. 자동화된 환자-임상시험 매칭 기술의 등장은 이러한 모집 과정을 최적화할 수 있는 유망한 방안을 제공한다. 이 접근 방식의 핵심은 환자의 종적 전자의무기록(EHR)과 임상시험의 적격 기준(EC, Eligibility Criteria)을 기반으로 적합한 환자를 식별하는 데 있다. 이때 EC는 포함 기준(inclusion criteria)과 제외 기준(exclusion criteria)을 모두 포함하며, 이는 그림 1에 나타나 있다.

이 문제는 분류(classification) 문제로 정의될 수 있다. 입력으로는 환자의 전체 전자의무기록(EHR) 데이터와 하나의 임상시험에 대한 적격 기준(EC)이 주어지고, 출력은 환자와 임상시험 간의 관계를 "매칭(match)", "불일치(mismatch)", 또는 "불확실(unknown)"로 분류한다. 환자와 임상시험 간의 매칭은 환자가 해당 임상시험의 모든 EC를 충족할 경우에만 성립한다. 수학적으로, P는 환자의 EHR 데이터를 나타내고, T = [t₁, ..., tₙ]은 임상시험의 적격 기준 집합을 나타낸다. 이때 매칭 함수는 다음과 같이 정의된다:

  • m(P, t) = {match, mismatch, unknown}
  • M(P, T) = {match, mismatch}

2.2 데이터 증강 (Data Augmentation)

텍스트 데이터 증강은 다양한 변환 기법을 포함하며, 자연어 처리(NLP) 분야의 텍스트 분류 작업에서 모델 학습 성능 향상을 위해 널리 사용된다. 현대의 텍스트 데이터 증강 기법은 문자, 단어, 문장, 문서 수준 등 다양한 세분화 수준에서 작동하며, 그 목적은 의미적 일관성을 유지하면서도 이해 가능한 다양한 텍스트 인스턴스를 생성하는 것이다.

환자-임상시험 매칭의 맥락에서 데이터 증강은 학습 데이터의 다양성이 제한적이기 때문에 특히 중요하다. 효과적인 증강 기법의 적용은 보다 다양한 텍스트 데이터셋을 생성할 수 있게 하며, 이를 통해 머신러닝 모델은 환자 정보와 적격 기준 정보의 복잡성을 보다 정밀하게 학습할 수 있다. 결과적으로, 이는 분류기의 학습 성능을 향상시켜 환자-임상시험 매칭 과제에 대해 더 정확하고 신뢰할 수 있는 결과를 제공한다.

 

2.3 의료 분야에서의 데이터 프라이버시 (Data Privacy in Healthcare)

빅데이터가 의료 분야에 혁신을 가져올 수 있는 잠재력은 널리 인정되고 있다 [9]. 그러나 이에 대한 프라이버시 문제는 여전히 중요한 과제로 남아 있다. 개인정보 보호 문제는 데이터 활용에 있어 결과주의적(consequentialist) 관점과 의무론적(deontological) 관점 양측에서 모두 윤리적 우려를 야기한다 [9]. 환자 데이터에 대한 접근을 제한하면 데이터 기반 혁신이 저해될 수 있으며 [10], 데이터 비식별화(deidentification)는 서로 다른 출처의 환자 데이터를 연계하는 작업을 복잡하게 만든다 [11, 12].

이에 대한 대안으로, 가명처리(pseudonymization)나 차등 프라이버시(differential privacy) 기술과 같은 개인정보 보호 기법이 특정 상황에서 적용될 수 있다 [13, 14, 15]. 또한, 개인정보 보호 감사를 수행하거나 보안 표준을 적용함으로써 데이터 보유자가 단순한 중개자가 아니라 데이터 관리자로서의 책임을 수행할 수 있도록 할 수 있다. 그럼에도 불구하고, 많은 경우에서 여전히 프라이버시와 혁신 사이의 균형(trade-off)은 존재한다.

환자-임상시험 매칭의 맥락에서도, 빅데이터의 본질적인 특성으로 인해 프라이버시 문제는 불가피하게 발생한다. 본 연구는 오픈소스 구성요소들과의 상호작용을 고려한 개인정보 보호 중심의 증강 기법을 탐구하며, 민감한 원천 데이터의 유출을 방지하면서 매칭 정확도를 향상시키는 것을 목표로 한다.

 

3. Methodology

3.1 문제 설정 (Problem Setting)

앞서 설명한 바와 같이, 환자-임상시험 매칭 과정은 전자의무기록(EHR)을 기반으로 특정 임상시험에 적합한 환자를 식별하는 작업이다. 환자의 EHR은 포괄적인 의학 정보를 포함하고 있으며, 임상시험은 상세한 설명, 적격 기준(Eligibility Criteria), 기타 관련 정보를 포함한다. 본 절에서는 해당 문제 설정을 체계적으로 정리하여 소개한다.

입력 1: 환자 기록 (Patient Records)
원시 임상 문서로부터 환자 기록을 추출하고, 이를 구조화된 표 형식으로 변환한다. 환자 기록은 기호 P로 표기되며, 다음과 같이 정의된다:
P=[d1,d2,...,dnd, m1,m2,...,mnm, p1,p2,...,pnp]
여기서 did_i는 진단 정보로 진단 집합 D에 속하고, mim_i는 약물 정보로 약물 집합 M에 속하며, pip_i는 시술 정보로 시술 집합 P에 속한다. 모든 요소(진단, 약물, 시술)는 문자형 문자열이다.
각 항목의 개수는 다음과 같이 정의된다:

  • ndn_d: 진단 항목의 총 개수
  • nmn_m: 약물 항목의 총 개수
  • npn_p: 시술 항목의 총 개수

입력 2: 임상시험 (Clinical Trials)
본 연구에서는 임상시험의 적격 기준에 초점을 맞춘다. 환자 기록과 유사하게, 임상시험 문서로부터 포함 기준(inclusion criteria)과 제외 기준(exclusion criteria)을 추출한다. 임상시험은 기호 T로 표기되며, 다음과 같이 표현된다:
T=[i1,i2,...,ini, e1,e2,...,ene]
여기서 iii_i는 포함 기준, eie_i는 제외 기준을 나타내며, 모두 문자열로 구성된다.
각 기준의 개수는 다음과 같다:

  • nin_i: 포함 기준의 총 개수
  • nen_e: 제외 기준의 총 개수

과제 1: 환자-기준 매칭 (Patient-Criteria Matching)
환자의 방문 기록 P와 특정 기준(포함 혹은 제외 기준) c∈T 주어졌을 때, 환자-기준 매칭 문제는 다중 클래스 분류 문제로 정의된다. 이 과제의 목표는 환자 기록과 임상시험 기준 간의 유사도에 따라 결과를 세 가지 클래스 중 하나로 분류하는 것이다:

  • match (일치)
  • mismatch (불일치)
  • unknown (불확실)

이를 수학적으로 다음과 같이 표현할 수 있다:
y^(c,P){match, mismatch, unknown}

 

과제 2: 환자-임상시험 매칭 (Patient-Trial Matching)
환자의 방문 기록 P와 포함 및 제외 기준으로 구성된 임상시험 C가 주어졌을 때, 환자와 임상시험이 매칭되기 위한 조건은 환자가 모든 포함 기준을 만족하고, 모든 제외 기준을 위배해야 한다는 것이다. 이를 다음과 같이 표현할 수 있다:

Match(C,P)(i{i1,...,ini}, y^(i,P)=match)(e{e1,...,ene}, y^(e,P)=match)

 

3.2 제안하는 파이프라인

임상시험 적격 기준 증강 (Trial Eligibility Criteria Augmentation)

앞서 논의한 바와 같이, 환자-임상시험 매칭에서 포괄적이고 고품질의 데이터를 확보하는 것은 높은 비용과 개인정보 침해 가능성 등 여러 어려움을 수반한다. 이러한 맥락에서 데이터 증강의 필요성을 인식하고, 본 연구에서는 LLM-PTM을 도입하였다. 본 방법은 대형 언어 모델(LLM)을 활용하여 원본 임상시험의 포함 기준(i)과 제외 기준(e)의 의미적 일관성을 유지하면서 보조적인 데이터 포인트를 생성하는 데이터 증강 기법을 제안한다.

우선, LLM이 점진적으로 프롬프트를 생성하도록 유도하기 위해 Chain-of-Thought 방식을 적용한다. 이 프롬프트에는 생성된 출력 데이터가 머신러닝 모델에 보다 이해하기 쉽도록 구성되되, 원래 기준의 의미적 내용을 정확히 보존해야 한다는 요구 조건이 포함되어 있다. 그 후, 비식별화된 환자 데이터, 임상시험 데이터, 그리고 앞서 생성된 프롬프트를 활용하여 개인정보를 보호하면서도 효과적인 데이터 증강 과정을 수행한다.

LLM-PTM의 증강 과정에 대한 도식과 예시는 그림 2에 제시되어 있다. 임상시험의 기준이 다음과 같이 주어진다고 하자:

T=[i1,i2,...,ini, e1,e2,...,ene]

이때 우리는 LLM을 활용하여, 이 기준들을 충족하는 증강된 데이터 포인트의 집합 T′를 생성하는 것을 목표로 한다.

형식적으로, 각 포함 기준 iki와 제외 기준 el∈T에 대해 다음과 같이 입력 문자열 ik′el′를 구성한다:
ik′=o⊕ik,el′=o⊕el
여기서 o는 설계된 프롬프트이며, 는 문자열 연결 연산을 나타낸다.

이후, 입력 문자열 ik′el′을 LLM에 입력하여 각각의 증강된 데이터 포인트 집합 AikAel를 생성한다. 이를 LLM을 함수로 간주하여 다음과 같이 표현할 수 있다:
Aik=LLM(ik′), Ael=LLM(el′)

최종적으로, 증강된 임상시험 데이터셋 T는 다음과 같이 표현된다:

T=k=1nAikl=1mAel

 

환자 임베딩 (Patient Embedding)

환자의 진단(D), 약물(M), 시술(P) 정보를 BERT로 인코딩 후, 메모리 네트워크에 입력하여 시퀀스를 보존한 임베딩 생성.

x_P = f_P(P) = Mem(BERT(a₁), BERT(a₂), ..., BERT(aₙ)),  where aᵢ ∈ {D, M, P}

기준 임베딩 (Eligibility Criteria Embedding)

포함/제외 기준 문자열을 BERT + Highway layer로 인코딩.

x_i/e = f_c(c) = Highway(BERT(c)),  where c ∈ T

Highway(x) = sigmoid(Conv(x)) * Conv(x) + (1 - sigmoid(Conv(x))) * Conv(x)

 

예측과 손실 함수 (Prediction and Loss)

분류 손실 (Classification Loss)

  • 예측값(ŷ)과 실제값(y)의 Cross-Entropy 손실:
  • L_cla = - y^T * log(ŷ) - (1 - y)^T * log(1 - ŷ)

포함/제외 기준 대비 손실 (Contrastive Loss)

  • 포함 기준은 유사도 최대화, 제외 기준은 유사도 최소화.
  • L_con = ∏_{a=1}^{n_i} (1 - s(x_iₐ, x_P)) * ∏_{b=1}^{n_e} max(0, s(x_e_b, x_P) - ε)
  • 여기서 s(·,·)는 cosine similarity, ε는 제외 기준과의 최소 거리(hyperparameter).

최종 손실 함수 (Final Loss Function)

  • 두 손실을 가중합으로 통합하여 최적화.
  • L = α * L_cla + (1 - α) * L_con

4. Experiment

4.1 데이터셋 (Dataset)

임상시험 데이터 (Clinical Trial Data)
본 연구에서는 ClinicalTrials.gov에서 다음의 여섯 개 뇌졸중 임상시험(NCT03735979, NCT03805308, NCT03263117, NCT03496883, NCT03876457, NCT03545607)을 수집하여 사용하였다. 수집 대상은 포함 기준과 제외 기준 모두를 포함하였으며, 총 150개의 문장 단위 기준(statement)이 추출되었다.

환자 EHR 데이터 (Patient EHR Data)
환자 데이터는 "뇌졸중 환자의 재입원 위험 예측" 연구(HSC-SBMI-21-0529)로 UTHealth 기관생명윤리위원회(IRB)의 승인을 받아 수집되었다. 뇌졸중 환자 데이터베이스를 활용하여, 여섯 개의 뇌졸중 임상시험 중 최소 하나에 등록된 환자 825명의 클레임(claims) 데이터를 확보하였다. 이 데이터는 각 환자의 진단, 시술, 약물 정보를 포함하는 종적 처방 및 의료 청구 데이터를 포함한다.

증강 데이터 (Augment Data)
베이스라인 방법 개발 과정에서는 오픈소스 라이브러리를 활용하여 증강 데이터를 생성하였다. 한편, 본 연구의 LLM 기반 프롬프트 증강 방식(LLM-PTM)에는 2023년 3월 5일에 릴리즈된 OpenAI의 ChatGPT를 활용하였다.

각 임상시험의 포함/제외 기준은 해당하는 환자의 EHR과 매칭되었으며, 이에 대해 "match" 또는 "mismatch"로 레이블링하였다. 또한, 불확실성 요소를 도입하기 위해, 하나의 포함 기준과 하나의 제외 기준을 무작위로 다른 임상시험에서 선택하여 "unknown" 레이블로 추가하였다. 그 결과, 총 **100,000개의 레이블링된 쌍(pair)**이 생성되었다.

 

4.2 모델 및 설정 (Model and Setting)

모델 구성 (Model Configuration)
텍스트 임베딩 과정에서는 [20]에서 제안된 Clinical BERT 임베딩을 기본 방법으로 활용하였다. 해당 모델은 MIMIC-III v1.4 데이터베이스 [21]로부터 추출된 총 200만 건의 임상 기록(clinical notes)을 기반으로 사전 학습(pretraining)되었다.

모델 성능 최적화를 위해 총 150,000회에 걸쳐 학습(iteration)이 수행되었으며, Clinical BERT로부터 생성된 임베딩의 차원 수는 768이다. 하이웨이 네트워크(highway network)의 구조는 두 개의 합성곱(convolutional) 층으로 구성되어 있으며, 각 층은 **128개의 채널(channel)**을 포함한다. 이러한 구조는 학습 용량을 충분히 확보하면서도 계산 효율성을 유지하기 위해 전략적으로 설계되었다.

 

베이스라인(Baselines)
제안한 데이터 증강 기법의 성능을 검증하기 위해, 원본 데이터 및 기존 표준 데이터 증강 기법들과 비교 실험을 수행하였다. 구체적으로 다음의 세 가지 데이터 증강 방법을 테스트하였다:

  1. 단어 위치 교환 증강(Swap Word Augmentation):
    Wei et al.이 제안한 Easy Data Augmentation (EDA) [22]의 하위 기법으로, 텍스트 내 단어의 위치를 무작위로 교환하는 방식이다.
  2. 문맥 기반 단어 삽입 증강(Context Word Augmentation):
    입력 텍스트 내 임의의 위치에 마스크 토큰([MASK])을 삽입하고, BERT를 통해 해당 위치에 문맥적으로 적합한 단어를 예측하여 삽입하는 기법이다 [23, 24].
  3. 역번역 증강(Back Translation Augmentation):
    원문을 다른 언어로 번역한 후, 다시 영어로 역번역함으로써 의미는 유지하면서 문장이 변형된 결과를 생성하는 방법이다 [25]. 본 연구에서는 Deep Translator의 Google Translate API를 사용하였으며, 중간 언어로 독일어, 프랑스어, 스페인어를 활용하였다.

학습 설정(Training Settings)
실험 프레임워크 구현 과정에서, 해당 분야에서 널리 사용되는 일반적인 설정을 따랐다. 전체 신경망은 처음부터 학습을 시작하여 12 에폭(epoch) 동안 훈련을 수행하였다.

  • 옵티마이저: Adam [26]
  • 배치 크기: 128
  • 학습률(learning rate): 1e-4
  • 하이퍼파라미터 α: 0.5
  • 하이퍼파라미터 ε: 0.01

평가지표(Evaluation Metrics)
모델의 성능 평가는 **환자-기준 수준(patient-criteria level)**과 **환자-임상시험 수준(patient-trial level)**의 두 가지 수준에서 수행되었다. 평가 지표로는 정밀도(Precision), 재현율(Recall), F1 점수(F1 Score) 등, 널리 인정받는 다양한 메트릭을 사용하여 종합적인 성능 분석을 수행하였다.

 

4.3 실험 결과 분석 (Experimental Results Analysis)

4.3.1 전체 성능 (Overall Performance)

본 절에서는 실험 대상인 모든 임상시험에 대해 환자-기준 수준환자-임상시험 수준의 결과를 종합하여 분석하였다. 제안한 기법과 기존의 베이스라인 방법 간의 비교 분석 결과는 **표 1(Tab. 1)**에 제시되어 있다. 실험 결과는 세 번의 독립적인 실험을 수행한 후, 그 평균을 산출하여 도출되었다.

실험 결과를 종합적으로 분석한 결과, 제안된 LLM 기반 증강 기법을 적용함으로써 머신러닝 모델의 성능이 모든 평가 지표에서 유의미하게 향상되었음을 확인하였다.

구체적으로, **환자-기준 수준(patient-criteria level)**에서는 다음과 같은 평균 성능 향상이 나타났다:

  • 정밀도 (Precision): +10.6% 이상
  • 재현율 (Recall): +2.1% 이상
  • F1 점수: +6.0% 이상

더욱 두드러진 성능 향상은 **환자-임상시험 수준(patient-trial level)**에서 관찰되었으며, 각 항목별 평균 향상치는 다음과 같다:

  • 정밀도: +8.6%
  • 재현율: +8.2%
  • F1 점수: +8.4%

이러한 성능 향상은 원본 데이터셋과 비교해 더 다양한 표현을 포함하는 데이터셋을 제공하고, 다른 증강 기법 대비 더 정밀한 의미적 정보를 포함시킨 점에 기인한다.

향후 이어지는 사례 분석(case study)에서는 이와 같은 결과의 의미와 작동 원리를 더 깊이 탐구함으로써, 제안된 LLM 기반 증강 기법이 해당 도메인 내 머신러닝 모델 성능에 미치는 영향을 보다 심층적으로 논의할 예정이다.

 

4.3.2 다양한 임상시험에 걸친 성능 분석 (Performance Throughout Different Trials)

본 절에서는 제안한 모델이 **각 임상시험별로 환자-기준 수준(patient-criteria level)**에서 어떤 성능을 보이는지를 평가한다. 본 분석의 주요 목적은, 특정 임상시험의 기준이 다른 시험보다 더 어려운지를 확인하고, 모델이 이러한 조건에서도 만족할 만한 성능을 낼 수 있는지를 검토하는 데 있다. 분석 결과는 **표 2(Tab. 2)**에 제시되어 있다.

분석 결과에 따르면, 기존 베이스라인 모델은 일부 임상시험에서 성능 저하를 보인 반면, 제안된 모델은 보다 일관되고 강건한 성능을 보여주었다. 예를 들어, Trial 1의 경우, 베이스라인 모델은 정밀도(Precision)가 **40.2%**에 그쳤으나, 제안된 방법은 이보다 24.0% 높은 성능을 기록하였다.

이러한 결과는, **다양하고 풍부한 의미적 정보(semantic information)**를 포함한 데이터 증강 기법이 특히 난이도가 높은 데이터에 대해 모델 성능을 크게 향상시킬 수 있음을 시사한다.

다음에 이어질 사례 분석(case study)에서는 이와 같은 결과의 세부 사항을 더욱 심층적으로 고찰하고, 제안된 방법의 성공 요인을 구체적으로 탐구할 예정이다.

 

4.3.3 일반화 성능 (Generalizability)

본 절에서는 제안한 모델의 일반화 능력을 기존 베이스라인 모델(바닐라 모델)과 비교하여 평가한다. 주요 목적은 특정 임상시험 데이터로 학습한 후, 이전에 관측되지 않은(trials unseen during training) 임상시험에 대해 각 모델이 얼마나 효과적으로 작동하는지를 분석하는 것이다.

이를 위해 다음과 같은 세 가지 실험 시나리오를 설계하였다:

  1. 쉬운 임상시험(easy trials)으로 학습 → 쉬운 임상시험에 테스트
  2. 쉬운 임상시험으로 학습 → 어려운 임상시험(hard trials)에 테스트
  3. 혼합된 임상시험(mixed trials)으로 학습 → 어려운 임상시험에 테스트

임상시험의 난이도는 앞서 4.3.2절의 성능 결과를 기반으로 분류하였다. 실험 결과는 **표 3(Tab. 3)**에 제시되어 있다.

결과를 분석해본 결과, 베이스라인 모델은 일반화 성능이 전반적으로 낮은 반면, 제안한 방법은 모든 시나리오에서 평균 12.12%의 정확도 향상을 보이며 강력한 일반화 능력을 입증하였다.

  • 쉬운 임상시험 학습 → 쉬운 임상시험 테스트의 경우, 두 모델 모두 유사한 성능을 보였으나, 제안된 방법이 **풍부한 의미 정보(semantic information)**로 인해 약간 더 우수한 정확도를 나타냈다.
  • 쉬운 임상시험 학습 → 어려운 임상시험 테스트에서는 베이스라인 모델이 일반화에 실패한 반면, 제안된 방법은 **다양한 의미 표현을 통해 높은 적응력(adaptability)**을 보였다.
  • 혼합 임상시험 학습 → 어려운 임상시험 테스트 시에도, 제안된 모델은 도메인 이해력이 뛰어나 베이스라인 모델보다 우수한 성능을 지속적으로 유지하였다.

이와 같이, 제안한 모델은 다양한 문맥과 문제 영역에서 효과적으로 작동할 수 있는 일반화 가능성을 보여주며, 풍부한 의미 정보를 효율적으로 활용함으로써 머신러닝 모델의 성능을 크게 향상시킬 수 있음을 시사한다.

 

4.4 사례 연구 (Case Study)

본 절에서는 구체적인 예시를 통해 제안된 방법의 강점을 설명하고자 한다. 특히, 어려운(hard) 데이터에 대한 문제를 완화하고, 문제 영역의 의미 정보를 확장하는 증강 기법의 효과를 보여주는 두 가지 사례를 중심으로 논의한다. 이러한 사례를 통해 제안 기법의 실제적인 효용성을 보다 깊이 있게 이해하고자 한다.


사례 1: 어려운 데이터 완화 (Hard Data Easing)

기존의 머신러닝 모델이 환자의 의무기록을 기반으로 정확하게 분류하는 데 어려움을 겪는 복잡한 사례를 고려해 보자. 이러한 상황에서, 제안된 증강 기법은 언어 모델로부터 파생된 풍부한 의미 정보를 활용하여 새로운 기준(criteria)을 생성한다. 새롭게 생성된 이 기준들은 기존 모델이 놓치기 쉬운 미묘한 관계 및 패턴을 포착하는 데 도움을 주며, 결과적으로 모델이 복잡한 데이터를 보다 잘 처리할 수 있도록 한다.

이에 따라 환자 분류의 정확도가 향상되며, 성능 역시 개선된다. **표 4(Tab. 4)**에 나타난 바와 같이, 원래의 학습 데이터로 훈련된 모델은 잘못된 예측을 보였으나, 증강된 데이터로 학습된 모델은 정확한 분류 결과를 도출하였다. 이와 같은 성능 향상은, 증강된 데이터셋이 머신러닝 모델의 효과성을 향상시키는 데 기여함을 의미한다.

사례 2: 의미 정보 확장 (Semantic Enrichment)

두 번째 사례에서는, 초기 데이터셋에 포함된 의미 정보가 제한적이어서 모델의 예측 정확도를 저해할 수 있는 상황을 가정한다. 이러한 문제에 대해, 제안된 증강 기법은 LLM의 문제 도메인에 대한 이해를 기반으로 보다 다양한 기준(criteria)을 생성함으로써 해결책을 제시한다. 이로 인해, 모델이 활용할 수 있는 의미 정보가 풍부해지고, 기존에는 드러나지 않았던 관계 및 패턴을 새롭게 발견할 수 있게 된다.

이처럼 의미적으로 확장된 문제 표현은 모델 성능 향상으로 이어진다. **표 5(Tab. 5)**에 나타난 바와 같이, 바닐라 모델은 환자-임상시험 수준(patient-trial level) 매칭에서 부정확한 결과를 보였으나, 증강된 데이터로 학습한 모델은 예측 정확도가 향상되었다.

이러한 결과는, 증강 데이터셋이 머신러닝 모델이 특정 기준을 보다 정밀하게 이해하고, 관련 기준과의 연관성을 형성하는 데 도움을 줄 수 있음을 시사한다.


이상의 두 가지 사례를 통해, 본 사례 연구는 제안된 LLM 기반 증강 기법이 어려운 데이터(hard data)에 대응하고 의미 정보를 강화하는 데 있어 실질적인 효과를 가짐을 보여준다. 이는 문제 영역에 대한 보다 견고하고 포괄적인 이해로 이어지며, 다양한 환경에서의 머신러닝 모델 성능 향상에 기여한다.

5. Related Works

환자-임상시험 매칭 (Patient Trial Matching)

기존의 환자-임상시험 매칭 기법은 **규칙 기반 시스템(rule-based systems)**과 **심층 임베딩 기반 모델(deep embedding-based models)**로 분류할 수 있다.
규칙 기반 시스템은 임상시험의 적격 기준(ECs)에서 명명된 개체(named entities)와 관계를 추출하고, 환자 식별을 위한 규칙을 설계하는 방식이다. 대표적으로,

  • EliXR [27]와 같이 대규모 수작업 주석(human annotation)을 기반으로 하거나,
  • 규칙 추출을 위한 지도 학습 분류기 [28],
  • 머신러닝과 규칙 기반 접근법을 결합한 Criteria2Query [29] 등이 있다.

최근에는, 환자 기록과 임상시험의 적격 기준을 **공유된 잠재 공간(shared latent space)**에 공동 임베딩하고, **주의 기반 추론(attentive inference)**을 통해 정렬하는 심층 임베딩 기반 모델들이 등장하였다.
대표적으로는 DeepEnroll [6]이 있으며, COMPOSE [5]는 포함 기준과 제외 기준을 구분하는 정교한 모델 구조를 적용한 최신 기법으로 평가받는다.
본 연구에서는 COMPOSE를 베이스라인 모델 구조로 채택하였다.


데이터 증강 (Data Augmentation)

자연어처리(NLP)에서 데이터 증강 기법은 문자, 단어, 문장, 문서 수준에서 동작한다.

  • 문자 수준 기법은 무작위 삽입, 교환, 대체, 삭제 등을 포함하며, 텍스트 노이즈에 대한 모델의 견고성을 향상시킨다 [30, 31].
  • 단어 수준 기법은 단어 교환, 삭제 [22], 유의어 대체 [32], 임베딩 기반 증강 [33, 34] 등을 통해 의미적 일관성을 유지하면서 분류 성능을 개선한다.
  • **문맥 기반 증강(contextual augmentation)**은 BERT [16], RoBERTa [35]와 같은 마스킹 언어 모델(MLM)을 사용하여 의미적으로 적절한 텍스트를 생성한다 [36].
  • 문장 및 문서 수준에서는 역번역(back translation) 기법이 널리 사용된다 [25].

환자-임상시험 매칭 역시 훈련 데이터 확보에 어려움을 겪고 있으며, 본 연구는 LLM을 활용한 데이터 증강고품질 데이터 획득에 효과적임을 실증하였다.

6. Conclusion

본 연구는 환자 개인정보를 보호하면서 환자-임상시험 매칭 성능을 향상시키기 위한 새로운 데이터 증강 기법인 LLM-PTM을 설계하고 구현하였다.
LLM의 언어적 능력을 활용한 본 증강 기법은 다음과 같은 성과를 입증하였다:

  • 기존 베이스라인 모델 대비 평균 7.32%의 성능 향상
  • 새로운 데이터셋에 대한 적용 시 12.12%의 일반화 성능 개선

이러한 결과는 LLM 기반 데이터 증강 기법이 환자-임상시험 매칭 파이프라인에서 효과적으로 작동함을 시사하며, 이 방법이 임상시험의 성공률을 높이고 신약 개발 과정을 가속화하는 데 기여할 수 있는 가능성을 보여준다.

더 나아가, 본 연구는 LLM-PTM 기법이 의료 분야의 다른 영역에도 확장 적용될 수 있는 가능성을 열었으며, 데이터 기반 의사결정 프로세스를 최적화하는 미래 연구의 방향을 제시하였다.

 

7. 사견

해당 논문도, Text 데이터가 보유된 상태에서 augmentation 수행.

비슷하게 ESG 영역에서 적용해 볼 수 있을 듯.