EMNLP 2023 main paper
Tobias Schimanski1 Julia Bingler2,3 Camilla Hyslop2,4 Mathias Kraus5 Markus Leippold2, 6 1University of Zurich 2University of Oxford 3Council on Economic Policies 4Net Zero Tracker 5FAU Erlangen-Nürnberg 6Swiss Finance Institute (SFI)
paper: https://arxiv.org/abs/2310.08096
Model and data are available on
https://huggingface.co/climatebert/netzero-reduction
Abstract
다양한 기관에서 제공하는 sustainability commitments에 대한 방대한 양의 정보를 평가하는데 어려움. 이 문제를 해결하기 위해 기업, 국가, 지역의 net zero 및 reduction targets를 자동으로 detecting 하는 tool을 만듬. 먼저 3.5k 개 데이터 셋 생성, 텍스트에 net zero 및 reduction targets가 포함되어 있는지 여부를 detecting 하는 ClimateBERT-NetZero를 훈련, ClimateBERT-NetZero가 기존 QA 모델과 결합하여 net zero 및 reduction targets에 표시된 ambition (야망?, 계획이 적절)을 분석할 수 있는 방법을 보여줌. 그리고 분기별 earning call에 Netzero 모델을 활용해서 시간이 지남에 따라 커뮤니케이션 패턴이 어떻게 변화하는지 보여줌. Net zero 및 reduction target을 대규모로 추출하고 분석하기 위한 유망한 way를 보여줌.
Introduction
지구 온난화를 제한하려면 배출 감소를 위한 노력이 필요. 결과적으로 민간 및 공공 기관은 점점 더 많은 Net zero 및 reduction target를 도입, 전달 또는 업데이트함. NLP를 통해 대량의 텍스트 데이터를 자동 평가 및 통찰력을 얻을 수 있음. 이전 연구 중 에는 Net zero 및 reduction target 정보 추출을 연구한 적 없음.
해결책으로 다양한 소스로부터 Net zero 및 reduction target 정보를 자동 추출 및 평가하는 도구를 만들어 기후 변화와 NLP의 교차점에서 contributions를 제공.
1) Net Zero Tracker 프로젝트를 기반으로 3.5k 텍스트 샘플이 포함된 experts annotation dataset 구축
2) 상대적으로 에너지 집약도가 낮은 NLP 모델인 ClimateBERT-Netzero 개발 및 publish, 모델은 텍스트 샘플에서 Net zero 및 reduction target 분류 가능.
3) 두 가지 use cased 제공. 모델 기능 확장 및 Net zero 및 reduction target 분석 방법 제시하고, 2003년 부터 2022년까지 기업의 earning call 기록에서 Net zero 및 reduction target 출현 분석.
연구의 의미는 실무, 연구 모드 중요. Net zero 및 reduction target 분석은 transition plans를 이해하고 실행하는 데 중요함. 대규모로 작동 가능하기에 데이터 접근성에 대한 장벽을 낮춤. 기업이 약속에 책임을 지도록 하고 잠재적인 greenwashing 패턴을 분석하기 위해서는 추가 연구가 필요하다는 것을 인정함. 저자의 연구는 'zero tolerance for net zero greenwashing' (넷제로 그린워싱에 대한 무관용?)을 향한 중요한 첫 번째 단계를 제시.
Data
raw 데이터는 New Zero Tracker 프로젝트에서 얻으며, Net Zero Tracker는 Net zero 및 reduction target 또는 유사한 목표( 기후 중립 등) 에 대한 목표를 평가. Reduction target은 배출량의 절대적 또는 상대적 감소를 언급하는 주장으로, 감축 목표를 비교하는 기준 연도를 동반함. Net Zero는 기관이 특정 연도까지 추가 순 배출량이 없는 수준으로 배출 균형을 낮추도록 명시하는 특별한 경우를 나타냄.
데이터셋은 3.5k 크기로 구성. Net Zero, Reduction, no target 3가지 classification task. Net zero 및 reduction target은 Net Zero Tracker에서 수집된 claims를 추가로 처리. 필요한 경우 텍스트 샘플을 직접 확인하여 Net Zero Tracker를 통해 사전 할당된 라벨 수정. 또한 다양한 no target 텍스트 샘플을 활용하여 데이터 향상 (기후 영역의 데이터셋).
Dataset
여러 방법으로 raw data를 변환. Net Zero Tracker는 Net zero 및 reduction target의 일반적인 분류를 따르긴 하지만 보다 세분화된 부류를 사용. 예를 들어 Net Zero는 zero carbon, climate neutral, net negative 등이 있는데, 논문에서는 두 가지 카테고리로 집계. 또한 5 단어 미만 문장, URL, 특수 문자를 제거하는 전처리를 하는데 전처리 단계는 데이터 특성에 미미한 변화만을 가져옴. 전체 데이터셋은 97개 샘플만큼 감소.
이후 텍스트 샘플의 라벨을 직접 확인하는 절차를 거침. Net Zero Tracker 프로젝트의 전문가가 이미 할당해 놓은 레이블이 있지만, 직접 확인하여 유효성을 높임. 필요한 경우 라벨을 수정하거나 일치하지 않거나 의미가 없는 텍스트 샘플은 제거. 각 테스트 샘플은 최소 한명의 작성자가 직접 확인. 레이블이 Net Zero Tracker의 전문가와 다른 것으로 확인되면 팀에서 결정을 표시하고 결정.
따라서 Net Zero Tracker의 전문가의 라벨링과, 논문 저자 팀이 할당한 레이블 두개의 레이블을 만듦.
Annotation rule
Reduction target : 배출량의 절대적 또는 상대적 감소를 언급하는 주장으로, 종종 감축 목표를 비교하는 기준 연도를 동반
Net Zero target: 기관이 특정 연도까지 추가 순 배출량이 없는 수준으로 배출 균형을 낮추도록 명시하는 감축 목표의 특별한 경우
두 대상이 모두 본문에 나타나면 본문의 주요 초점이 결정적.
예를 들어, 대부분의 Redcution target는 Net Zero라는 최종 목표를 위한 중간 단계 역할을 함. 따라서 이러한 경우 초점은 Net Zero.
그리고 인간 참여형 검증 프로세스를 사용하여 데이터의 유효성을 강화.
데이터셋 전체에 baseline ClimateBERT와 함께 5-fold cross validation을 사용하고 각 fold에서 잘못 분류된 샘플을 저장.
데이터로 모델을 훈련하는 동시에 훈련 프로세스 내에서 잘못 식별된 샘플을 저장할 수 있음.
이후 사람이 잘못된 분류를 확인하고 필요한 경우 레이블을 재조정. 이런 식으로 모델을 활용하여 극단적인 경우를 식별하고 필요한 경우 인간이 개입하도록 함. 이러한 인간 참여형 검증을 세 번 반복.
No target samples
No target 텍스트 샘플의 경우 기후 영역에서 사용 가능한 데이터셋 활용.
균형 잡힌 데이터셋을 생성하여 모델의 일반화 가능성을 높이는 것을 목표로 함. 모델이 기후 영역에서 목표와 일반 문장 간의 구체적인 차별화를 학습하려면 목표가 아닌 기후 관련 샘플을 포함하는 것이 중요.
또한 이러한 데이터셋을 활용하면 기후와 관련이 없는 일반적인 문장도 포함할 수 있음.
위의 데이터셋과 동일한 절차를 따름.
Model & Experiments
성능이 효과적이면서 리소스 사용 면에서도 효율적인 모델 훈련에 중점을 둠.
fine tuning을 위한 기본 모델로 ClimateBERT 활용. ClimateBERT는 리소스가 적은 DistilRoBERTa를 기반으로 하며, 기후 관련 언어의 대규모 텍스트에 대해 추가 사전 훈련되었음.
데이터셋을 활용하여 ClimateBERT를 finetuning 하고, 이 모델을 ClimateBERT-NetZero라고 함.
기본 아키텍처 DistilRoBERTa, 더 큰 모델인 RoBERTa, GPT-3.5-turbo와 비교.
실제 환경에서 ClimateBERT-NetZero의 성능을 추가로 평가하기 위해 지속 가능성 보고서에서 샘플링한 300개 문장에 대한 모델 출력을 점검. 모델이 98%를 올바르게 분류하는 것을 확인. (climate:4 NetZero: 25 Redcution: 34 notarget: 237)
또한 Net Zero는 Reduction target의 특별한 경우 이므로 ClimateBERT-Reduction이라는 일반 감축 목표(Net Zero, Reduction target 통합)와 no target을 분류하는 이진 분류 모델도 생성. 분류 결과 98% 정확도.
Use Cases
Measure Ambitions with QA Models
NetZero claims의 경우 ambitions의 기본 척도는 해당 기관이 NetZero 달성을 원하는 연도를 기준으로 함.
Reduction claims의 경우 Redcution target 목표 연도, 기관이 배출량을 줄이기 원하는 비율, Reduction 측정되는 기준 연도를 사용.
NetZero 및 Reduction claims의 ambitions를 평가하기 위해 QA 모델 (Roberta-base-squad2)를 사용.
텍스트 샘플에 제기된 질문에 대한 간결한 답변을 제공.
NetZero 및 Reduction claims의 ambitions에 대한 관련 정보를 추출하기 위해 질문을 만듦.
Net Zero Tracker 프로젝트에서 수집한 데이터를 사용. 데이터셋에서는 연구된 ambtions의 각 차원 (4 task)에 대해 인간이 추출한 데이터가 포함됨. ambitions를 테스트하기 위해 750개의 텍스트 샘플을 전처리하고 직접 확인함.
텍스트 샘플에 대해 QA 모델 실행. 모델은 일반적으로 단일 숫자를 출력. 얼마나 많은 답변에 올바른 숫자가 포함되어 있는지 확인하여 모델의 정확성을 평가함.
각 결과를 3단계로 보여줌. (raw, optimal confidence-tuned)
raw data는 text sample 그대로,
optimal은 텍스트에 실제로 우리가 검색하고 싶은 정보가 포함된 경우에만 대상 텍스트가 포함되도록 데이터셋을 줄임. confidence-tuned은 raw data를 활용, QA 모델의 confidence를 활용하여 성능을 향상. 위의 표는 0.3의 confidence를 사용하여 결과를 보고함.
신뢰도를 최적화하는 것은 정확성을 높이는 것과 확신에 찬 결정을 내릴 수 있는 많은 양의 데이터를 보존하는 것 사이의 균형을 나타냄..? (모델 신뢰도가 증가하면 모델 정확도가 주로 증가합니다. 동시에 모델이 신뢰할 수 있는 샘플 수가 적기 때문에 데이터 세트의 크기가 줄어듭니다.)
Detection Net Zero and Reduction Targets in Earning Call Transcripts
2003년부터 2022년까지 미국 상장 기업의 분기별 earning call 기록에 ClimateBERT-NetZero를 사용.
일 년의 모든 분기를 평균하여 연간 지수를 구성. Net Zero는 2019년 이후 급격한 증가.
Conclusions
텍스트 데이터에서 Net Zero 및 Reduction target을 detect 하는 ClimateBERT-NetZero 모델을 개발. 3.5K 크기의 데이터셋을 개발하였으며, target의 ambtions를 평가하고 earning call 기록을 분류하여 분석 잠재력을 입증.
데이터셋 크기가 제한적이지만, 일반화는 낮아질 수 있지만 성능은 높은 수준에 있음.
주로 BERT 계열 모델에 중점을 둠. 더 작은 크기의 접근 가능한 모델을 활용하기 위해 LLaMa와 같은 LLM을 사용하지 않음.
내 생각
Applications 논문에 적합한 논문임. 나의 ESG 논문과 많이 닮아 있음.
Applications 논문은 method 논문 보다 더 설득력 있게 작성되어야 하며, 리뷰한 논문도 사실 새로운 방법론은 없지만 중요한 domain에 대한 논문이라는 점과 필요성을 잘 설명해서 accept 된 것 같음.
분명 실험에서 석연찮은 부분이 있지만, applications 논문을 작성하게 된다면, use cases부분을 강조해서 적으면 더 좋은 논문이 될 것 같음.