μ„œλ‘ 


인곡지λŠ₯(Artificial Intelligence) λͺ¨λΈμ΄ ν˜„μ‹€μ— λ„μž…λ  λ•Œμ—λŠ” β€˜λŒ€μ²΄λ‘œβ€™ 잘 μž‘λ™ν•˜λŠ” 것은 였히렀 μ΅œμ†Œ 쑰건이 λ©λ‹ˆλ‹€. 였히렀, μš°λ¦¬κ°€ ν•΄λ‹Ή λͺ¨λΈμ„ μ‹ λ’°ν•  수 μžˆλŠ”μ§€κ°€ μ€‘μš”ν•΄μ§‘λ‹ˆλ‹€. μ„€λͺ…μ„±(Explainability)μ΄λž€ β€œμΈκ³΅μ§€λŠ₯이 μžμ‹ μ΄ 내놓은 결과에 λŒ€ν•΄ μ‚¬λžŒμ—κ²Œ μΆ©λΆ„νžˆ μ„€λͺ…ν•  수 μžˆλŠ”κ°€?”λ₯Ό μ˜λ―Έν•©λ‹ˆλ‹€. 인곡지λŠ₯ 기술의 투λͺ…μ„± λ“± 인곡지λŠ₯ 핡심 κ·œμ œλ“€μ„ λ‹¬μ„±ν•˜κ³  관리 κ°λ…ν•˜λŠ” 데에 λ‹¬μ„±λ˜μ–΄μ•Όν•  μš”μ†Œμž…λ‹ˆλ‹€.

β€œAre Self-Attentions Effective for Time Series Forecasting?” [Paper, Repo] 은 인곡지λŠ₯ 졜우수 ν•™νšŒμΈ NeurIPS 2024μ—μ„œ λ°œν‘œλœ λ³Έ μ—°κ΅¬μ‹€μ˜ 논문이며, λ³Έ κΈ€μ—μ„œλŠ” 기본적인 μ„€λͺ…성에 λŒ€ν•œ κ°œλ…κ³Ό λ…Όλ¬Έ λ‚΄μš©μ„ μ•Œμ•„λ³΄κ³ μž ν•©λ‹ˆλ‹€.

사전 지식


λΈ”λž™λ°•μŠ€(Black-box)

인곡지λŠ₯은 λ‹€μ–‘ν•œ λΆ„μ•Όμ—μ„œ 높은 μ„±λŠ₯을 λ³΄μ—¬μ£Όμ§€λ§Œ, ν•œ 가지 문제점이 μ‘΄μž¬ν•©λ‹ˆλ‹€. λ°”λ‘œ λΈ”λž™λ°•μŠ€(Black-box) μ„±μ§ˆμž…λ‹ˆλ‹€. λΈ”λž™λ°•μŠ€λž€ 인곡지λŠ₯ λͺ¨λΈ, 특히 λ”₯λŸ¬λ‹ λͺ¨λΈμ˜ λ‚΄λΆ€ μž‘λ™ 방식을 μ΄ν•΄ν•˜κ±°λ‚˜ μ„€λͺ…ν•˜κΈ° μ–΄λ €μš΄ νŠΉμ„±μ„ λ‚˜νƒ€λ‚΄λŠ” μš©μ–΄μž…λ‹ˆλ‹€. μ΄λŠ” 인곡지λŠ₯의 λ§Žμ€ λ§€κ°œλ³€μˆ˜(Parameter) 및 ꡬ쑰적 λ³΅μž‘μ„±μœΌλ‘œ 인해 λ°œμƒν•©λ‹ˆλ‹€.

λΈ”λž™λ°•μŠ€(Black-box): 좜λ ₯(Outputs)이 μž…λ ₯(Inputs)μœΌλ‘œλΆ€ν„° μ–΄λ–»κ²Œ λ„μΆœλ˜μ—ˆλŠ”μ§€ λͺ…ν™•ν•˜κ²Œ μ•ŒκΈ° μ–΄λ €μš΄ 경우

μ΄λŸ¬ν•œ 인곡지λŠ₯의 λΈ”λž™λ°•μŠ€λ₯Ό κ·Ήλ³΅ν•˜κ³ μžν•˜λŠ” 연ꡬ λΆ„μ•Όλ₯Ό μ„€λͺ… κ°€λŠ₯ν•œ AI (Explainable AI, XAI)라고 ν•©λ‹ˆλ‹€. μ„€λͺ… κ°€λŠ₯ν•œ AIλŠ” 인곡지λŠ₯의 μ„€λͺ…μ„±(Explainability)λ₯Ό λ†’μ—¬, 인곡지λŠ₯이 결정을 λ‚΄λ¦¬λŠ” 과정을 보닀 투λͺ…ν•˜κ²Œ λ§Œλ“€μ–΄ μ‚¬λžŒλ“€μ—κ²Œ μ‹ λ’°λ₯Ό 쀄 수 μžˆλŠ” 것을 λͺ©ν‘œλ‘œ ν•©λ‹ˆλ‹€. XAI κ΄€λ ¨ μ—°κ΅¬λŠ” 크게 두 μ ‘κ·Ό λ°©λ²•μœΌλ‘œ λ‚˜λˆŒ 수 μžˆμŠ΅λ‹ˆλ‹€.

사후 μ„€λͺ…법 vs. λ‚΄μž¬ μ„€λͺ…법

사후 μ„€λͺ…법(Post-hoc method)은 λͺ¨λΈμ΄ ν›ˆλ ¨λœ 후에 κ·Έ κ²°κ³Όλ₯Ό ν•΄μ„ν•˜κΈ° μœ„ν•΄ λ³„λ„μ˜ μ„€λͺ… 기법을 μ μš©ν•˜λŠ” λ°©μ‹μž…λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, λ³΅μž‘ν•œ λ”₯λŸ¬λ‹ λͺ¨λΈμ„ μš°μ„  ν•™μŠ΅μ‹œν‚¨ ν›„, 예츑 κ²°κ³Όλ₯Ό μ„€λͺ…ν•˜κΈ° μœ„ν•΄ 해석 기술(LIME, SHAP)을 μ μš©ν•©λ‹ˆλ‹€.

사후 μ„€λͺ…법을 κ°€λŠ₯μΌ€ν•˜λŠ” 해석 기술 쀑 λŒ€ν‘œ μ˜ˆμ‹œλ‘œλŠ” LIME(Local Interpretable Model-agnostic Explanations)이 μ‘΄μž¬ν•©λ‹ˆλ‹€. LIME은 원본 개ꡬ리(Frog) 이미지가 있고, ν•™μŠ΅λœ λΈ”λž™λ°•μŠ€ λͺ¨λΈ(Trained black-box AI Model)이 μžˆμ„ λ•Œ, LIME은 β€œμ›λ³Έ 개ꡬ리 쀑 μ–΄λŠ 뢀뢄이 κ°€μž₯ ν•΅μ‹¬μ μ΄μ—ˆλŠ”κ°€?” μ°Ύμ•„λ‚΄λŠ” λ°©λ²•μž…λ‹ˆλ‹€. ν•™μŠ΅λœ λΈ”λž™λ°•μŠ€ λͺ¨λΈμ— νŠΉμ • 뢀뢄을 κ°€λ¦°(Masking)ν•œ 사진듀을 넣은 ν›„, λŒ€μ‘λ˜λŠ” ν™•λ₯ κ°’을 λ°”νƒ•μœΌλ‘œ κ°€μž₯ μœ μ˜λ―Έν•œ 뢀뢄을 μ°Ύμ•„λƒ…λ‹ˆλ‹€.

LIME(Local Interpretable Model-agnostic Explanations)

그에 λ°˜ν•΄ λ‚΄μž¬ μ„€λͺ…법(Intrinsic method)은 λͺ¨λΈ 자체λ₯Ό 본질적으둜 μ„€λͺ… κ°€λŠ₯ν•˜κ²Œ κ΅¬ν˜„ν•œ λ°©λ²•μž…λ‹ˆλ‹€. ν•΄λ‹Ή λͺ¨λΈλ“€μ€ λ³„λ„μ˜ 해석 κΈ°μˆ μ„ ν•„μš”λ‘œ ν•˜μ§€ μ•Šκ³  ν•™μŠ΅λœ μƒνƒœ κ·ΈλŒ€λ‘œ 예츑 κ²°κ³Όλ₯Ό μ‰½κ²Œ 해석할 수 μžˆμŠ΅λ‹ˆλ‹€. 인곡지λŠ₯ λͺ¨λΈ 쀑 μ„ ν˜• νšŒκ·€(Linear regression), κ²°μ • λ‚˜λ¬΄(Decision tree) 등이 이에 ν•΄λ‹Ήλ˜λ©°, 이듀 λͺ¨λΈμ€ 산점도와 ν•¨κ»˜ κ·Έλ¦¬κ±°λ‚˜ λͺ¨λΈ 자체λ₯Ό μ‹œκ°ν™”ν•˜μ—¬ 해석할 수 μžˆμŠ΅λ‹ˆλ‹€.

μ„ ν˜• νšŒκ·€(μ™Όμͺ½)κ³Ό κ²°μ • λ‚˜λ¬΄(였λ₯Έμͺ½)은 μ‹œκ°ν™”λ₯Ό 톡해 μ‰½κ²Œ 해석 κ°€λŠ₯ν•˜λ‹€

높은 μ„±λŠ₯을 λ‹¬μ„±ν•˜λŠ” λ”₯λŸ¬λ‹ λͺ¨λΈλ“€μ€ μ„ ν˜• νšŒκ·€λ‚˜ κ²°μ • λ‚˜λ¬΄μ™€λŠ” λ‹€λ₯΄κ²Œ λ³΅μž‘ν•œ ꡬ쑰λ₯Ό 가지고 μžˆμ–΄ λ‚΄μž¬ μ„€λͺ…λ²•λ³΄λ‹€λŠ” 사후 μ„€λͺ…법이 주둜 μ‚¬μš©λ˜μ–΄ μ™”μŠ΅λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜, 졜근 연ꡬ듀은 λ”₯λŸ¬λ‹ λͺ¨λΈμ— 사후 μ„€λͺ…법을 μ μš©ν•˜λŠ” 것이 λΆ€μ •ν™•ν•  수 μžˆλ‹€λŠ” 것을 ν™•μΈν–ˆμŠ΅λ‹ˆλ‹€.

"SaliencyλŠ” λ”₯λŸ¬λ‹ λͺ¨λΈμ΄ μ–΄λ””λ₯Ό λ³΄λŠ”μ§€ μ•Œλ €μ€„ 뿐 정닡에 λŒ€ν•œ μ •λ³΄λŠ” μ œκ³΅ν•˜μ§€ μ•ŠλŠ”λ‹€" - Rudin, Cynthia. "Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead." Nature machine intelligence 1.5 (2019): 206-215.

이에 일련의 연ꡬ듀은 λ”₯λŸ¬λ‹ λͺ¨λΈμ˜ ꡬ쑰(Architecture)λ₯Ό λ°”κΏˆμœΌλ‘œμ¨ μ„€λͺ…성을 λ†’μ΄λŠ” 방법듀을 μ œμ•ˆν–ˆμŠ΅λ‹ˆλ‹€. κ΄€λ ¨ 연ꡬ듀은 Generalized Additive Model (GAM)을 ν™œμš©ν•˜κ±°λ‚˜ 트랜슀포머(Transformer)의 μ–΄ν…μ…˜(Attention)을 ν™œμš©ν•˜μ—¬ λ”₯λŸ¬λ‹μ˜ μ„€λͺ…λ ₯을 λ†’μ˜€μŠ΅λ‹ˆλ‹€. μ•„λž˜ 논문은 트랜슀포머(Transformer)의 ꡬ쑰적 변경이 해석λ ₯을 크게 μ¦λŒ€μ‹œν‚¬ 수 μžˆμŒμ„ λ°œκ²¬ν•˜κΈ°λ„ ν–ˆμŠ΅λ‹ˆλ‹€.

Darcet, TimothΓ©e, et al. "Vision Transformers Need Registers." The Twelfth International Conference on Learning Representations.

λ³Έλ‘ 


λ³Έ 논문은 μ„ ν–‰ 연ꡬ에 이어 μ‹œκ³„μ—΄ 예츑(Time-series Forecasting) λΆ„μ•Όμ—μ„œ μ–΄ν…μ…˜(Attetion), 특히 μ…€ν”„ μ–΄ν…μ…˜(Self-attention)이 κ°€μ§€λŠ” 해석적/μ„±λŠ₯적 μ˜μ˜μ— λŒ€ν•΄ λΆ„μ„ν•˜κ³ μž ν–ˆμŠ΅λ‹ˆλ‹€. 이λ₯Ό μœ„ν•΄ 널리 μ‚¬μš©λ˜λŠ” μ‹œκ³„μ—΄ λͺ¨λΈ, PatchTST의 μ…€ν”„ μ–΄ν…μ…˜ 뢀뢄을 λΆ„μ„ν•˜μ˜€μŠ΅λ‹ˆλ‹€.

μ‹œκ³„μ—΄ λͺ¨λΈ(PatchTST)의 (μ™Όμͺ½) κΈ°μ‘΄ μ…€ν”„ μ–΄ν…μ…˜μ„ κ·ΈλŒ€λ‘œ μ‚¬μš©ν–ˆμ„ λ•Œ, (였λ₯Έμͺ½) κΈ°μ‘΄ μ…€ν”„ μ–΄ν…μ…˜μ— λ‹¨μˆœ μ„ ν˜• λͺ¨λΈλ‘œ λŒ€μ²΄ν–ˆμ„ λ•Œμ˜ μ‹œκ°ν™”

μœ„ κ²°κ³ΌλŠ” κΈ°μ‘΄ μ…€ν”„ μ–΄ν…μ…˜μ„ μ‚¬μš©ν–ˆμ„ λ•Œμ—λŠ” 흐리게(Blur) λ‚˜μ˜€λ˜ μž…λ ₯κ°’κ³Ό 좜λ ₯κ°’μ˜ 관계가 였히렀 μ…€ν”„ μ–΄ν…μ…˜μ„ λ‹¨μˆœ μ„ ν˜• λ„€νŠΈμ›Œν¬(Linear network)둜 λŒ€μ²΄ν•˜μ˜€μ„ λ•Œ 더 λšœλ ·ν•΄μ§€λŠ” ν˜„μƒμ„ λ³΄μ—¬μ€λ‹ˆλ‹€. 즉, μ‹œκ°„μ  정보(Temporal information)λ₯Ό ν•΄μ„ν•˜λŠ” 데에 μžˆμ–΄ μ…€ν”„ μ–΄ν…μ…˜μ΄ λ‹¨μˆœ μ„ ν˜• λ„€νŠΈμ›Œν¬λ³΄λ‹€ 쒋지 μ•Šμ„ 수 μžˆλ‹€λŠ” κ²ƒμž…λ‹ˆλ‹€. μ„±λŠ₯적인 μΈ‘λ©΄μ—μ„œλ„ μ…€ν”„ μ–΄ν…μ…˜μ€ λ‹¨μˆœ μ„ ν˜• λ„€νŠΈμ›Œν¬λ₯Ό μ‚¬μš©ν–ˆμ„ λ•Œλ³΄λ‹€ μœ μ˜λ―Έν•œ μ„±λŠ₯ 차이λ₯Ό 보이지 λͺ»ν–ˆμœΌλ©°, 였히렀 κ°μ†Œν•œ μ„±λŠ₯을 보이기도 ν–ˆμŠ΅λ‹ˆλ‹€.

μ΄λŸ¬ν•œ κ΄€μ°° 결과와 λ‹¨μˆœ μ„ ν˜• λ„€νŠΈμ›Œν¬ 기반의 μ„ ν–‰ 연ꡬλ₯Ό 기반으둜, μ…€ν”„ μ–΄ν…μ…˜μ΄ μ•„λ‹Œ 크둜슀 μ–΄ν…μ…˜(Cross-attention)이 μ‹œκ°„μ  정보 뢄석 λ“± μ‹œκ³„μ—΄ μ˜ˆμΈ‘μ—μ„œ μ—¬λŸ¬ μž₯점을 κ°€μ§ˆ 수 μžˆμŒμ„ κ²°λ‘ μ§€μ—ˆμŠ΅λ‹ˆλ‹€.

λ³Έ λ…Όλ¬Έμ—μ„œ μ œμ•ˆλœ λͺ¨λΈ(d)κ³Ό 이전 λͺ¨λΈλ“€(a-c)의 비ꡐ

μ œμ•ˆλœ 크둜슀 μ–΄ν…μ…˜ 기반의 λͺ¨λΈ(CATS)λ₯Ό λ°”νƒ•μœΌλ‘œ λ³Έ 연ꡬ진은 적은 λ§€κ°œλ³€μˆ˜λ§ŒμœΌλ‘œλ„ 높은 μ„±λŠ₯을 달성할 수 μžˆμ—ˆμœΌλ©°, μ΄λŠ” κΈ°μ‘΄ SOTA(State of the art) λͺ¨λΈ λŒ€λΉ„ λ›°μ–΄λ‚œ μ„±λŠ₯을 λ³΄μ—¬μ£Όμ—ˆμŠ΅λ‹ˆλ‹€. λ‚˜μ•„κ°€, μ œμ•ˆλœ 크둜슀 μ–΄ν…μ…˜ 기반의 λͺ¨λΈ(CATS)은 ν•΄μ„ν•˜κΈ° μ‰¬μš΄ κ²°κ³Όλ₯Ό μ œκ³΅ν•˜μ˜€μŠ΅λ‹ˆλ‹€. μ•„λž˜ 그림처럼 μž…λ ₯ μ‹œκ³„μ—΄μ˜ 주기적 νŒ¨ν„΄(Periodic Pattern)을 μ •ν™•νžˆ μž‘μ•„λ‚΄μ—ˆμœΌλ©°, μΆ”κ°€μ μœΌλ‘œ 좩격(Shock)κΉŒμ§€λ„ ν¬μ°©ν•˜λŠ” λͺ¨μŠ΅μ„ λ³΄μ—¬μ£Όμ—ˆμŠ΅λ‹ˆλ‹€.

λ³Έ λ…Όλ¬Έμ—μ„œ μ œμ•ˆλœ λͺ¨λΈ(Ours) 및 이전 SOTA λͺ¨λΈλ“€μ˜ 비ꡐ (xμΆ•: μž…λ ₯ μ‹œκ³„μ—΄ 길이, yμΆ•: 예츑 μ„±λŠ₯)
μ œμ•ˆλœ λͺ¨λΈμ˜ 크둜슀 μ–΄ν…μ…˜(Cross-attention) 뢄석

κ²°λ‘ 


μ„€λͺ…성은 인곡지λŠ₯의 μ‹ λ’°μ„± λΆ€λ¬Έμ—μ„œ 핡심 κ°œλ… 쀑 ν•˜λ‚˜μž…λ‹ˆλ‹€. λͺ¨λΈμ˜ μ„€λͺ…성을 λ†’μ΄λŠ” 것은 인곡지λŠ₯이 μ‚¬λžŒμ΄ μ˜λ„ν•œ λŒ€λ‘œ μž‘λ™ν•˜κ³  μžˆλŠ”μ§€, 편ν–₯은 μ—†λŠ”μ§€ ν™•μΈν•˜λŠ” 데 ν•„μˆ˜μ μž…λ‹ˆλ‹€. μ„€λͺ…성은 인곡지λŠ₯ λͺ¨λΈμ΄ λ‚΄λ¦° 결정이 μ–΄λ–»κ²Œ λ„μΆœλ˜μ—ˆλŠ”μ§€ μ΄ν•΄ν•˜κ³  λΆ„μ„ν•˜λŠ” λŠ₯λ ₯을 μ œκ³΅ν•¨μœΌλ‘œμ¨, μ‹œμŠ€ν…œμ˜ 투λͺ…성을 높이고 신뒰성을 κ°•ν™”ν•©λ‹ˆλ‹€. μ…€ν”„ μ–΄ν…μ…˜κ³Ό 크둜슀 μ–΄ν…μ…˜μ— λŒ€ν•œ λ³Έ λ…Όλ¬Έμ˜ 발견이 λͺ¨λΈμ˜ μ„€λͺ… κ°€λŠ₯μ„± λΆ„μ•Ό λ°œμ „μ— κΈ°μ—¬ν•˜κΈΈ λ°”λžλ‹ˆλ‹€.

κ΄€λ ¨ 연ꡬ싀 λ…Όλ¬Έ

  • Outside the (Black) Box: Explaining Risk Premium via Interpretable Machine Learning [Under Review] | [Paper]
  • Fair sampling in diffusion models through switching mechanism [AAAI 2024] | [Paper] | [Code]