μλ‘
μΈκ³΅μ§λ₯(Artificial Intelligence) λͺ¨λΈμ΄ νμ€μ λμ λ λμλ βλ체λ‘β μ μλνλ κ²μ μ€νλ € μ΅μ μ‘°κ±΄μ΄ λ©λλ€. μ€νλ €, μ°λ¦¬κ° ν΄λΉ λͺ¨λΈμ μ λ’°ν μ μλμ§κ° μ€μν΄μ§λλ€. μ€λͺ μ±(Explainability)μ΄λ βμΈκ³΅μ§λ₯μ΄ μμ μ΄ λ΄λμ κ²°κ³Όμ λν΄ μ¬λμκ² μΆ©λΆν μ€λͺ ν μ μλκ°?βλ₯Ό μλ―Έν©λλ€. μΈκ³΅μ§λ₯ κΈ°μ μ ν¬λͺ μ± λ± μΈκ³΅μ§λ₯ ν΅μ¬ κ·μ λ€μ λ¬μ±νκ³ κ΄λ¦¬ κ°λ νλ λ°μ λ¬μ±λμ΄μΌν μμμ λλ€.
βAre Self-Attentions Effective for Time Series Forecasting?β [Paper, Repo] μ μΈκ³΅μ§λ₯ μ΅μ°μ ννμΈ NeurIPS 2024μμ λ°νλ λ³Έ μ°κ΅¬μ€μ λ Όλ¬Έμ΄λ©°, λ³Έ κΈμμλ κΈ°λ³Έμ μΈ μ€λͺ μ±μ λν κ°λ κ³Ό λ Όλ¬Έ λ΄μ©μ μμλ³΄κ³ μ ν©λλ€.
μ¬μ μ§μ
λΈλλ°μ€(Black-box)
μΈκ³΅μ§λ₯μ λ€μν λΆμΌμμ λμ μ±λ₯μ 보μ¬μ£Όμ§λ§, ν κ°μ§ λ¬Έμ μ μ΄ μ‘΄μ¬ν©λλ€. λ°λ‘ λΈλλ°μ€(Black-box) μ±μ§μ λλ€. λΈλλ°μ€λ μΈκ³΅μ§λ₯ λͺ¨λΈ, νΉν λ₯λ¬λ λͺ¨λΈμ λ΄λΆ μλ λ°©μμ μ΄ν΄νκ±°λ μ€λͺ νκΈ° μ΄λ €μ΄ νΉμ±μ λνλ΄λ μ©μ΄μ λλ€. μ΄λ μΈκ³΅μ§λ₯μ λ§μ 맀κ°λ³μ(Parameter) λ° κ΅¬μ‘°μ 볡μ‘μ±μΌλ‘ μΈν΄ λ°μν©λλ€.
μ΄λ¬ν μΈκ³΅μ§λ₯μ λΈλλ°μ€λ₯Ό 극볡νκ³ μνλ μ°κ΅¬ λΆμΌλ₯Ό μ€λͺ κ°λ₯ν AI (Explainable AI, XAI)λΌκ³ ν©λλ€. μ€λͺ κ°λ₯ν AIλ μΈκ³΅μ§λ₯μ μ€λͺ μ±(Explainability)λ₯Ό λμ¬, μΈκ³΅μ§λ₯μ΄ κ²°μ μ λ΄λ¦¬λ κ³Όμ μ λ³΄λ€ ν¬λͺ νκ² λ§λ€μ΄ μ¬λλ€μκ² μ λ’°λ₯Ό μ€ μ μλ κ²μ λͺ©νλ‘ ν©λλ€. XAI κ΄λ ¨ μ°κ΅¬λ ν¬κ² λ μ κ·Ό λ°©λ²μΌλ‘ λλ μ μμ΅λλ€.
μ¬ν μ€λͺ λ² vs. λ΄μ¬ μ€λͺ λ²
μ¬ν μ€λͺ λ²(Post-hoc method)μ λͺ¨λΈμ΄ νλ ¨λ νμ κ·Έ κ²°κ³Όλ₯Ό ν΄μνκΈ° μν΄ λ³λμ μ€λͺ κΈ°λ²μ μ μ©νλ λ°©μμ λλ€. μλ₯Ό λ€μ΄, 볡μ‘ν λ₯λ¬λ λͺ¨λΈμ μ°μ νμ΅μν¨ ν, μμΈ‘ κ²°κ³Όλ₯Ό μ€λͺ νκΈ° μν΄ ν΄μ κΈ°μ (LIME, SHAP)μ μ μ©ν©λλ€.
μ¬ν μ€λͺ λ²μ κ°λ₯μΌνλ ν΄μ κΈ°μ μ€ λν μμλ‘λ LIME(Local Interpretable Model-agnostic Explanations)μ΄ μ‘΄μ¬ν©λλ€. LIMEμ μλ³Έ κ°κ΅¬λ¦¬(Frog) μ΄λ―Έμ§κ° μκ³ , νμ΅λ λΈλλ°μ€ λͺ¨λΈ(Trained black-box AI Model)μ΄ μμ λ, LIMEμ βμλ³Έ κ°κ΅¬λ¦¬ μ€ μ΄λ λΆλΆμ΄ κ°μ₯ ν΅μ¬μ μ΄μλκ°?β μ°Ύμλ΄λ λ°©λ²μ λλ€. νμ΅λ λΈλλ°μ€ λͺ¨λΈμ νΉμ λΆλΆμ κ°λ¦°(Masking)ν μ¬μ§λ€μ λ£μ ν, λμλλ νλ₯ κ°μ λ°νμΌλ‘ κ°μ₯ μ μλ―Έν λΆλΆμ μ°Ύμλ λλ€.
κ·Έμ λ°ν΄ λ΄μ¬ μ€λͺ λ²(Intrinsic method)μ λͺ¨λΈ μ체λ₯Ό λ³Έμ§μ μΌλ‘ μ€λͺ κ°λ₯νκ² κ΅¬νν λ°©λ²μ λλ€. ν΄λΉ λͺ¨λΈλ€μ λ³λμ ν΄μ κΈ°μ μ νμλ‘ νμ§ μκ³ νμ΅λ μν κ·Έλλ‘ μμΈ‘ κ²°κ³Όλ₯Ό μ½κ² ν΄μν μ μμ΅λλ€. μΈκ³΅μ§λ₯ λͺ¨λΈ μ€ μ ν νκ·(Linear regression), κ²°μ λ무(Decision tree) λ±μ΄ μ΄μ ν΄λΉλλ©°, μ΄λ€ λͺ¨λΈμ μ°μ λμ ν¨κ» 그리거λ λͺ¨λΈ μ체λ₯Ό μκ°ννμ¬ ν΄μν μ μμ΅λλ€.
λμ μ±λ₯μ λ¬μ±νλ λ₯λ¬λ λͺ¨λΈλ€μ μ ν νκ·λ κ²°μ λ무μλ λ€λ₯΄κ² 볡μ‘ν ꡬ쑰λ₯Ό κ°μ§κ³ μμ΄ λ΄μ¬ μ€λͺ λ²λ³΄λ€λ μ¬ν μ€λͺ λ²μ΄ μ£Όλ‘ μ¬μ©λμ΄ μμ΅λλ€. κ·Έλ¬λ, μ΅κ·Ό μ°κ΅¬λ€μ λ₯λ¬λ λͺ¨λΈμ μ¬ν μ€λͺ λ²μ μ μ©νλ κ²μ΄ λΆμ νν μ μλ€λ κ²μ νμΈνμ΅λλ€.
μ΄μ μΌλ ¨μ μ°κ΅¬λ€μ λ₯λ¬λ λͺ¨λΈμ ꡬ쑰(Architecture)λ₯Ό λ°κΏμΌλ‘μ¨ μ€λͺ μ±μ λμ΄λ λ°©λ²λ€μ μ μνμ΅λλ€. κ΄λ ¨ μ°κ΅¬λ€μ Generalized Additive Model (GAM)μ νμ©νκ±°λ νΈλμ€ν¬λ¨Έ(Transformer)μ μ΄ν μ (Attention)μ νμ©νμ¬ λ₯λ¬λμ μ€λͺ λ ₯μ λμμ΅λλ€. μλ λ Όλ¬Έμ νΈλμ€ν¬λ¨Έ(Transformer)μ ꡬ쑰μ λ³κ²½μ΄ ν΄μλ ₯μ ν¬κ² μ¦λμν¬ μ μμμ λ°κ²¬νκΈ°λ νμ΅λλ€.
λ³Έλ‘
λ³Έ λ Όλ¬Έμ μ ν μ°κ΅¬μ μ΄μ΄ μκ³μ΄ μμΈ‘(Time-series Forecasting) λΆμΌμμ μ΄ν μ (Attetion), νΉν μ ν μ΄ν μ (Self-attention)μ΄ κ°μ§λ ν΄μμ /μ±λ₯μ μμμ λν΄ λΆμνκ³ μ νμ΅λλ€. μ΄λ₯Ό μν΄ λ리 μ¬μ©λλ μκ³μ΄ λͺ¨λΈ, PatchTSTμ μ ν μ΄ν μ λΆλΆμ λΆμνμμ΅λλ€.
μ κ²°κ³Όλ κΈ°μ‘΄ μ ν μ΄ν μ μ μ¬μ©νμ λμλ ν리κ²(Blur) λμ€λ μ λ ₯κ°κ³Ό μΆλ ₯κ°μ κ΄κ³κ° μ€νλ € μ ν μ΄ν μ μ λ¨μ μ ν λ€νΈμν¬(Linear network)λ‘ λ체νμμ λ λ λλ ·ν΄μ§λ νμμ 보μ¬μ€λλ€. μ¦, μκ°μ μ 보(Temporal information)λ₯Ό ν΄μνλ λ°μ μμ΄ μ ν μ΄ν μ μ΄ λ¨μ μ ν λ€νΈμν¬λ³΄λ€ μ’μ§ μμ μ μλ€λ κ²μ λλ€. μ±λ₯μ μΈ μΈ‘λ©΄μμλ μ ν μ΄ν μ μ λ¨μ μ ν λ€νΈμν¬λ₯Ό μ¬μ©νμ λλ³΄λ€ μ μλ―Έν μ±λ₯ μ°¨μ΄λ₯Ό 보μ΄μ§ λͺ»νμΌλ©°, μ€νλ € κ°μν μ±λ₯μ 보μ΄κΈ°λ νμ΅λλ€.
μ΄λ¬ν κ΄μ°° κ²°κ³Όμ λ¨μ μ ν λ€νΈμν¬ κΈ°λ°μ μ ν μ°κ΅¬λ₯Ό κΈ°λ°μΌλ‘, μ ν μ΄ν μ μ΄ μλ ν¬λ‘μ€ μ΄ν μ (Cross-attention)μ΄ μκ°μ μ 보 λΆμ λ± μκ³μ΄ μμΈ‘μμ μ¬λ¬ μ₯μ μ κ°μ§ μ μμμ κ²°λ‘ μ§μμ΅λλ€.
μ μλ ν¬λ‘μ€ μ΄ν μ κΈ°λ°μ λͺ¨λΈ(CATS)λ₯Ό λ°νμΌλ‘ λ³Έ μ°κ΅¬μ§μ μ μ 맀κ°λ³μλ§μΌλ‘λ λμ μ±λ₯μ λ¬μ±ν μ μμμΌλ©°, μ΄λ κΈ°μ‘΄ SOTA(State of the art) λͺ¨λΈ λλΉ λ°μ΄λ μ±λ₯μ 보μ¬μ£Όμμ΅λλ€. λμκ°, μ μλ ν¬λ‘μ€ μ΄ν μ κΈ°λ°μ λͺ¨λΈ(CATS)μ ν΄μνκΈ° μ¬μ΄ κ²°κ³Όλ₯Ό μ 곡νμμ΅λλ€. μλ κ·Έλ¦Όμ²λΌ μ λ ₯ μκ³μ΄μ μ£ΌκΈ°μ ν¨ν΄(Periodic Pattern)μ μ νν μ‘μλ΄μμΌλ©°, μΆκ°μ μΌλ‘ 좩격(Shock)κΉμ§λ ν¬μ°©νλ λͺ¨μ΅μ 보μ¬μ£Όμμ΅λλ€.
κ²°λ‘
μ€λͺ μ±μ μΈκ³΅μ§λ₯μ μ λ’°μ± λΆλ¬Έμμ ν΅μ¬ κ°λ μ€ νλμ λλ€. λͺ¨λΈμ μ€λͺ μ±μ λμ΄λ κ²μ μΈκ³΅μ§λ₯μ΄ μ¬λμ΄ μλν λλ‘ μλνκ³ μλμ§, νΈν₯μ μλμ§ νμΈνλ λ° νμμ μ λλ€. μ€λͺ μ±μ μΈκ³΅μ§λ₯ λͺ¨λΈμ΄ λ΄λ¦° κ²°μ μ΄ μ΄λ»κ² λμΆλμλμ§ μ΄ν΄νκ³ λΆμνλ λ₯λ ₯μ μ 곡ν¨μΌλ‘μ¨, μμ€ν μ ν¬λͺ μ±μ λμ΄κ³ μ λ’°μ±μ κ°νν©λλ€. μ ν μ΄ν μ κ³Ό ν¬λ‘μ€ μ΄ν μ μ λν λ³Έ λ Όλ¬Έμ λ°κ²¬μ΄ λͺ¨λΈμ μ€λͺ κ°λ₯μ± λΆμΌ λ°μ μ κΈ°μ¬νκΈΈ λ°λλλ€.