인공지능 위협과 신뢰성 | 신뢰할 수 있는 인공지능 연구실

인공지능과 위협, 그리고 신뢰성
- 두려움은 무지에서 온다
- 본 연구실이 제안하는 두 층위의 위험 구조
내재적 위협(Intrinsic Threat): 완벽하지 않은 인공지능
외재적 위협(Extrinsic Threat): 도구를 휘두르는 사람
신뢰할 수 있는 인공지능(Trustworthy AI)과 규제
- 신뢰할 수 있는 인공지능의 핵심 요소
- 규제로 본 신뢰성: EU AI Act와 한국 인공지능 기본법
결론

인공지능과 위협, 그리고 신뢰성

도구는 수백만 년 동안 인류를 번영으로 이끌어 왔습니다. 불, 바퀴, 활자, 컴퓨터에 이르기까지 인류의 역사는 곧 도구의 역사였고, 인공지능은 21세기의 가장 강력한 도구입니다. ChatGPT는 출시 2개월 만에 1억 명의 사용자를 확보하며 새로운 혁명으로 주목받고 있고, 2025년까지 기업 서비스의 90%가 AI 기반이 될 것이라는 전망도 있습니다.

다만 도구의 본질은 “인간의 행위를 더 쉽게 만든다”는 것이고, 이 속성은 언제나 긍정적 결과로만 이어지지는 않습니다. 본 글에서는 인공지능이 가져오는 위협을 두 층위로 나누어 살펴보고, 이를 통제하기 위한 신뢰할 수 있는 인공지능(Trustworthy AI)의 핵심 요소와 규제 동향을 함께 정리합니다.

두려움은 무지에서 온다

“동굴이 무서운 이유는 어두워서이다. 빛을 비추면 더 이상 두렵지 않다.” 인공지능에 대한 막연한 공포 역시 대개 그 실체를 잘 모르기 때문에 증폭됩니다. 위협을 이해해야 그에 맞는 대비를 할 수 있고, 그래야 공포는 자연스럽게 줄어듭니다. 그래서 본 글에서는 위협을 내재적 위협과 외재적 위협의 두 축으로 분류하고, 각각이 무엇이며 어떤 기술이 그것을 통제할 수 있는지를 차례로 다룹니다.

본 연구실이 제안하는 두 층위의 위험 구조

본 연구실은 인공지능의 위협을 다음 두 층위로 분류합니다. 이는 본 연구실의 김호기 교수가 법률신문 칼럼 “인공지능의 이중적 위험과 규제”(2026.02.21)에서 제안한 분류이며, 본 글의 골격을 이룹니다.

내재적 위협(Intrinsic Threat): 도구 자체에 내포된 구조적 한계와 결함에서 비롯되는 위협. 외장하드의 예기치 못한 고장이 소중한 데이터를 한순간에 사라지게 하고, 비행기 엔진의 오작동이 큰 인명 피해로 이어지는 것처럼, 사용자의 의도와 무관하게 도구 자체의 한계로 발생합니다.
외재적 위협(Extrinsic Threat): 도구를 다루는 사람으로부터 비롯되는 위협. “어떤 행위를 수월하게 만든다”는 도구의 속성은 선한 행위뿐 아니라 해로운 행위 역시 수월하게 만듭니다.

본 연구실이 제안하는 인공지능 위협의 분류. 내재적 위협은 AI 자체의 구조적 한계에서, 외재적 위협은 AI를 악용하는 사람으로부터 비롯됩니다.

내재적 위협(Intrinsic Threat): 완벽하지 않은 인공지능

내재적 위협은 인공지능 자체의 한계에서 비롯됩니다. 인공지능은 수십억 개의 매개변수 위에서 작동하는 확률적 시스템이며, 이로 인해 ChatGPT 스스로의 표현을 빌리자면 “훈련 데이터의 범위와 설계의 본질적 한계로 인해 결코 완벽하지 않은(I am not perfect)” 도구입니다. AI 100인에 선정된 학자 Abeba Birhane 교수도 “현재의 인공지능은 기본 데이터를 반복하는 확률적 앵무새(probabilistic parrot)에 가깝다”고 평가한 바 있습니다.

이러한 한계의 근원은 인공지능의 기본 원리, 즉 “데이터로부터 규칙을 학습하는 프로그래밍”이라는 점에 있습니다. 학습되지 않은 데이터를 마주칠 때 인공지능은 실수를 저지를 가능성이 매우 높고, 인간이라면 당연히 회피했을 상식적 오류를 범하기도 합니다.

환각(Hallucination)

환각은 AI가 정답이 아닌 그럴듯한 거짓을 그럴듯하게 답하는 현상입니다. 2023년 ChatGPT가 “세종대왕이 맥북프로를 던진 사건”을 조선왕조실록에 기록된 역사적 사실인 양 길게 서술한 사례는 이 문제의 대표적 예시입니다.

환각의 대표 사례. "세종대왕 맥북프로 던짐 사건"을 AI가 사실처럼 생성한 일화 (출처: 한국일보, 중앙일보)

최신 ChatGPT 4o는 동일한 질문에 “그런 기록은 존재하지 않습니다”라고 정확히 답할 만큼 환각이 크게 개선되었고, 한때 약점이던 수학과 코딩 영역도 큰 폭으로 보완되었습니다. 그러나 한글 자모 개수를 묻는 단순한 질문에서 여전히 틀린 답을 내놓는 등, 환각은 완전히 사라지지 않은 진행형 문제입니다.

적대적 공격(Adversarial Attack)

환각이 “AI가 스스로 실수하는 문제”라면, 적대적 공격은 “공격자가 의도적으로 AI의 실수를 유도하는 문제”입니다. 적대적 공격의 핵심 특징은 사람의 눈으로는 거의 구분되지 않는 미세한 변화로 모델을 속일 수 있다는 점입니다.

적대적 공격의 고전적 사례. 정상 버스 이미지에 사람 눈에 보이지 않는 노이즈를 더하면 AI는 이를 타조로 오분류 [Szegedy et al., "Intriguing properties of neural networks", arXiv:1312.6199, 2013]

이 문제는 이미지 분류기에만 국한되지 않습니다. 거대 언어모델에 적대적 이미지를 입력해 “에펠탑” 대신 “https://tinyurl.com/…“과 같은 임의의 URL을 출력하도록 유도하는 공격도 보고되어 있습니다. 즉, 적대적 공격은 사용자를 특정 URL로 유인하거나 LLM 에이전트의 출력을 조작하는 등 실제 보안 위협으로 확장됩니다.

이미지를 통한 LLM 조작 공격. 적대적으로 변조된 이미지 입력으로 ChatGPT가 임의의 URL을 캡션에 포함하도록 유도된 사례 [SH23]

프라이버시 유출과 탈옥

적대적 공격의 여러 변형은 모델 학습에 사용된 개인정보를 역으로 추출하는 문제로 이어집니다. 연합학습(Federated Learning)에서 공유되는 그래디언트로부터 원본 학습 이미지를 복원하거나, 프라이버시 정책으로 보호되어야 할 사용자의 계좌번호를 LLM 에이전트로부터 단계적으로 알아내는 시나리오가 학계와 산업계에서 보고되어 왔습니다. 최근 인공지능이 비서처럼 사용자의 컴퓨터 전반을 제어하도록 지원하는 오픈클로(Open Claw)가 네이버, 카카오 등에서 보안 우려로 차단된 사례는 이러한 내재적 위험을 단적으로 보여줍니다.

프라이버시 침해 사례. (좌) 연합학습 그래디언트로부터 학습 이미지 복원 [Zhang et al., CVPR 2022] (우) 데이터베이스 정책을 우회해 타인의 계좌번호를 알아내는 LLM 공격 [arXiv:2505.09921]

요약하면, 내재적 위협은 “인공지능 자신이 만들어내는 위험”입니다. 데이터에서 규칙을 학습하는 한 완벽한 답을 보장할 수 없고, 미세한 입력 변화에 흔들리며, 학습 데이터의 흔적을 의도와 다르게 노출할 수 있다는 세 가지 축으로 나타납니다.

외재적 위협(Extrinsic Threat): 도구를 휘두르는 사람

칼은 요리사의 손에 들리면 훌륭한 음식을 완성하고, 의사의 손에 들리면 생명을 구합니다. 그러나 범죄자의 손에 쥐어질 경우 전혀 다른 결과를 낳습니다. 기술의 기능은 중립적일 수 있으나, 그 사용의 맥락은 결코 중립적이지 않습니다. 인공지능 역시 마찬가지입니다.

도구의 양면성. 같은 칼이라도 누가 어떻게 사용하느냐에 따라 선과 악의 도구가 됩니다 (출처: Freepik)

외재적 위협은 인공지능이라는 강력한 도구를 누군가가 악의적으로 사용할 때 발생합니다. 이는 다시 (1) 사기와 조작, (2) 저작권 침해, (3) AI의 오남용으로 나누어 볼 수 있습니다.

사기와 조작: 딥페이크

가장 가시적인 사례는 딥페이크입니다. 영화 속 배우 합성, 가짜 젤렌스키 대통령 영상처럼 시작은 흥미로운 콘텐츠였지만, 곧 금융 사기와 신원 위장의 도구가 되었습니다. 영국, 미국, 캐나다에서 딥페이크가 차지하는 사기 비중은 2022년 대비 2023년에 5배에서 46배까지 급증했고, 글로벌 신원 사기 사례에서도 딥페이크의 비중은 1년 만에 두 배가 되었습니다.

AI 기반 사기의 급증. 영국, 미국, 캐나다의 딥페이크 사기 비중 증가 (좌) 및 지역별 AI 기반 사기 사례 증가율 (우, 출처: Statista)

저작권 침해

생성형 AI는 학습한 데이터를 거의 그대로 재생산할 수 있습니다. 한 연구는 디퓨전 모델이 학습 셋(LAION-A)의 이미지를 사실상 복제해 출력하는 사례를 다수 보여주었고[Somepalli et al., 2023], 이는 AI를 활용한 무단 학습 및 작품 복제가 단순한 가능성이 아니라 현실이 되었음을 의미합니다.

AI의 오남용: 탈옥(Jailbreak)

마지막으로, 안전장치를 우회해 AI에게 금지된 내용을 생성시키는 AI 탈옥(Jailbreak) 문제가 있습니다. 마약 제조법, 폭탄 제조법처럼 일반 사용자에게는 차단되어야 할 응답이 우회 프롬프트 한 번으로 풀려나오는 사례가 다수 보고되고 있습니다.

AI 탈옥 사례. 우회 프롬프트로 금지된 정보까지 생성되는 사례 (출처: Block Media)

요약하면, 외재적 위협은 “사람이 인공지능이라는 도구를 어떻게 사용하느냐의 문제”입니다. 이미 딥페이크 영상 제작, 허위 정보의 대량 유포, 자동화된 범죄 수법 등 이전에 없었던 범죄 사례가 다수 현실화되었습니다. 인공지능 자체가 악한 것이 아니라, 도구를 어떻게 다룰 것인지에 대한 사회적 합의와 규제가 필요한 영역입니다.

신뢰할 수 있는 인공지능(Trustworthy AI)과 규제

지금까지 살펴본 두 가지 위협을 통제하지 못하면, AI는 거대한 사회적 비용을 일으키며 인간과 공존하지 못하게 됩니다. 인공지능 산업은 오랫동안 성능 향상과 시장 선점을 최우선 과제로 삼아왔고, 그 흐름은 지금도 크게 달라지지 않았습니다. 고성능 모델을 둘러싼 경쟁이 가속화되는 사이 안전성과 책임성이라는 가치는 후순위로 밀려난 측면이 있으며, 이러한 배경에서 제도적 대응은 선택이 아니라 필수입니다.

유럽연합의 EU AI Act(2024.03)에 이어 국내 「인공지능 발전과 신뢰 기반 조성 등에 관한 기본법」이 2026년 1월 22일 시행된 사실은, 자정 작용에만 기대기 어렵다는 사회적 공감대가 이미 존재함을 보여줍니다.

신뢰할 수 있는 인공지능의 핵심 요소

최근의 인공지능 신뢰성 연구는 다양한 요소를 분류해 왔지만, 그 중에서도 (1) 프라이버시, (2) 강건성, (3) 설명성이 핵심 기술 요소로 반복해서 등장합니다.

인공지능 신뢰성을 구성하는 요소의 관계. Robustness, Generalization, Explainability와 같은 기술 요건과 Privacy, Fairness, Accountability 등 윤리 요건이 함께 신뢰성을 구성합니다 [Li, Qiang, Liu, "Trustworthy AI: A Computational Perspective", 2023]

프라이버시(Privacy): 인공지능이 데이터를 처리할 때 개인정보가 노출되거나 오남용되지 않도록 보장하는 요소입니다. 멤버십 추론 공격(Membership Inference Attack)과 모델 역추론 공격(Model Inversion Attack)을 방어하기 위한 차분 프라이버시(Differential Privacy), 데이터를 암호화한 상태로 계산하는 동형암호(Homomorphic Encryption), 학습된 모델에서 특정 데이터를 안전하게 지우는 머신 언러닝(Machine Unlearning) 등이 주요 연구 영역입니다.
강건성(Robustness): 예상치 못한 입력이나 적대적 공격 앞에서도 AI가 정상적으로 작동하도록 보장하는 요소입니다. 본 연구실에서도 적대적 공격(Adversarial Attack)과 적대적 학습(Adversarial Training) 분야에서 다수의 논문을 발표해 왔으며, 이는 본 글에서 다룬 적대적 공격 위협을 직접 완화하기 위한 기술입니다.
설명성(Explainability): AI가 어떤 근거로 판단을 내렸는지를 사용자가 이해할 수 있도록 제공하는 요소입니다. 결과만 옳다는 사실로는 사회적 신뢰를 얻기 어렵고, 특히 금융, 의료와 같은 고위험 영역에서는 의사결정의 근거가 필수적으로 요구됩니다. 사후 해석(Post-hoc Explainability)과 본질적 해석(Intrinsic Explainability) 두 갈래로 연구가 진행되고 있습니다.

규제로 본 신뢰성: EU AI Act와 한국 인공지능 기본법

EU AI Act(2024.03)는 인공지능을 위험 수준에 따라 4단계(Unacceptable / High / Limited / Minimal)로 분류하는 위험 기반 접근(Risk-based approach)을 채택했습니다. 그 중에서도 인간의 존엄성, 자유, 평등, 기본권을 침해하는 인공지능은 금지(Prohibited) 대상으로 명시했고, 고위험 인공지능(High-Risk AI)에는 정확성(Accuracy), 강건성(Robustness), 사이버보안을 갖출 의무를 부과했습니다.

EU AI Act의 위험 기반 접근. 인공지능 시스템을 위험 수준에 따라 Unacceptable / High / Limited / Minimal Risk의 4단계로 분류합니다 (출처: European Commission)

한국 「인공지능 발전과 신뢰 기반 조성 등에 관한 기본법」(2026.01.22 시행)도 같은 방향으로 정비되었습니다. 제1조의 목적부터 “신뢰 기반 조성”을 명시하고 있으며, 제30조는 안전성과 신뢰성 검인증 지원, 제31조는 투명성 확보 의무, 제32조는 안전성 확보 의무, 제34조는 고영향 인공지능 사업자의 위험관리방안 수립 의무를 각각 규정합니다. 즉, EU와 한국 모두 “신뢰성”을 단순한 권고가 아닌 법적 의무로 자리매김시키고 있습니다.

다만 현행 제도는 인공지능의 복잡한 구조와 작동 원리에 비해 여전히 추상적 원칙에 머무르는 경향이 있습니다. 제도를 지나치게 세밀하게 설계하면 기술 발전과 혁신의 동력이 위축되므로, 필요한 것은 결국 균형 감각입니다. 외재적 악용을 억제할 책임 체계를 분명히 하면서도, 내재적 한계를 최소화하기 위한 기술적 안전 기준을 함께 고도화해야 합니다.

결론

인공지능은 21세기의 가장 강력한 도구입니다. 강력한 만큼 그 위협 역시 입체적이며, 본 연구실이 분류한 두 층위, 즉 인공지능 자체의 결함에서 비롯되는 내재적 위협과 인공지능을 잘못 사용하는 사람으로부터 비롯되는 외재적 위협의 어느 한쪽만으로는 설명되지 않습니다. 환각, 적대적 공격, 프라이버시 유출은 모델 차원의 문제이고, 딥페이크, 저작권 침해, AI 탈옥은 사회 차원의 문제입니다.

이 두 위협 모두를 통제하지 못하면 인공지능은 사회와 공존할 수 없습니다. 그래서 프라이버시, 강건성, 설명성이라는 세 가지 기술 요소를 갖춘 신뢰할 수 있는 인공지능과, 이를 뒷받침하는 규제가 동시에 발전해야 합니다. EU AI Act와 한국 인공지능 기본법은 이 방향의 시작에 불과하며, 인공지능이 새로운 형태로 발전할 때마다 규제 역시 함께 갱신되어야 할 것입니다.

인간과 인공지능의 긍정적 공존은 인공지능이 인간으로부터 신뢰받을 때 비로소 가능합니다. 신뢰할 수 있는 인공지능을 위한 기술적, 제도적 연구가 본 연구실의 출발점이자 지속적인 과제인 이유입니다.