본문으로 이동

AI 안전

위키백과, 우리 모두의 백과사전.

AI 안전(AI safety)은 인공지능(AI) 시스템으로 인해 발생할 수 있는 사고, 오용 또는 기타 유해한 결과를 예방하는 것과 관련된 학제간 분야이다. AI 시스템을 도덕적이고 유익하게 만드는 것을 목표로 하는 기계 윤리와 AI 정렬을 포함하며, AI 안전은 시스템의 위험을 모니터링하고 신뢰성을 높이는 등 기술적 문제를 포함한다. AI 연구 외에도 안전을 증진하는 규범과 정책을 개발하는 것도 포함된다.

기술적인 연구를 넘어, AI 안전에는 안전을 증진하는 규범과 정책을 개발하는 것이 포함된다. 2023년에 생성형 인공지능이 급속히 발전하고 연구자와 CEO들이 잠재적 위험에 대해 대중의 우려를 표명하면서 상당한 인기를 얻었다. 2023년 AI 안전 정상회담 에서 미국과 영국은 모두 자체 AI 안전 연구소를 설립했다. 그러나 연구자들은 AI 안전 조치가 AI 역량의 급속한 발전 속도를 따라가지 못하고 있다는 우려를 표명했다.

동기

[편집]

AI 연구자들은 AI 기술로 인해 발생하는 위험의 심각성과 주요 원인에 대해 매우 다른 의견을 가지고 있다. 그러나 설문조사에 따르면 전문가들은 높은 결과를 가져올 위험을 심각하게 받아들이고 있다. AI 연구자를 대상으로 한 두 차례의 설문조사에서 응답자의 중앙값은 AI 전반에 대해 낙관적이었지만 고급 AI의 "매우 나쁜(예: 인간 멸종)" 결과에 대해 5% 확률을 두었다. 자연어 처리(NLP) 커뮤니티를 대상으로 한 2022년 설문 조사에서 37%는 AI 결정이 "적어도 전면적인 핵전쟁만큼 나쁜" 재앙으로 이어질 수 있다는 것이 그럴듯하다는 데 동의하거나 약하게 동의했다. 학자들은 중요한 시스템 오류, 편견 및 AI 지원 감시로 인한 현재 위험에 대해 논의한다. (기술적 실업, 디지털 조작, 무기화로 인한 새로운 위험; 미래의 인공 일반 지능(AGI) 에이전트에 대한 통제력 상실로 인한 추측 위험)

일부에서는 AGI에 대한 우려를 비판했다. 예를 들어 앤드류 응은 2015년에 AGI를 "우리가 아직 지구에 발을 디디지도 않았는데 화성에 인구 과잉이 생기는 것을 걱정한다"고 비교했다. 반면에 스튜어트 J. 러셀(Stuart J. Russell)은 "인간의 독창성을 과소평가하는 것보다 기대하는 것이 더 낫다"고 주장하면서 주의를 촉구했다.

AI 연구자들은 AI 기술이 초래하는 위험의 심각성과 주요 원인에 대해 매우 다른 의견을 가지고 있다.[1][2][3] 하지만 설문 조사에 따르면 전문가들은 중대한 결과를 초래할 수 있는 위험을 심각하게 받아들이는 것으로 나타났다. AI 연구자들을 대상으로 실시한 두 건의 설문 조사에서 중간 응답자는 AI 전반에 대해 낙관적이었지만 고급 AI의 "극도로 나쁜(예: 인간 절멸)" 결과에 대해서는 5%의 확률을 두었다.[1] 2022년 자연어 처리 커뮤니티 설문 조사에서 37%가 AI 결정이 "전면적인 핵전쟁만큼이나 나쁜" 재앙으로 이어질 수 있다는 데 동의하거나 약하게 동의했다.[4]

연구 초점

[편집]

AI 시스템은 종종 적대적인 예시나 "공격자가 의도적으로 모델이 실수를 하도록 설계한 머신 러닝(ML) 모델에 대한 입력"에 취약하다.[5] 예를 들어, 2013년에 Szegedy et al.은 이미지에 특정한 감지할 수 없는 교란을 추가하면 높은 신뢰도로 잘못 분류될 수 있음을 발견했다.[6] 이는 신경망에서 여전히 문제로 남아 있지만 최근 작업에서는 교란이 일반적으로 감지할 수 있을 만큼 충분히 크다.[7][8][9]

신중하게 조작된 노이즈를 이미지에 추가하면 높은 신뢰도로 잘못 분류될 수 있다.

오른쪽의 모든 이미지는 섭동이 적용된 후 타조로 예측된다. (왼쪽)은 정확하게 예측된 샘플이고 (가운데)는 10배 확대하여 적용된 섭동이며 (오른쪽) 적대적 예시이다.[10]

적대적 견고성은 종종 보안과 관련된다.[11] 연구원들은 음성-텍스트 시스템이 공격자가 선택한 메시지로 오디오 신호를 변환할 수 있도록 눈에 띄지 않게 오디오 신호를 수정할 수 있음을 보여주었다.[12] 네트워크 침입[13] 및 악성 소프트웨어[14] 탐지 시스템도 공격자가 탐지기를 속이도록 공격을 설계할 수 있으므로 적대적으로 강력해야 한다.

목표를 나타내는 모델(보상 모델)은 적대적으로도 견고해야 한다. 예를 들어, 보상 모델은 텍스트 응답이 얼마나 도움이 되는지 추정할 수 있으며 언어 모델은 이 점수를 최대화하도록 훈련될 수 있다.[15] 연구자들은 언어 모델이 충분히 오랫동안 학습되면 보상 모델의 취약성을 활용하여 더 나은 점수를 얻고 의도한 작업에서는 더 나쁜 성능을 보인다는 것을 보여주었다.[16] 이 문제는 보상 모델의 적대적 견고성을 개선하여 해결할 수 있다.[17] 더 일반적으로, 다른 AI 시스템을 평가하는 데 사용되는 모든 AI 시스템은 적대적으로 견고해야 한다. 여기에는 모니터링 도구가 포함될 수 있으며, 이는 더 높은 보상을 얻기 위해 잠재적으로 조작될 수도 있기 때문이다.[18]

특히 의료 진단과 같은 위험도가 높은 설정에서 인간 운영자가 AI 시스템을 얼마나 신뢰해야 하는지 판단하는 것이 종종 중요하다.[19] ML 모델은 일반적으로 확률을 출력하여 신뢰도를 표현하지만, 특히 처리하도록 훈련받은 상황과 다른 상황에서는 종종 과도하게 자신감을 갖는 경우가 많다.[20] 교정 연구의 목적은 모델 확률이 모델이 정확할 실제 비율에 최대한 가깝게 일치하도록 하는 것이다.

마찬가지로, 이상 감지 또는 분포 이탈(OOD) 감지는 AI 시스템이 비정상적인 상황에 처해 있는 경우를 식별하는 것을 목표로 한다. 예를 들어, 자율 주행 차량의 센서가 제대로 작동하지 않거나 까다로운 지형에 부딪히면 운전자에게 경고하여 제어권을 잡거나 차를 세우도록 해야 한다.[21] 이상 감지는 이상 입력과 비이상 입력을 구별하기 위해 분류기를 훈련하는 것만으로 구현되었지만[22] 다양한 추가 기술이 사용되고 있다.[23][24]

신경망은 종종 블랙박스로 설명된다.[25] 즉, 신경망이 수행하는 엄청난 수의 계산의 결과로 결정을 내리는 이유를 이해하기 어렵다는 의미이다.[26] 이로 인해 실패를 예상하는 것이 어렵다. 2018년에는 자율주행차가 보행자를 식별하지 못해 보행자를 사망에 이르게 한 사건이 있었다. AI 소프트웨어의 블랙박스 특성으로 인해 실패 원인은 여전히 불분명한다.[27] 또한 통계적으로 효율적이지만 불투명한 모델을 사용해야 하는지에 대한 의료계의 논쟁도 일고 있다.[28]

투명성의 중요한 이점 중 하나는 설명 가능성이다.[29] 예를 들어, 구직 신청서 자동 필터링이나 신용 점수 할당의 경우처럼 공정성을 보장하기 위해 결정이 내려진 이유에 대한 설명을 제공하는 것은 때때로 법적 요구 사항이다.[29]

또 다른 이점은 실패의 원인을 밝히는 것이다.[30] 2020년 COVID-19 팬데믹이 시작될 때 연구자들은 투명성 도구를 사용하여 의료 이미지 분류기가 관련 없는 병원 라벨에 '주의를 기울이고' 있음을 보여주었다.[31]

투명성 기술은 오류를 수정하는 데에도 사용될 수 있다. 예를 들어, "GPT에서 사실적 연관성 찾기 및 편집" 논문에서 저자는 에펠탑의 위치에 대한 질문에 답하는 방식에 영향을 미치는 모델 매개변수를 식별할 수 있었다. 그런 다음 그들은 이 지식을 '편집'하여 모델이 타워가 프랑스가 아닌 로마에 있다고 믿는 것처럼 질문에 응답하도록 만들 수 있었다.[32] 이 사례에서 저자는 오류를 유발했지만, 이러한 방법을 사용하면 잠재적으로 오류를 효율적으로 수정할 수 있다. 컴퓨터 비전에도 모델 편집 기술이 존재한다.[33]

마지막으로, 일부에서는 AI 시스템의 불투명성이 상당한 위험의 원천이며 이 시스템이 어떻게 기능하는지 더 잘 이해하면 미래에 중대한 실패를 예방할 수 있다고 주장한다.[34] "내부" 해석 가능성 연구는 ML 모델의 불투명도를 낮추는 것을 목표로 한다. 이 연구의 한 가지 목표는 내부 뉴런 활성화가 무엇을 나타내는지 식별하는 것이다.[35][36] 예를 들어, 연구자들은 스파이더맨 의상을 입은 사람들의 이미지, 스파이더맨 스케치, '거미'라는 단어에 반응하는 CLIP 인공 지능 시스템의 뉴런을 식별했다.[37] 여기에는 이러한 뉴런 또는 '회로' 간의 연결을 설명하는 것도 포함된다.[38][39] 예를 들어, 연구자들은 언어 모델이 맥락에서 어떻게 학습하는지에 역할을 할 수 있는 변환기 주의의 패턴 일치 메커니즘을 식별했다.[40] "내면적 해석 가능성"은 신경과학과 비교되었다. 두 경우 모두 목표는 복잡한 시스템에서 무슨 일이 일어나고 있는지 이해하는 것이지만 ML 연구자는 완벽한 측정을 수행하고 임의의 절제를 수행할 수 있다는 이점이 있다.[41]

각주

[편집]
  1. Grace, Katja; Salvatier, John; Dafoe, Allan; Zhang, Baobao; Evans, Owain (2018년 7월 31일). “Viewpoint: When Will AI Exceed Human Performance? Evidence from AI Experts”. 《Journal of Artificial Intelligence Research》 62: 729–754. arXiv:1705.08807. doi:10.1613/jair.1.11222. ISSN 1076-9757. 2023년 2월 10일에 원본 문서에서 보존된 문서. 2022년 11월 28일에 확인함. 
  2. Zhang, Baobao; Anderljung, Markus; Kahn, Lauren; Dreksler, Noemi; Horowitz, Michael C.; Dafoe, Allan (2021년 5월 5일). “Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers”. 《Journal of Artificial Intelligence Research》 71. arXiv:2105.02117. doi:10.1613/jair.1.12895. 
  3. Stein-Perlman, Zach; Weinstein-Raun, Benjamin; Grace (2022년 8월 4일). “2022 Expert Survey on Progress in AI”. 《AI Impacts》. 2022년 11월 23일에 원본 문서에서 보존된 문서. 2022년 11월 23일에 확인함. 
  4. Michael, Julian; Holtzman, Ari; Parrish, Alicia; Mueller, Aaron; Wang, Alex; Chen, Angelica; Madaan, Divyam; Nangia, Nikita; Pang, Richard Yuanzhe (2022년 8월 26일). “What Do NLP Researchers Believe? Results of the NLP Community Metasurvey”. 《Association for Computational Linguistics》. arXiv:2208.12852. 
  5. Goodfellow, Ian; Papernot, Nicolas; Huang, Sandy; Duan, Rocky; Abbeel, Pieter; Clark, Jack (2017년 2월 24일). “Attacking Machine Learning with Adversarial Examples”. 《OpenAI》. 2022년 11월 24일에 원본 문서에서 보존된 문서. 2022년 11월 24일에 확인함. 
  6. Szegedy, Christian; Zaremba, Wojciech; Sutskever, Ilya; Bruna, Joan; Erhan, Dumitru; Goodfellow, Ian; Fergus, Rob (2014년 2월 19일). “Intriguing properties of neural networks”. 《ICLR》. arXiv:1312.6199. 
  7. Kurakin, Alexey; Goodfellow, Ian; Bengio, Samy (2017년 2월 10일). “Adversarial examples in the physical world”. 《ICLR》. arXiv:1607.02533. 
  8. Madry, Aleksander; Makelov, Aleksandar; Schmidt, Ludwig; Tsipras, Dimitris; Vladu, Adrian (2019년 9월 4일). “Towards Deep Learning Models Resistant to Adversarial Attacks”. 《ICLR》. arXiv:1706.06083. 
  9. Kannan, Harini; Kurakin, Alexey; Goodfellow, Ian (2018년 3월 16일). “Adversarial Logit Pairing”. arXiv:1803.06373. 
  10. Szegedy, Christian; Zaremba, Wojciech; Sutskever, Ilya; Bruna, Joan; Erhan, Dumitru; Goodfellow, Ian; Fergus, Rob (2014년 2월 19일). “Intriguing properties of neural networks”. 《ICLR》. arXiv:1312.6199. 
  11. Gilmer, Justin; Adams, Ryan P.; Goodfellow, Ian; Andersen, David; Dahl, George E. (2018년 7월 19일). “Motivating the Rules of the Game for Adversarial Example Research”. arXiv:1807.06732. 
  12. Carlini, Nicholas; Wagner, David (2018년 3월 29일). “Audio Adversarial Examples: Targeted Attacks on Speech-to-Text”. 《IEEE Security and Privacy Workshops》. arXiv:1801.01944. 
  13. Sheatsley, Ryan; Papernot, Nicolas; Weisman, Michael; Verma, Gunjan; McDaniel, Patrick (2022년 9월 9일). “Adversarial Examples in Constrained Domains”. arXiv:2011.01183. 
  14. Suciu, Octavian; Coull, Scott E.; Johns, Jeffrey (2019년 4월 13일). “Exploring Adversarial Examples in Malware Detection”. 《IEEE Security and Privacy Workshops》. arXiv:1810.08280. 
  15. Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina (2022년 3월 4일). “Training language models to follow instructions with human feedback”. 《NeurIPS》. arXiv:2203.02155. 
  16. Gao, Leo; Schulman, John; Hilton, Jacob (2022년 10월 19일). “Scaling Laws for Reward Model Overoptimization”. 《ICML》. arXiv:2210.10760. 
  17. Yu, Sihyun; Ahn, Sungsoo; Song, Le; Shin, Jinwoo (2021년 10월 27일). “RoMA: Robust Model Adaptation for Offline Model-based Optimization”. 《NeurIPS》. arXiv:2110.14188. 
  18. Hendrycks, Dan; Mazeika, Mantas (2022년 9월 20일). “X-Risk Analysis for AI Research”. arXiv:2206.05862. 
  19. Tran, Khoa A.; Kondrashova, Olga; Bradley, Andrew; Williams, Elizabeth D.; Pearson, John V.; Waddell, Nicola (2021). “Deep learning in cancer diagnosis, prognosis and treatment selection”. 《Genome Medicine》 (영어) 13 (1): 152. doi:10.1186/s13073-021-00968-x. ISSN 1756-994X. PMC 8477474. PMID 34579788. 
  20. Ovadia, Yaniv; Fertig, Emily; Ren, Jie; Nado, Zachary; Sculley, D.; Nowozin, Sebastian; Dillon, Joshua V.; Lakshminarayanan, Balaji; Snoek, Jasper (2019년 12월 17일). “Can You Trust Your Model's Uncertainty? Evaluating Predictive Uncertainty Under Dataset Shift”. 《NeurIPS》. arXiv:1906.02530. 
  21. Bogdoll, Daniel; Breitenstein, Jasmin; Heidecker, Florian; Bieshaar, Maarten; Sick, Bernhard; Fingscheidt, Tim; Zöllner, J. Marius (2021). 〈Description of Corner Cases in Automated Driving: Goals and Challenges〉. 《2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW)》. 1023–1028쪽. arXiv:2109.09607. doi:10.1109/ICCVW54120.2021.00119. ISBN 978-1-6654-0191-3. 
  22. Hendrycks, Dan; Mazeika, Mantas; Dietterich, Thomas (2019년 1월 28일). “Deep Anomaly Detection with Outlier Exposure”. 《ICLR》. arXiv:1812.04606. 
  23. Wang, Haoqi; Li, Zhizhong; Feng, Litong; Zhang, Wayne (2022년 3월 21일). “ViM: Out-Of-Distribution with Virtual-logit Matching”. 《CVPR》. arXiv:2203.10807. 
  24. Hendrycks, Dan; Gimpel, Kevin (2018년 10월 3일). “A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks”. 《ICLR》. arXiv:1610.02136. 
  25. Savage, Neil (2022년 3월 29일). “Breaking into the black box of artificial intelligence”. 《Nature》. doi:10.1038/d41586-022-00858-1. PMID 35352042. 2022년 11월 24일에 원본 문서에서 보존된 문서. 2022년 11월 24일에 확인함. 
  26. Center for Security and Emerging Technology; Rudner, Tim; Toner, Helen (2021). “Key Concepts in AI Safety: Interpretability in Machine Learning”. 《CSET Issue Brief》. doi:10.51593/20190042. 2022년 11월 24일에 원본 문서에서 보존된 문서. 2022년 11월 28일에 확인함. 
  27. McFarland, Matt (2018년 3월 19일). “Uber pulls self-driving cars after first fatal crash of autonomous vehicle”. 《CNNMoney》. 2022년 11월 24일에 원본 문서에서 보존된 문서. 2022년 11월 24일에 확인함. 
  28. Felder, Ryan Marshall (July 2021). “Coming to Terms with the Black Box Problem: How to Justify AI Systems in Health Care”. 《Hastings Center Report》 (영어) 51 (4): 38–45. doi:10.1002/hast.1248. ISSN 0093-0334. PMID 33821471. 
  29. Doshi-Velez, Finale; Kortz, Mason; Budish, Ryan; Bavitz, Chris; Gershman, Sam; O'Brien, David; Scott, Kate; Schieber, Stuart; Waldo, James (2019년 12월 20일). “Accountability of AI Under the Law: The Role of Explanation”. arXiv:1711.01134. 
  30. Savage, Neil (2022년 3월 29일). “Breaking into the black box of artificial intelligence”. 《Nature》. doi:10.1038/d41586-022-00858-1. PMID 35352042. 2022년 11월 24일에 원본 문서에서 보존된 문서. 2022년 11월 24일에 확인함. 
  31. Fong, Ruth; Vedaldi, Andrea (2017). 〈Interpretable Explanations of Black Boxes by Meaningful Perturbation〉. 《2017 IEEE International Conference on Computer Vision (ICCV)》. 3449–3457쪽. arXiv:1704.03296. doi:10.1109/ICCV.2017.371. ISBN 978-1-5386-1032-9. 
  32. Meng, Kevin; Bau, David; Andonian, Alex; Belinkov, Yonatan (2022). “Locating and editing factual associations in GPT”. 《Advances in Neural Information Processing Systems》 35. arXiv:2202.05262. 
  33. Bau, David; Liu, Steven; Wang, Tongzhou; Zhu, Jun-Yan; Torralba, Antonio (2020년 7월 30일). “Rewriting a Deep Generative Model”. 《ECCV》. arXiv:2007.15646. 
  34. Räuker, Tilman; Ho, Anson; Casper, Stephen; Hadfield-Menell, Dylan (2022년 9월 5일). “Toward Transparent AI: A Survey on Interpreting the Inner Structures of Deep Neural Networks”. 《IEEE SaTML》. arXiv:2207.13243. 
  35. Bau, David; Zhou, Bolei; Khosla, Aditya; Oliva, Aude; Torralba, Antonio (2017년 4월 19일). “Network Dissection: Quantifying Interpretability of Deep Visual Representations”. 《CVPR》. arXiv:1704.05796. 
  36. McGrath, Thomas; Kapishnikov, Andrei; Tomašev, Nenad; Pearce, Adam; Wattenberg, Martin; Hassabis, Demis; Kim, Been; Paquet, Ulrich; Kramnik, Vladimir (2022년 11월 22일). “Acquisition of chess knowledge in AlphaZero”. 《Proceedings of the National Academy of Sciences》 (영어) 119 (47): e2206625119. arXiv:2111.09259. Bibcode:2022PNAS..11906625M. doi:10.1073/pnas.2206625119. ISSN 0027-8424. PMC 9704706. PMID 36375061. 
  37. Goh, Gabriel; Cammarata, Nick; Voss, Chelsea; Carter, Shan; Petrov, Michael; Schubert, Ludwig; Radford, Alec; Olah, Chris (2021). “Multimodal neurons in artificial neural networks”. 《Distill》 6 (3). doi:10.23915/distill.00030. 
  38. Olah, Chris; Cammarata, Nick; Schubert, Ludwig; Goh, Gabriel; Petrov, Michael; Carter, Shan (2020). “Zoom in: An introduction to circuits”. 《Distill》 5 (3). doi:10.23915/distill.00024.001. 
  39. Cammarata, Nick; Goh, Gabriel; Carter, Shan; Voss, Chelsea; Schubert, Ludwig; Olah, Chris (2021). “Curve circuits”. 《Distill》 6 (1). doi:10.23915/distill.00024.006 (년 이후로 접속 불가 2024-11-01). 2022년 12월 5일에 원본 문서에서 보존된 문서. 2022년 12월 5일에 확인함. 
  40. Olsson, Catherine; Elhage, Nelson; Nanda, Neel; Joseph, Nicholas; DasSarma, Nova; Henighan, Tom; Mann, Ben; Askell, Amanda; Bai, Yuntao (2022). “In-context learning and induction heads”. 《Transformer Circuits Thread》. arXiv:2209.11895. 
  41. Olah, Christopher. “Interpretability vs Neuroscience [rough note]”. 2022년 11월 24일에 원본 문서에서 보존된 문서. 2022년 11월 24일에 확인함. 

같이 보기

[편집]

외부 링크

[편집]