AI 연구자가 본 챗GPT “범용 AI의 출발점…허위정보 단점”

2022.12.31 08:30

박성규 강원대 AI융합학과 교수 인터뷰

[주간경향] 미국의 오픈AI가 공개한 챗봇 ‘챗GPT(ChatGPT)’가 전 세계적인 관심을 받고 있다. 스트리밍 서비스나 쇼핑몰의 추천 알고리즘, 인공지능 스피커, 내비게이션 등 일상에서 AI 서비스를 이용하고 있지만 챗GPT처럼 다재다능한 용도를 자랑하는 AI 서비스는 처음이라고 할 수 있다.

이용자들은 챗GPT로 한 갖가지 실험 결과를 경쟁적으로 소셜미디어에 올리고 있다. 평가는 대부분 “무섭도록 놀라운 성능을 보여준다”로 요약할 수 있다. 사람처럼 자연스러운 답변에 인공지능이 ‘자의식’을 갖게 된 것은 아니냐는 해석도 나온다.

챗GPT를 좀더 차분하게 살펴볼 때다. 박성규 강원대학교 AI융합학과 교수를 12월 28일 연구실에서 만나 인공지능 연구자는 챗GPT를 어떻게 평가하고 있는지 들었다.

박 교수는 웨어러블 기기에서 데이터를 수집해 불면증과 우울증 등 다양한 정신장애를 예측하는 AI 개발을 주로 한다. 스트레스로 고통받는 이들에게 채팅으로 도움을 줄 수 있도록 자연어처리 분야에도 공을 들이고 있다.

다음은 박 교수와의 일문일답.

박성규 강원대학교 AI융합학과 교수가 지난 12월 28일 연구실에서 챗GPT를 비롯한 최근의 인공지능 연구 성과를 설명하고 있다. 주영재 기자

-챗GPT를 어떻게 평가하나.

“굉장한 성취다. 인공 일반(범용) 지능(AGI·artificial general intelligence)에 점점 가까이 가고 있기 때문이다. 지금까지의 인공지능은 특정한 임무에 대해 예측하고 분류하는 걸 잘했다. 하지만 태스크 기반 AI라는 한계가 있어 단순히 인간의 보조도구 정도에 머물렀다. 예를 들어 알파고에 바둑을 두라고 하면 엄청 잘하지만, 책을 읽으라고 하면 전혀 안 되는 식이다. AGI는 임무에 독립적인 AI라는 큰 특징이 있다. 하나의 AGI를 학습해 놓으면 그것을 가지고 여러 가지를 할 수 있다. ‘도구를 뛰어넘어 결국에는 사람처럼 작동하는 순간이 오는 게 아닌가’ 하는 생각도 든다. 챗GPT와 그 기반이 된 GPT3 알고리즘이 AGI의 출발점이라고 본다.”

-GPT모델은 어떻게 발전할 것으로 보나.

“디퓨전 모델(훈련용 이미지 데이터에 지속적으로 노이즈를 추가해 망가뜨린 후 이를 원상복구하는 과정을 학습해 새로운 이미지를 생성하는 AI모델)을 사용하는 스테이블 디퓨전이나 미드저니 같은 애들은 텍스트를 집어넣으면 그걸 이미지로 바꿔준다. 기반 기술이나 알고리즘은 모두 거의 비슷하다. 결국엔 멀티 모달(시각·청각을 비롯한 여러 인터페이스를 통해 정보를 주고받는 것을 말하는 개념)로 갈 것이다.”

-멀티모달 AI의 예가 있을까.

“오픈AI는 결국 공동창업자인 일론 머스크와 연결된다. 얼마전 테슬라 AI 데이에서 휴머노이드 로봇 ‘옵티머스’를 공개했다. 겉보기엔 허접해 보이지만 잘 뜯어보면 굉장히 무섭다. 오픈AI를 통해 텍스트 기반의 AGI를 만든다. 그다음 테슬라의 자율주행 AI로 컴퓨터 비전 기반의 AGI를 만들고 있다. AI 데이에서 이상하게 걷고 말도 못 한 로봇이지만 ‘머리’가 있다. 국내 H사에서 인수한 보스턴 다이내믹스는 반대로 굉장히 움직임이 뛰어나다. 유튜브 영상을 찍는 환경에선 멋지게 동작하고 춤추고, 달린다. 하지만 밖으로 데리고 나가서 수많은 예외적 환경에 노출시키면 대응을 잘 못 할 수 있다. 움직임은 좋지만 머리가 없다. 멋져보이는 회사가 자꾸 팔려나가는 건 쓰임새를 찾지 못했기 때문이다. 테슬라봇은 걷는 게 형편없고 움직임도 둔하지만 머리가 있다. 공장에서 시연한 걸 보면 주전자 같은 물체를 감지해 스스로 옮긴다. 그것의 함의는 하나의 로봇으로 눈으로 보는 다양한 임무를 시킬 수 있다는 것이다. 비전 AGI가 만들어지고 텍스트 AGI가 있으니 사람이 말한 걸 이해한다. 눈으로 볼 수 있으니 그것에 맞춰 행동할 수 있다.”

-챗GPT의 한계는.

“인터넷에서 검색해 텍스트를 뿌려주는 게 아니라 학습할 때의 데이터로 대응한다. 그래서 최신 내용을 물으면 모르는 게 당연하다. 그다음 GPT 언어모델의 본질적 문제가 있다. 언어모델은 기존 데이터를 학습해 주어진 토큰(단어) 다음에 올 토큰을 확률적으로 계산해 가장 그럴듯한 토큰을 꽂아준다. 따라서 아닌 걸 아니라고 말을 못 한다. 예전에 GPT3에게 ‘1600년도의 미국 대통령은 누구야’라고 물어보니 없다고 말을 못 하고 ‘1600년도 대통령은 ○○’이라고 답했다. 자기가 갖고 있는 데이터에서 가장 유사한 것을 꽂아주도록 설계돼 있다.”

오픈AI는 홈페이지에서 챗GPT에선 유해하고, 진실하지 않은 결과물을 출력하는 GPT3의 문제점을 인간 트레이너의 교정작업을 학습하면서 상당부분 줄였다고 밝혔다. 기자가 같은 질문을 해보니 “1600년에는 미국은 아직 존재하지 않았습니다. 미국은 1776년 7월 4일에 선포된 선거권 공약으로 새로운 자유민국이 되었습니다. 이 이후부터 미국의 첫 번째 대통령은 존 애덤스이고, 이 시기의 대통령은 1789년 3월 4일부터 재임한 것으로 알려져 있습니다”라고 답했다. 미국 초대 대통령은 조지 워싱턴이고, 임기는 1789년 4월 30일부터였다. 존 애덤스는 부통령이자 후임 대통령이었다. 나아졌지만 한계는 여전했다.

-허위정보 확산이 우려된다.

“확률모델이라 생기는 문제다. 해결하는 데 꽤 골치가 아플 것이다. 만약 이런 AGI를 재판 시스템에서 사용한다면 어떤 사건에 대해 가장 비슷한 판례를 뽑아주라고 할 때 판례가 없는 경우엔 ‘없다’고 해야 하는데 그게 아니라 무조건 뭔가를 가져오게 된다. 전혀 다른 판례인데도 섞여 들어가면 판결 과정에서 문제가 생길 수 있다. 비약일 수 있지만, 자율주행 모델에 적용할 경우 갑자기 길이 없어지는 상황도 있을 텐데 그땐 길이 없다고 판단하고 멈춰야 한다. 그 순간에도 제일 맞는 길을 찾으려고 하면 사고가 발생할 수 있다.”

-해법은 있나.

“딥러닝 모델에 추가 정보를 집어넣는 형태가 대안이 될 수 있다. 연구자들은 위키피디아 데이터를 많이 쓴다. 좀더 진실에 가까운 데이터라고 보고 검증하는 식으로 연구 중이다. 이걸 보통 ‘휴먼인더루프’라고 한다. 파이프 라인 안에 인간이 들어가 어느 정도 역할을 하는. 그럼에도 불구하고 모든 걸 다 걸러낼 순 없어 어느 정도 구멍이 뚫리지 않을까.”

-파라미터(매개변수)가 많아지면 결국엔 인간처럼 지능이나 의식을 갖게 되는 건 아닌가.

“파라미터 수가 엄청나게 늘어나 사람의 뇌보다 커지면 결국에는 사람을 뛰어넘는 지능이 나올 수도 있겠다. 하지만 그럴 때도 AI가 의식이 있는지 없는지는 인간은 절대 모르지 않을까. 기자님이 제가 의식이 있다라고 생각하는 것도 기자님이 의식이 있으니 저도 의식이 있겠거니라고 판단하는 건데 사실은 제 안에 뭐가 있는지는 모르는 거죠. 로봇도 비슷할 것이라고 본다. 로봇이 우리가 묻는 말에 모두 대답할 수 있고, 인간이 하는 거의 모든 행동을 모사하고, 감정을 느낀다고 주장하고 그렇게 행동한다면 결국에는 의식이 있는 것으로 봐야 하지 않을까. 하지만 그 안에 뭐가 있든지 상관없이 결국엔 모를 것이다. 하지만 어떻든 지금 수준의 챗GPT가 답변하는 건 생각하고 말하는 건 아니고 순차적인 단어의 흐름일 뿐이다.”

-알파고 이후 AI 분야의 주요 성과를 꼽는다면.

“3가지 정도(이론 2개·응용 1개)를 들 수 있다. 이론 측면에서 하나는 언어모델의 비약적 발전을 가져온 트랜스포머(Transformer)라는 딥러닝 모델이다. 입력 문장을 압축해 핵심적인 특징을 추출하는 인코더와 이걸 받아서 출력문장을 생성하는 디코더로 나뉜다. 구글에서 개발한 언어 이해 모델인 ‘버트(BERT)’는 트랜스포머의 인코더에 해당하고, 언어생성 모델인 GPT는 디코더에 해당한다. 구글 번역이나 파파고 등 최근의 기계 번역은 모두 트랜스포머를 기반으로 하면서 품질이 굉장히 좋아졌다. 네이버의 하이퍼클로바와 같은 것도 결국엔 생성모델이고, 기반 알고리즘은 트랜스포머다. 학습데이터가 한국어에 특화된 것이고 파라미터 수가 많아졌을 뿐, GPT와 거의 똑같다. 두 번째는 적대적 생성 신경망(GAN)이다. 생성자와 판별자라는 적대적인 두 신경망이 경쟁한다. 생성자는 실제와 구분되지 않을 정도의 이미지를 만들어 판별자를 속이려 하고, 판별자는 이를 가려내려는 상반된 목적을 갖고 있다. 결국엔 평형상태에 이르러 실제와 구분하기 어려운 이미지를 생성할 수 있다. GPT도 GAN과 같은 생성모델 계열이다. 마지막으로 응용 측면에서 구글에서 만든 알파폴드를 들 수 있다. 단백질의 3차원 접힘을 예측하는 AI인데 신약개발이나 해양 플라스틱을 먹어치우는 인공 효소 등 신물질 개발에 활용할 수 있다. 알파폴드2까지 나왔다. 단백질 구조 이해는 다 끝났고, 그걸 바탕으로 새로운 구조를 만드는 연구를 하고 있는 상황이라고 들었다.”

-하이퍼클로바·GPT 같은 초거대AI의 장점은.

“초거대 모델은 파라미터가 거대해 모든 기능이 이미 구현됐다고 보면 된다. 보통은 기본 모델이 있고 추가로 우리 데이터를 집어넣어 미세조정한다. 단어 사이의 거리(유사도)를 조정하는 식으로. 초거대 모델은 모든 게 다 있어 미세조정을 하지 않고, ‘난 이거 하겠어’ 예시를 하나 든 후 바로 쓰면 된다. 이를 ‘퓨샷 러닝(few shot learning)’이라고 한다.”

-초지능의 출현 시기를 언제로 예상하나.

“미래학자 레이 커즈와일은 ‘특이점’이 2045년 전후로 올 것이라고 예상했다. 기계가 인간의 지적 능력을 초월하는 초지능의 출현 시기를 뜻한다. 인공지능이 스스로를 개선해 새로운 인공지능을 만들 수 있다면 특이점이 왔다고 할 수 있다. 컴퓨터의 시간은 인간과 달리 무한대로 축소될 수 있다. 몇초 정도면 AI가 스스로의 개선점을 찾아 새 버전을 내놓을 수도 있다. 그 시점이 2045년이라면, 그 이후엔 인간과 기계의 격차는 빠른 속도로 어마어마하게 벌어질 것이다. 이미 AI 연구의 발전 속도는 굉장히 빠르다. 2020년에 나온 논문도 엄청 오래된 논문이라고 느낄 정도다. 일반 저널에 발표하면 심사과정을 거쳐 6개월 이상 걸리니 보통 학회에 발표한다. 그것도 너무 느리다고 느껴서 코넬대에서 구축한 아카이브(arXiv)에 올리는 연구자들도 많다. GAN을 발표한 이안 굿펠로 같은 전설적 대가들은 논문을 학회나 저널에 발표하지 않고 아카이브에만 올려놓는 경우도 많다. 조회수가 수만까지 올라간다. 그런 게 이쪽 연구자들에겐 엄청난 꿈이다.”

-구글 딥마인드, 오픈AI 같은 연구기관이 앞서가는 이유는.

“미국과 중국의 거대 테크기업을 보면 이론으로만 되는 게 아니라 데이터와 컴퓨팅 파워가 다 받쳐준다. 요즘은 불황이라서 트렌드가 조금 바뀌긴 했는데 얼마 전까지 탑 티어 연구자는 학교가 아니라 회사로 갔다. 연구환경이 비교할 수 없을 정도로 좋기 때문이다. 데이터를 계속 주고, GPU라는 컴퓨팅 파워도 무한정 제공하니 꿈의 직장이다. 연구소는 독일의 막스 플랑크가 뛰어나다. 일본은 약간 답보 상태에 있다. 유럽도 거대 테크기업이 없어 프라이버시 규제로 미국 기업을 견제하고 있다. 국내 기업은 나름 잘 버티고 있다. 작은 나라지만 데이터가 많이 쌓이고 있다. 적절히 예산을 지원하면 잘할 수 있다고 생각한다.”

-AI 연구를 위한 지원책은.

“의료데이터 접근권이 부족하다. 춘천의 경우 지난해 의료산업 규제특구로 지정되면서 의료데이터 활용이 용이해졌다. 전국적으로 이런 특구를 확대할 필요가 있다. 공공데이터도 실제 쓸 수 있는 형태로 전(前)처리를 해주면 좋겠다. 예를 들어, 간혹 PDF파일로 제공하는 사례가 있는데 이러면 활용이 어렵다. 또 인공지능은 공간의 구애를 크게 받지 않는다. 거점별로 예산을 투자해 인공지능 대전환의 시대를 지역 발전의 계기로도 활용하면 좋겠다.”