[번역] 대화형 인터페이스가 적절하지 않은 이유
Intro
대화형 인터페이스는 일종의 밈처럼 여겨지곤 합니다. 몇 년마다 한 번씩 반짝이는 AI 기술이 등장하면, 기술 업계 사람들은 “이번이야말로 진짜다! 이제부터는 자연어로 모든 걸 하게 될 거야!”라며 열광합니다. 하지만 실제로는 아무런 변화도 일어나지 않고, 우리는 늘 그랬듯 기존 방식대로 컴퓨터를 사용하며 몇 년 뒤 같은 논쟁이 다시 반복됩니다.
이러한 사이클은 이미 여러 번 반복되었습니다. 가상 비서(Siri), 스마트 스피커(Alexa, Google Home), 챗봇(“대화형 커머스”), 플랫폼으로서의 에어팟, 그리고 최근에는 대규모 언어 모델까지 이어졌습니다.
왜 이토록 대화형 인터페이스에 집착하는지 저도 확신이 서지는 않습니다. 어쩌면 이는 영화 스타트렉에서 봤던 미래에 대한 일종의 향수, 즉 도래하지 않은 미래에 대한 향수(anemoia)일 수도 있습니다. 혹은 “자연어(natural language)”라는 단어를 보고 “자연스러운 것이니까 결국에는 이게 최종 형태겠지”라고 생각하기 때문일 수도 있습니다.
하지만 저는 분명히 말씀드리고 싶습니다. 그게 아닙니다.
데이터 전송 매커니즘
사람들이 “자연어(natural language)”라고 말할 때, 보통은 글이나 말을 의미합니다. 자연어는 인간끼리 아이디어와 지식을 교환하는 방식이며, 다시 말해 데이터 전송 메커니즘이라 할 수 있습니다.
데이터 전송 메커니즘에는 두 가지 중요한 요소가 있습니다: 속도와 손실률(lossiness)입니다.
속도는 송신자로부터 수신자에게 데이터가 얼마나 빠르게 전달되는지를 의미하며, 손실률은 데이터가 얼마나 정확하게 전달되는지를 의미합니다. 이상적인 상태라면, 데이터는 최대 속도(즉시)로, 그리고 완벽하게 정확하게(무손실) 전달되는 것이 바람직합니다. 하지만 현실에서는 이 두 가지 요소가 서로 어느 정도 상충하는 경우가 많습니다.
그렇다면 자연어는 속도 면에서 어느 정도일까요?
수신 | 송신 |
---|---|
읽기: 분당 약 250단어 | 쓰기: 분당 약 60단어 |
듣기: 분당 약 270단어 | 말하기: 분당 약 150단어 |
먼저 말씀드릴 점은, 이 수치들은 매우 단순화된 평균값이라는 점입니다. 여기서 중요한 것은 개별 수치의 정확도가 아니라, 전체적인 패턴입니다: 우리는 데이터를 받을 때(읽기, 듣기)가 보낼 때(쓰기, 말하기)보다 훨씬 빠릅니다. 그래서 팟캐스트는 2배속으로 들을 수 있지만, 2배속으로 녹음하는 건 어렵습니다.
쓰기와 말하기 속도를 좀 더 실감 나게 비교해보자면, 우리는 분당 1,000~3,000단어 수준으로 생각을 형성합니다. 자연어는 자연스럽긴 하지만, 결국 병목 지점이 되는 셈입니다.
그럼에도 불구하고, 일상에서 사람들과 대화할 때 대부분의 커뮤니케이션은 빠르고 효율적으로 느껴집니다. 이는 자연어 외에도 다양한 데이터 전송 수단이 있기 때문입니다.
예를 들어 “방금 네가 말한 거 정말 좋은 아이디어 같아”라고 말하는 대신, 엄지를 들어 올리거나, 고개를 끄덕이거나, 그냥 미소를 지을 수도 있습니다.
제스처나 표정은 일종의 데이터 압축 기술이라고 할 수 있습니다. 정보를 더 간결하게, 다소 손실을 감수하고서라도 빠르고 편리하게 전달할 수 있도록 인코딩하는 방식입니다.
자연어는 높은 정확도를 요구하는 데이터 전송이나, 비동기 커뮤니케이션(예, 편지, 메일)을 위한 데이터 저장 용도로는 훌륭합니다. 하지만 가능하다면 우리는 더 빠르고 수고가 적은 다른 방식으로 전환하려 합니다. 속도와 편의성이 결국엔 이깁니다.
제가 가장 좋아하는 ‘노력 없는 커뮤니케이션’의 예는 조부모님에 대한 기억입니다. 아침 식탁에서 할머니는 버터를 달라고 한 적이 없지만, 할아버지는 항상 알아서 버터를 건네주셨습니다. 50년 넘게 함께 살아오면서, 말하지 않아도 서로 알 수 있었던 것입니다. 마치 텔레파시로 대화하는 것 같았습니다.
저는 컴퓨터와도 바로 그런 관계를 맺고 싶습니다.
인간-컴퓨터 상호작용 (Human-Computer Interaction)
사람 간의 커뮤니케이션과 마찬가지로, 인간과 컴퓨터 사이에도 정보를 주고받기 위한 다양한 데이터 전송 방식이 존재합니다. 컴퓨터 초창기에는 사용자가 명령어를 통해 컴퓨터와 상호작용했습니다. 이러한 텍스트 기반 명령은 일종의 자연어 인터페이스였지만, 매우 정확한 문법과 시스템에 대한 깊은 이해가 필요했습니다.
GUI(그래픽 사용자 인터페이스)의 등장은 ‘발견성(discoverability)’ 문제를 주로 해결했습니다. 더 이상 정확한 명령어를 외울 필요 없이, 메뉴나 버튼 같은 시각 요소를 통해 원하는 작업을 수행할 수 있게 되었기 때문입니다. 이는 단지 발견을 쉽게 만든 것뿐만 아니라 훨씬 편리하게도 만들었습니다. 긴 텍스트 명령어를 입력하는 것보다 버튼을 클릭하는 것이 훨씬 빠르기 때문입니다.
오늘날 우리는 그래픽 인터페이스와 키보드 기반 명령어가 결합된 생산성 균형 속에서 살고 있습니다.
여전히 우리는 마우스를 사용해 컴퓨터를 조작하지만, 일상적인 작업은 대부분 키보드 단축키로 빠르게 전달됩니다. 예를 들면, ⌘b는 텍스트를 굵게 만들고, ⌘t는 새 탭을 열며, ⌘c/v는 복사/붙여넣기를 빠르게 수행하는 방식입니다.
이러한 단축키는 자연어는 아니지만, 또 하나의 ‘데이터 압축’ 방식입니다. 엄지척이나 고개 끄덕임처럼, 더 빠른 커뮤니케이션을 가능하게 해 줍니다.
현대의 생산성 도구는 이러한 데이터 압축 방식의 단축키를 한 단계 더 발전시켰습니다. Linear, Raycast, Superhuman과 같은 도구에서는 거의 모든 명령이 단 한 번의 키 입력으로 가능하며, 머슬 메모리(muscle memory)가 형성되면 입력 자체가 거의 무의식적으로 이뤄질 만큼 매끄럽습니다. 마치 아침 식탁에서 말하지 않아도 버터를 건네받는 것처럼 자연스럽습니다.
터치 기반 인터페이스는 인간-컴퓨터 상호작용의 세 번째 중대한 전환점으로 여겨지지만, 데스크톱 컴퓨팅의 보완 수단에 가까웠지 완전한 대체는 아니었습니다. 스마트폰은 ‘키보드가 없는 상황’에서의 업무에 적합하지만, 진정한 생산성 작업은 여전히 데스크톱에서 이뤄지고 있습니다.
이는 텍스트 입력이 모바일 친화적인 방식이 아니기 때문입니다. 물리 키보드는 생각과 신체의 자연스러운 연장처럼 느껴질 수 있지만, 스마트폰에서의 입력은 늘 약간 어색하며, 데이터 전송 속도에서도 그 차이가 드러납니다. 모바일의 평균 타이핑 속도는 분당 약 36단어로, 데스크톱의 평균 속도인 약 60단어보다 확연히 느립니다.
우리는 이 자연어 입력의 한계를 이모지나 스냅챗 셀카 같은 모바일 전용 ‘데이터 압축 알고리즘’으로 어느 정도 대체해왔지만, 키보드 단축키에 상응하는 모바일 방식은 아직 찾지 못했습니다. 아이폰이 출시된 지 거의 20년이 지났음에도, 진정한 모바일 중심 생산성 앱이 아직도 없는 이유가 바로 여기에 있습니다.
“그럼 음성 입력은 어때?”라고 물으실 수도 있습니다. 음성 메시지 사용률 증가에 대한 보고서들을 떠올리며 말이죠. 실제로 말하기(150wpm)는 타이핑(60wpm)보다 빠른 데이터 전송 방식이긴 하지만, 그렇다고 해서 컴퓨터와의 상호작용에서 더 나은 방식이 되는 것은 아닙니다.
우리는 종종 “Alexa나 Siri 같은 이전 세대 음성 인터페이스가 실패한 이유는 AI가 충분히 똑똑하지 않았기 때문”이라고 스스로를 설득하곤 합니다. 하지만 그것은 이야기의 절반만 맞는 말입니다. 핵심 문제는 출력(output)의 품질이 아니라, 입력(input)의 불편함에 있었습니다. 예를 들어 “Hey Google, 오늘 샌프란시스코 날씨 어때?”라고 말하는 것은, 그냥 홈 화면의 날씨 앱을 한 번 탭하는 것보다 10배는 느립니다.
LLM(대규모 언어 모델)은 이 문제를 해결하지 못합니다. 출력 품질은 놀라울 정도로 빠르게 개선되고 있지만, 입력 방식은 기존보다 오히려 퇴보하고 있습니다. 버튼 하나나 키보드 단축키로 처리할 수 있는 일을 굳이 자연어로 길게 설명해야 하는 이유가 있을까요?
보완 수단으로서의 대화형 UI
이 모든 이야기가 LLM(대규모 언어 모델)이 훌륭하지 않다는 뜻은 아닙니다. 저는 LLM을 정말 좋아합니다. 항상 사용하고 있습니다. 사실, 이 글 자체도 LLM의 도움을 받아 썼습니다.
평소에는 펜과 종이로 초안을 쓰는 걸 선호하지만, 이번에는 ChatGPT의 고급 음성 모드를 활용해 한 시간 동안 밖을 걸으며 대화를 나눴습니다. 머릿속에 흐릿하게 있던 생각들을 하나하나 꺼내 정리하고, 추가적인 논점도 탐색하면서 전체적인 윤곽을 함께 만들어 나갔습니다.
이건 단순히 “x에 대해 몇 문단 써줘”라는 식의 일방적인 요청이 아니었습니다. 마치 진짜 사고 파트너와 함께 깊이 있는 대화를 나누며 아이디어를 주고받는 듯한 경험이었습니다. 몇 주가 지난 지금도, 그때 경험이 얼마나 잘 작동했는지에 대해 감탄하고 있습니다. 마치 소프트웨어 덕분에 미래에 살고 있는 듯한, 그런 마법 같은 순간이었습니다.
하지만 기존의 인간-컴퓨터 상호작용 방식과 비교해 보면, 이 워크플로우는 속도에 의해 정의되는 방식은 아닙니다. 글쓰기가 그렇듯, ChatGPT와의 대화도 ‘생각 이후’가 아닌 ‘생각하는 과정’입니다.
또한 이 예시는 기존의 어떤 소프트웨어 워크플로우를 대체한 것도 아닙니다. 완전히 새로운 사용 사례입니다.
여기서 제 핵심 주장을 말씀드리겠습니다.
대화형 인터페이스는 불편하고 데이터 전송 속도가 떨어지므로 기존 컴퓨팅 패러다임을 대체하긴 어렵습니다. 그러나 보완 수단이 될 수는 있습니다.
지금까지 제가 본 것 중 가장 설득력 있는 대화형 UI 사례는 해커톤에서였습니다. 한 팀이 Amazon Alexa를 스타크래프트 II의 인게임 음성 어시스턴트로 만든 것입니다. 여기서 음성은 마우스와 키보드를 대체한 것이 아니라, ‘추가적인 입력 수단’으로 작용했습니다.
결과적으로 데이터 전송의 대역폭을 넓혀준 셈입니다.
이러한 패턴은 어떤 종류의 지식 노동에서도 동일하게 작동할 수 있습니다. 사용자가 다른 작업으로 바쁠 때, 음성 명령이 가능하다는 점이 핵심입니다. 우리는 Figma, Notion, Excel 같은 도구를 채팅 인터페이스로 대체하지 않을 것입니다. 그런 일은 일어나지 않습니다. 그렇다고 지금처럼 이런 도구들과 LLM 사이를 끊임없이 오가며 작업하는 현재의 상태가 영원히 지속될 수도 없습니다.
그 대신, AI는 모든 도구를 가로지르는 항상 활성화된 명령 메타 레이어로 기능해야 합니다. 사용자는 마우스나 키보드를 사용하던 작업을 방해하지 않고, 단순한 음성 프롬프트만으로 어디에서든 작업을 실행할 수 있어야 합니다.
이런 미래가 실제로 실현되려면, AI는 운영체제(OS) 수준에서 동작해야 합니다. 특정 도구에 한정된 인터페이스가 아니라, 도구 간을 아우르는 인터페이스가 되어야 합니다. 케빈 콕(Kevin Kwok)은 “생산성과 협업은 별개의 워크플로우가 되어선 안 된다”고 말한 바 있습니다. 그는 인간 간의 협업을 언급한 것이지만, 인간과 AI 간 협업이 점점 중요해지는 지금, 이 말은 더 큰 의미를 가집니다. 생산성과 조율의 경계는 점점 더 모호해지고 있습니다.
두 번째로 우리가 해결해야 할 과제는 음성 입력을 어떻게 압축할 것인가입니다. 더 빠르게 전달하기 위해 음성을 줄일 방법이 필요합니다. 음성에서의 '엄지척'이나 '단축키'에 해당하는 게 무엇일까요? 단순한 소리나 휘파람으로 Claude에게 더 빠르게 프롬프트를 전달할 수 있을까요? ChatGPT가 제 얼굴 표정을 보면서 실시간으로 응답을 조정할 수 있다면 어떨까요?
비록 음성이 보조 인터페이스라 하더라도, 속도와 편의성이 전부입니다.
맺으며
이 글의 제목이 다소 오해를 불러일으킬 수 있다는 점은 인정합니다 (그래도 클릭은 하셨죠?). 사실 이 글은 대화형 인터페이스를 반대하는 주장이 아니라, 제로섬 사고방식을 반대하는 주장입니다.
우리는 AI를 대체 수단(인터페이스, 워크플로우, 직무 등)으로 바라보는 데에는 많은 시간을 쓰지만, 보완 수단으로 생각하는 데에는 상대적으로 적은 시간을 씁니다. 그러나 기술의 진보는 단순한 대체의 경로를 따르지 않습니다. 기존 것을 단순히 밀어내는 것이 아니라, 이전에는 상상도 못했던 새로운 가능성을 열어주는 방향으로 발전합니다.
이번 경우도 마찬가지입니다. 미래는 기존 컴퓨팅 패러다임을 채팅 인터페이스로 대체하는 것이 아니라, 그것들을 강화하여 인간-컴퓨터 상호작용이 마치 익숙한 아침 식탁 위에서 말없이 버터를 주고받는 것처럼 자연스럽게 느껴지도록 만드는 것입니다.