이 글은 Medium에 업로드된, Debbie Levitt의 <When Will We Know We Made an AI Mistake?> (링크) 를 번역한 것입니다.
많은 사람들이 AI나 머신 러닝을 사용하는 솔루션에 대해 큰 기대를 갖고 있다. 하지만 그 과정에서의 리스크와 낭비, 그리고 실수가 어떤 것인지 생각하려면, 우리는 반드시 이 질문을 해야 한다. 만약 ChatGPT같은 AI 도구가 알려준 내용에 기반해 제품 또는 서비스에 대한 전략 또는 의사결정을 내렸는데, 일부 AI 데이터가 잘못되었거나 AI가 내린 조언 자체가 잘못되었다면, 우리는 잘못된 데이터나 조언을 기반으로 움직이고 있었다는 사실을 언제 알 수 있을까?
예컨대, 이런 상황들을 생각해 볼 수 있다.
- AI에게 고객을 위해 만들어야 할 기능에 대한 아이디어를 물어보았을 때. 몇 가지 아이디어를 실행해 보았지만 그것은 틀린 것으로 받아들여질 수 있다. 고객이 그런 기능을 원하지 않거나, 이러한 아이디어가 좋거나 옳다고 생각할 수 있는 KPI 또는 성공의 기준을 달성하지 못할 수 있다.
- AI 시스템에게 타겟 고객이라는 것을 가정하고, 고객이 무엇을 좋아할 지 조언해 보라고 할 때. 그 조언을 토대로 실행에 옮길 수 있지만 틀린 것으로 밝혀질 수 있다.
- AI에게 설문 응답을 요약하고 그 우선순위를 알려달라고 할 때. AI는 일부 응답을 오판하고 우리가 원하는 만큼의 분석을 내놓지 못할수도 있지만, 우리는 이를 모르고 AI의 제안 대로 실행하고, 이것이 잘못된 것으로 밝혀질 수 있다.
AI가 말하는 것이 잘못되었거나, 결함이 있거나, 또는 잘못된 방향으로 가고 있다는 것을 알기란 쉽지 않다. 이를 알게 되는 때는 과연 언제일까?
가상의 상황을 설정해 보자. 지금은 2023년 10월이다. AI에게 약간 괴팍한 50대 미국 여성을 위해 어떤 기능을 만들 수 있는지 물어보았다. AI는 이들이 영양과 스킨케어, 그리고 다이어트에 관심이 있을 것이라고 말할 것이다. AI에게 구체적인 아이디어를 다시 물어본다. 그러나 AI의 응답은 이미 학습한 것들을 재가공한 것이기 때문에, 그 아이디어가 혁신적이거나 파괴적인 아이디어가 될 가능성은 낮다. 혁신은 이전에 볼 수 없는, 완전히 새로운 것이니까.
다른 AI 시스템에, 우리가 설정했던 타겟 고객이 AI가 제안한 아이디어를 좋아할까를 물어본다. AI 시스템은 우리의 아이디어가 별 다섯개 만점에 네개를 줄 수 있지만, “좀 더 고급 시장을 노리고 신뢰를 더 잘 구축할 수 있는” 방향으로 수정이 필요하다고 말한다. 우리는 AI의 의견을 받아들여 이를 변경한다.
10월이 채 지나기 전에, 우리는 최우선 순위가 아니었던 이 프로젝트를 마감 기한이 촉박한 다른 프로젝트와 병행하여 진행하고 있다. 우리는 AI의 아이디어를 바탕으로 몇 가지 초기 스케치를 만들고, 커피숍에서 스케치가 마음에 든다고 말하는 몇 명의 사람들을 찾는다. 그걸로 우리는 아이디어가 검증되었다고 생각하고 실제 내부 프로젝트를 진행해 AI가 제안한 프로덕트 개발에 착수하고, 프로젝트 성공 기준과 KPI를 결정한다. 이 과정에서 우리는 고객 또는 유저의 관점에서 성공을 어떻게 측정할 지 고민한다.
이제 한 달이 지났다. 프로젝트는 디자이너들의 손에 넘어갈 것이다. 퀄리티보다는 속도에 집중해, 디자이너들에게 최대한 빠른 결과물을 만들 것을 주문한다. 사람들이 기능을 사용해 보면 분명 좋은 기능임을 알 수 있을 것이라고 확신하기 때문에 리서치나 사용성 테스트는 생략한다. 디자이너는 일주일 만에 결과물 비슷한 것을 만들어낸다. 이후 엔지니어들이 이를 빌드하고, 테스트하며, 병합하고 릴리즈하는 데 한 번에 2주씩 세 번의 스프린트가 필요하다고 가정해 보자. 그렇게 되면 프로젝트는 이미 연말을 향해 달려갈 것이다.
이제 새로 만들어진 기능을 위해 영업팀과 고객 지원팀에 교육을 실시하여, 이들이 새로운 기능에 인지하고 이를 설명하거나 사람들을 도울 수 있도록 하는 과정이 필요하다. 또한, 마케팅 팀도 캠페인이나 프로모션을 진행할 경우를 대비하여 새로운 기능에 대해 알고 있어야 한다. 교육에는 일주일 정도가 걸릴 것이다.
이렇게 3개월이 지났지만, 우리는 AI가 내놓은 데이터나 조언이 정확한 것이었는지 알 수 없다.
이제 우리가 만든 기능은 베타 또는 정식 릴리즈를 앞두고 있다. 릴리즈를 통해 퍼포먼스와 성공 여부를 모니터링하게 될 것이다. 2024년 1월 초에 기능을 출시한다. 1~2주 후, 우리는 퍼포먼스가 어떤 수치로 검증될지를 궁금해하겠지만, 그러기에 몇 주는 너무 이르지 않을까? 적절한 기간에 적절한 지표를 살펴보고 있는가? 전체 고객 경험을 처음부터 끝까지 바라보고 있는가? 그럴 수도 있고, 아닐 수도 있지만, 어쨌든 우리는 바삐 움직이며 최선의 결과를 기대할 것이다.
결과와 내부 피드백을 기다려 본다. 우리는 사용성이나 전환율, 낮은 작업 시간, 매우 낮은 고객 지원 활용도 같은 지표를 살펴볼 수 있을 것이다. 우리는 사람들이 이 기능을 쉽게 배우고 사용할 수 있게 되기를 기대한다. AI가 우리가 하는 모든 방향이 맞다고 인증해 주었기 때문에, 우리는 즉각적인 제품-시장 적합성을 기대할 것이다. 게다가 아이디어 검증을 위해 커피숍 테스트까지 진행하지 않았나. 당신은 자신감에 넘칠 것이다.
사람들에게 새로운 기능에 대한 의견을 묻는 설문조사를 진행했다면, 조사 결과를 수집하고 분석하며 보고서로 쓰여질 때까지의 시간이 더 걸릴 것이다. 트위터나 평점, 고객 지원 티켓, NPS나 기타 고객 표현과 같은 VOC까지 들여다 본다면, 여기에도 또 2주의 시간이 소요될 것이다.
그렇게 2월이 되어 가는데, 새 프로덕트는 기대만큼 잘 작동하지 않는다는 것이 판명되었다. 사용성이 낮고, 불만과 혼란이 있으며, 일부 기능에 대해 분노한 인스타그램 리뷰마저 있다. 실패한 것이다. 그럼 이제 어떻게 해야 하나? 우리는 왜 실패했는지 알 수 있을까? 이제 어떤 행동을 취해야 할까?
우리는 AI가 이를 파악하고 행동을 제안하는 단계까지 수행할 수 있다고 믿기 때문에, 고객과 대화하거나 고객 관찰 조사를 진행하는 대신, 고객지원팀으로부터 설문조사 응답과 고객이 제기한 질문 및 불만 사항에 대한 스프레드시트를 받고, 그 안의 모든 피드백과 데이터를 취합해 AI에 입력할 것이다. 그리고 AI에게 이를 요약해 우선순위와 다음 조치를 제안해 달라고 요청한다. 그리고 AI 도구와 시스템의 제안에 따라 기능을 변경한다. 다시 디자이너가 1주일을 작업하고, 엔지니어들이 두 번의 스프린트로 기능을 수정한다.
이제 3월 중순이 되었다. 우리는 제품을 업데이트하고, 그것이 더 나은 성적을 거두길 기대하며 지표를 바라보는 과정을 반복한다. 우리는 고객을 기쁘게 하고 싶고, 비록 혁신적이지는 않더라도 훌륭한 제품과 서비스로 고객의 문제를 해결하는 데 관심을 기울이고 있다고 주장한다. 하지만 AI는 사람보다 더 빠르고 똑똑하다는 이유로, AI의 제안에 약간의 VOC를 기반으로 기능을 바꾸었을 뿐이다.
다행히 6개월 만에 억대의 매출을 올리는 데 성공했다 치자. 이 제품과 프로젝트 팀이 한 주에 잡아먹은 비용은 대체 어느 정도일까? 2012년 애자일 예산과 관련된 연구는, 디자이너를 제외한 애자일 팀이 2주 동안 스프린트를 하기 위한 비용을 약 2만 달러로 추산한다. 또한, 하루 1,000달러를 버는 10명으로 구성된 팀이 2주의 스프린트를 진행하는 것만으로도 그 비용은 10만 달러가 된다고도 말한다.
인건비가 좀 낮은 축에 속한다고 가정해 보자. 디자이너를 포함한 팀이 2주마다 4만 5천달러의 비용을 지출했다면, 6개월이 지난 지금 소모된 비용은 거의 60만 달러에 가까워졌을 것이다. 크고작은 실패, 새로운 실험, 반복이 있을 때마다 이 비용은 늘어난다. 고객이 기능에 대해 문의하거나 고객지원 티켓을 여는 횟수가 많아져도 이 비용은 늘어난다. 그 모두를 다 합치면 어떻게 될까?
그렇다면 이 실패에 대한 책임은 누가 지게 되는걸까? “AI가 그렇게 하라고 해서”라는 말은 실패에 대한 변명이 될 수 없다. AI에 정보를 제공하는 것은 인간이고, 그 조언을 받아들이는 것도 인간이다. 한 사람이건 여러 사람이건 책임은 인간이 져야 한다.
우리가 어떠한 일에 대한 책임감과 책무, 그리고 거버넌스를 갖고 일하고 있다면 우리는 AI 도구들이 과연 우리를 위해 일하는가를 질문해야 한다. AI는 고객을 위해 일하는가? 물론 AI를 통한 업무 처리가 빠르다고는 할 수 있겠지만, 과연 AI를 통해 우리보다 비즈니스 또는 고객 목표를 달성하거나 이를 뛰어넘는 성과를 낼 수 있을까?
이 프로젝트를, 철저한 인간중심 디자인(HCD)을 활용하는 고객 중심적 프로젝트와 비교해 보자 (물론 AI는 쓰지 않을 것이다).
6주간 생성적이고 정성적인 리서치를 진행하는 것에서부터 시작한다고 가정해 보자. 이를 ‘발견(Discover)’이라 불러도 좋고, ‘탐색(exploratory)’이라 불러도 좋다. 우리는 이를 통해 타겟 고객의 관점에서 쓰여진 문제 정의를 얻게 될 것이다. 우리는 우리에게 필요한 것이 무엇인지, 또 부족한 점은 무엇인지, 어떤 과정이 별로인지 또한 알게 되었다. 리서치를 통해 우리는 가장 핵심이 되는 요인을 알고, 명확한 전략과 우선순위를 갖게 될 것이다.
리서치를 통해 얻은 우수한 질적 증거가 쌓여가는 만큼 디자이너들이 성공할 가능성 또한 올라갈 것이다. 하지만 단순한 디자인이 아니라 더 훌륭한 디자인을 할 수 있는 시간을 제공함으로서 더 큰 성공을 거둘 수 있도록 돕고자 할 것이다. 디자이너에게 3주 동안 디자인과 사용성 테스트, 그리고 반복 작업을 할 수 있는 시간을 준다고 가정해 보자. 이 3주는 좋은 디자인을 만들 뿐만 아니라, 우리가 가진 핵심 문제를 해결했다는 확신을 얻기에 충분한 시간이다.
이제 12월 중순이다. 엔지니어들이 동일하게 세 번의 스프린트를 거쳐 1월 말에 테스트 또는 정식 릴리즈를 할 채비를 마친다. (비록 연말에도 일하는 것처럼 써 놓았지만, 실제로 그러지 않길 바란다!) 또한, 이전 시나리오와 동일하게 세일즈와 고객지원, 그리고 마케팅 팀에게 새 기능을 소개한다. 이를 다 마치고 나면 2월 초가 된다.
이 시나리오는 모든 것을 인공지능에 맡기는 시나리오보다 한 달 정도 느릴 것이다. 아마 그 시간이면 두 번의 스프린트를 더 할 수 있지 않느냐고 할 수 있다. 하지만 이는 엄청난 시간이 아니다. 그럼에도 우리는 타겟 고객과 직접 소통하면서 얻은 신뢰할 수 있는 증거와 데이터, 지식을 훨씬 많이 보유하게 된다. 우리는 ‘기능 공장(Feature Factory)’이 아니라 고객 중심적으로 일하는 조직이 된다.
프로덕트 릴리즈 이후에는 물론 퍼포먼스와 성공, 그리고 실패 여부를 측정할 수도 있다.
개선의 여지는 항상 존재하지만, 속도보다는 품질을, 추측보다는 증거를 목표로 삼는 이상 HCD를 중심으로 한 시나리오는 실패 확률이 낮다. 높은 품질의 인간 중심 디자인 작업은 이미 고객과 사용자에게 자신과 딱 맞고, 자연스럽게 가입하고, 더 좋아하며, 더 많이 사용하고, 더 자주 구매하며, 다른 사람에게 긍정적인 이야기를 하고 싶어하는 무언가를 만들어낼 수 있을 것이다. 그러나 여기에 더해, UX 리서쳐들을 통해 기능을 사용하는 사람들을 관찰하고 인터뷰하는 세션을 진행한다면, 무엇이 옳고 그른지, 어떻게, 왜, 그리고 무엇을 해야 하는지 우리는 보다 더 정확히 알 수 있을 것이다.
이를 통해 진행되는 다음 번 업데이트는 AI나 그 누구의 추측이 아닌, 전문적인 리서치를 통해 얻어진 증거를 기반으로 이루어질 것이다. 이는 추측을 반복하는 작업보다 더 효율적으로 기능을 반복하고 개선할 수 있다.
AI를 통한 ‘품질보다 속도’ 관점의 작업과, HCD와 고객 중심성을 토대로 ‘속도보다 품질'을 우선하는 작업을 비교해 볼 수 있을 것이다. 우리는 이에 드는 시간과 비용 뿐만 아니라, 두 작업의 결과물을 고객 유입 비율, 만족도, 충성도 등을 측정해 비교할 수도 있을 것이다. 이를 직접 실험하고 싶다면, 각각을 토대로 한 두 가지 프로젝트를 동시에 실행해 보자. 프로젝트가 진행되는 동안 두 팀은 완전히 별개로 작업하게 될 것이며, 두 팀이 서로의 작업을 공유해서는 안 된다. 과연 어느 쪽이 더 나은 결과를 얻게 될까? 어느 쪽이 시간과 비용을 더 절약할까? 돈과 시간 이외에도, 고객 유입, 만족도, 리텐션 등의 결과도 살펴봐야 할 것이다.
AI를 활용하는 것이 멋있어 보이거나 재미있을 수도 있지만, 분명한 주의가 필요하다. AI가 주는 조언이 잘못되었거나, 데이터가 완전히 쓰레기라는 사실은 꽤 오랫동안 알 수 없다. 때문에, AI 또는 머신 러닝을 사용하는 모든 프로젝트에서 이러한 사항이 모니터링되고 있는지를 확인해야 한다.
*
주말에 이 글을 읽으며, 이것으로 AI와 관련된 언급을 마무리하면 좋겠다는 생각을 했습니다. 물론, 몇 가지 유의사항이 있습니다. 이 글은 브랜딩이 아닌 서비스 디자인의 관점에서 만들어졌습니다. 또한, UX 리서처로서의 주관을 강하게 관철하기 위해 과도하게 비현실적인 (좀 더 직설적으로, 멍청한) AI 기반 프로세스를 제시한 바도 없지 않습니다. 이 내용에서 설명하는 ‘AI'를 ‘어느 한 사람’으로 바꾸어도 동일한 내용이 성립할 것입니다. IDEO의 창립자가 ‘시행착오를 통해 깨달은 것이 외로운 천재를 통해 깨달은 것보다 낫다‘고 했던 것처럼, 어떤 브랜드 또는 디자인 전략도 한 사람의 예단과 커피챗을 통해 몇 사람에게만 물어본 결과로 만들어지지 않습니다. 다시 말해, 전략이 의존해야 할 것은 예측과 평균값, 적당해 보이는 전략이 아닌, 실제 인간을 관찰하며 얻은 인사이트라는 것입니다.
이전 글들을 통해, AI가 만드는 것이 ‘창의적인 것’이 아닌 ‘모범적 평균’이라고 이야기한 바 있습니다. 그리고 그 평균은, 새로운 인간의 데이터를 학습시키지 않을 경우 점점 더 낮아진다는 연구나, AI도 노화를 겪는다는 연구 결과도 등장하고 있습니다. 분명 기술의 발전 속도는 놀라운 수준이기 때문에, 앞으로 언제까지나 그럴 수 있으리라는 보장이 없기는 하나, AI를 활용하는 관점은 어떠한 작업의 시간을 단축시켜 주는 도구여야 하지, 그 자체로 크리에이션을 결정하는 도구가 아니라는 것입니다. 결국 브랜딩은 인간의 세상에서 효용성을 가져야 하며, 전략의 책임은 결국 그 전략을 결정한 사람의 것임을 잊지 않아야 합니다.
이 글은 Medium에 업로드된, Debbie Levitt의 <When Will We Know We Made an AI Mistake?> (링크) 를 번역한 것입니다.
많은 사람들이 AI나 머신 러닝을 사용하는 솔루션에 대해 큰 기대를 갖고 있다. 하지만 그 과정에서의 리스크와 낭비, 그리고 실수가 어떤 것인지 생각하려면, 우리는 반드시 이 질문을 해야 한다. 만약 ChatGPT같은 AI 도구가 알려준 내용에 기반해 제품 또는 서비스에 대한 전략 또는 의사결정을 내렸는데, 일부 AI 데이터가 잘못되었거나 AI가 내린 조언 자체가 잘못되었다면, 우리는 잘못된 데이터나 조언을 기반으로 움직이고 있었다는 사실을 언제 알 수 있을까?
예컨대, 이런 상황들을 생각해 볼 수 있다.
AI가 말하는 것이 잘못되었거나, 결함이 있거나, 또는 잘못된 방향으로 가고 있다는 것을 알기란 쉽지 않다. 이를 알게 되는 때는 과연 언제일까?
가상의 상황을 설정해 보자. 지금은 2023년 10월이다. AI에게 약간 괴팍한 50대 미국 여성을 위해 어떤 기능을 만들 수 있는지 물어보았다. AI는 이들이 영양과 스킨케어, 그리고 다이어트에 관심이 있을 것이라고 말할 것이다. AI에게 구체적인 아이디어를 다시 물어본다. 그러나 AI의 응답은 이미 학습한 것들을 재가공한 것이기 때문에, 그 아이디어가 혁신적이거나 파괴적인 아이디어가 될 가능성은 낮다. 혁신은 이전에 볼 수 없는, 완전히 새로운 것이니까.
다른 AI 시스템에, 우리가 설정했던 타겟 고객이 AI가 제안한 아이디어를 좋아할까를 물어본다. AI 시스템은 우리의 아이디어가 별 다섯개 만점에 네개를 줄 수 있지만, “좀 더 고급 시장을 노리고 신뢰를 더 잘 구축할 수 있는” 방향으로 수정이 필요하다고 말한다. 우리는 AI의 의견을 받아들여 이를 변경한다.
10월이 채 지나기 전에, 우리는 최우선 순위가 아니었던 이 프로젝트를 마감 기한이 촉박한 다른 프로젝트와 병행하여 진행하고 있다. 우리는 AI의 아이디어를 바탕으로 몇 가지 초기 스케치를 만들고, 커피숍에서 스케치가 마음에 든다고 말하는 몇 명의 사람들을 찾는다. 그걸로 우리는 아이디어가 검증되었다고 생각하고 실제 내부 프로젝트를 진행해 AI가 제안한 프로덕트 개발에 착수하고, 프로젝트 성공 기준과 KPI를 결정한다. 이 과정에서 우리는 고객 또는 유저의 관점에서 성공을 어떻게 측정할 지 고민한다.
이제 한 달이 지났다. 프로젝트는 디자이너들의 손에 넘어갈 것이다. 퀄리티보다는 속도에 집중해, 디자이너들에게 최대한 빠른 결과물을 만들 것을 주문한다. 사람들이 기능을 사용해 보면 분명 좋은 기능임을 알 수 있을 것이라고 확신하기 때문에 리서치나 사용성 테스트는 생략한다. 디자이너는 일주일 만에 결과물 비슷한 것을 만들어낸다. 이후 엔지니어들이 이를 빌드하고, 테스트하며, 병합하고 릴리즈하는 데 한 번에 2주씩 세 번의 스프린트가 필요하다고 가정해 보자. 그렇게 되면 프로젝트는 이미 연말을 향해 달려갈 것이다.
이제 새로 만들어진 기능을 위해 영업팀과 고객 지원팀에 교육을 실시하여, 이들이 새로운 기능에 인지하고 이를 설명하거나 사람들을 도울 수 있도록 하는 과정이 필요하다. 또한, 마케팅 팀도 캠페인이나 프로모션을 진행할 경우를 대비하여 새로운 기능에 대해 알고 있어야 한다. 교육에는 일주일 정도가 걸릴 것이다.
이렇게 3개월이 지났지만, 우리는 AI가 내놓은 데이터나 조언이 정확한 것이었는지 알 수 없다.
이제 우리가 만든 기능은 베타 또는 정식 릴리즈를 앞두고 있다. 릴리즈를 통해 퍼포먼스와 성공 여부를 모니터링하게 될 것이다. 2024년 1월 초에 기능을 출시한다. 1~2주 후, 우리는 퍼포먼스가 어떤 수치로 검증될지를 궁금해하겠지만, 그러기에 몇 주는 너무 이르지 않을까? 적절한 기간에 적절한 지표를 살펴보고 있는가? 전체 고객 경험을 처음부터 끝까지 바라보고 있는가? 그럴 수도 있고, 아닐 수도 있지만, 어쨌든 우리는 바삐 움직이며 최선의 결과를 기대할 것이다.
결과와 내부 피드백을 기다려 본다. 우리는 사용성이나 전환율, 낮은 작업 시간, 매우 낮은 고객 지원 활용도 같은 지표를 살펴볼 수 있을 것이다. 우리는 사람들이 이 기능을 쉽게 배우고 사용할 수 있게 되기를 기대한다. AI가 우리가 하는 모든 방향이 맞다고 인증해 주었기 때문에, 우리는 즉각적인 제품-시장 적합성을 기대할 것이다. 게다가 아이디어 검증을 위해 커피숍 테스트까지 진행하지 않았나. 당신은 자신감에 넘칠 것이다.
사람들에게 새로운 기능에 대한 의견을 묻는 설문조사를 진행했다면, 조사 결과를 수집하고 분석하며 보고서로 쓰여질 때까지의 시간이 더 걸릴 것이다. 트위터나 평점, 고객 지원 티켓, NPS나 기타 고객 표현과 같은 VOC까지 들여다 본다면, 여기에도 또 2주의 시간이 소요될 것이다.
그렇게 2월이 되어 가는데, 새 프로덕트는 기대만큼 잘 작동하지 않는다는 것이 판명되었다. 사용성이 낮고, 불만과 혼란이 있으며, 일부 기능에 대해 분노한 인스타그램 리뷰마저 있다. 실패한 것이다. 그럼 이제 어떻게 해야 하나? 우리는 왜 실패했는지 알 수 있을까? 이제 어떤 행동을 취해야 할까?
우리는 AI가 이를 파악하고 행동을 제안하는 단계까지 수행할 수 있다고 믿기 때문에, 고객과 대화하거나 고객 관찰 조사를 진행하는 대신, 고객지원팀으로부터 설문조사 응답과 고객이 제기한 질문 및 불만 사항에 대한 스프레드시트를 받고, 그 안의 모든 피드백과 데이터를 취합해 AI에 입력할 것이다. 그리고 AI에게 이를 요약해 우선순위와 다음 조치를 제안해 달라고 요청한다. 그리고 AI 도구와 시스템의 제안에 따라 기능을 변경한다. 다시 디자이너가 1주일을 작업하고, 엔지니어들이 두 번의 스프린트로 기능을 수정한다.
이제 3월 중순이 되었다. 우리는 제품을 업데이트하고, 그것이 더 나은 성적을 거두길 기대하며 지표를 바라보는 과정을 반복한다. 우리는 고객을 기쁘게 하고 싶고, 비록 혁신적이지는 않더라도 훌륭한 제품과 서비스로 고객의 문제를 해결하는 데 관심을 기울이고 있다고 주장한다. 하지만 AI는 사람보다 더 빠르고 똑똑하다는 이유로, AI의 제안에 약간의 VOC를 기반으로 기능을 바꾸었을 뿐이다.
다행히 6개월 만에 억대의 매출을 올리는 데 성공했다 치자. 이 제품과 프로젝트 팀이 한 주에 잡아먹은 비용은 대체 어느 정도일까? 2012년 애자일 예산과 관련된 연구는, 디자이너를 제외한 애자일 팀이 2주 동안 스프린트를 하기 위한 비용을 약 2만 달러로 추산한다. 또한, 하루 1,000달러를 버는 10명으로 구성된 팀이 2주의 스프린트를 진행하는 것만으로도 그 비용은 10만 달러가 된다고도 말한다.
인건비가 좀 낮은 축에 속한다고 가정해 보자. 디자이너를 포함한 팀이 2주마다 4만 5천달러의 비용을 지출했다면, 6개월이 지난 지금 소모된 비용은 거의 60만 달러에 가까워졌을 것이다. 크고작은 실패, 새로운 실험, 반복이 있을 때마다 이 비용은 늘어난다. 고객이 기능에 대해 문의하거나 고객지원 티켓을 여는 횟수가 많아져도 이 비용은 늘어난다. 그 모두를 다 합치면 어떻게 될까?
그렇다면 이 실패에 대한 책임은 누가 지게 되는걸까? “AI가 그렇게 하라고 해서”라는 말은 실패에 대한 변명이 될 수 없다. AI에 정보를 제공하는 것은 인간이고, 그 조언을 받아들이는 것도 인간이다. 한 사람이건 여러 사람이건 책임은 인간이 져야 한다.
우리가 어떠한 일에 대한 책임감과 책무, 그리고 거버넌스를 갖고 일하고 있다면 우리는 AI 도구들이 과연 우리를 위해 일하는가를 질문해야 한다. AI는 고객을 위해 일하는가? 물론 AI를 통한 업무 처리가 빠르다고는 할 수 있겠지만, 과연 AI를 통해 우리보다 비즈니스 또는 고객 목표를 달성하거나 이를 뛰어넘는 성과를 낼 수 있을까?
이 프로젝트를, 철저한 인간중심 디자인(HCD)을 활용하는 고객 중심적 프로젝트와 비교해 보자 (물론 AI는 쓰지 않을 것이다).
6주간 생성적이고 정성적인 리서치를 진행하는 것에서부터 시작한다고 가정해 보자. 이를 ‘발견(Discover)’이라 불러도 좋고, ‘탐색(exploratory)’이라 불러도 좋다. 우리는 이를 통해 타겟 고객의 관점에서 쓰여진 문제 정의를 얻게 될 것이다. 우리는 우리에게 필요한 것이 무엇인지, 또 부족한 점은 무엇인지, 어떤 과정이 별로인지 또한 알게 되었다. 리서치를 통해 우리는 가장 핵심이 되는 요인을 알고, 명확한 전략과 우선순위를 갖게 될 것이다.
리서치를 통해 얻은 우수한 질적 증거가 쌓여가는 만큼 디자이너들이 성공할 가능성 또한 올라갈 것이다. 하지만 단순한 디자인이 아니라 더 훌륭한 디자인을 할 수 있는 시간을 제공함으로서 더 큰 성공을 거둘 수 있도록 돕고자 할 것이다. 디자이너에게 3주 동안 디자인과 사용성 테스트, 그리고 반복 작업을 할 수 있는 시간을 준다고 가정해 보자. 이 3주는 좋은 디자인을 만들 뿐만 아니라, 우리가 가진 핵심 문제를 해결했다는 확신을 얻기에 충분한 시간이다.
이제 12월 중순이다. 엔지니어들이 동일하게 세 번의 스프린트를 거쳐 1월 말에 테스트 또는 정식 릴리즈를 할 채비를 마친다. (비록 연말에도 일하는 것처럼 써 놓았지만, 실제로 그러지 않길 바란다!) 또한, 이전 시나리오와 동일하게 세일즈와 고객지원, 그리고 마케팅 팀에게 새 기능을 소개한다. 이를 다 마치고 나면 2월 초가 된다.
이 시나리오는 모든 것을 인공지능에 맡기는 시나리오보다 한 달 정도 느릴 것이다. 아마 그 시간이면 두 번의 스프린트를 더 할 수 있지 않느냐고 할 수 있다. 하지만 이는 엄청난 시간이 아니다. 그럼에도 우리는 타겟 고객과 직접 소통하면서 얻은 신뢰할 수 있는 증거와 데이터, 지식을 훨씬 많이 보유하게 된다. 우리는 ‘기능 공장(Feature Factory)’이 아니라 고객 중심적으로 일하는 조직이 된다.
프로덕트 릴리즈 이후에는 물론 퍼포먼스와 성공, 그리고 실패 여부를 측정할 수도 있다.
개선의 여지는 항상 존재하지만, 속도보다는 품질을, 추측보다는 증거를 목표로 삼는 이상 HCD를 중심으로 한 시나리오는 실패 확률이 낮다. 높은 품질의 인간 중심 디자인 작업은 이미 고객과 사용자에게 자신과 딱 맞고, 자연스럽게 가입하고, 더 좋아하며, 더 많이 사용하고, 더 자주 구매하며, 다른 사람에게 긍정적인 이야기를 하고 싶어하는 무언가를 만들어낼 수 있을 것이다. 그러나 여기에 더해, UX 리서쳐들을 통해 기능을 사용하는 사람들을 관찰하고 인터뷰하는 세션을 진행한다면, 무엇이 옳고 그른지, 어떻게, 왜, 그리고 무엇을 해야 하는지 우리는 보다 더 정확히 알 수 있을 것이다.
이를 통해 진행되는 다음 번 업데이트는 AI나 그 누구의 추측이 아닌, 전문적인 리서치를 통해 얻어진 증거를 기반으로 이루어질 것이다. 이는 추측을 반복하는 작업보다 더 효율적으로 기능을 반복하고 개선할 수 있다.
AI를 통한 ‘품질보다 속도’ 관점의 작업과, HCD와 고객 중심성을 토대로 ‘속도보다 품질'을 우선하는 작업을 비교해 볼 수 있을 것이다. 우리는 이에 드는 시간과 비용 뿐만 아니라, 두 작업의 결과물을 고객 유입 비율, 만족도, 충성도 등을 측정해 비교할 수도 있을 것이다. 이를 직접 실험하고 싶다면, 각각을 토대로 한 두 가지 프로젝트를 동시에 실행해 보자. 프로젝트가 진행되는 동안 두 팀은 완전히 별개로 작업하게 될 것이며, 두 팀이 서로의 작업을 공유해서는 안 된다. 과연 어느 쪽이 더 나은 결과를 얻게 될까? 어느 쪽이 시간과 비용을 더 절약할까? 돈과 시간 이외에도, 고객 유입, 만족도, 리텐션 등의 결과도 살펴봐야 할 것이다.
AI를 활용하는 것이 멋있어 보이거나 재미있을 수도 있지만, 분명한 주의가 필요하다. AI가 주는 조언이 잘못되었거나, 데이터가 완전히 쓰레기라는 사실은 꽤 오랫동안 알 수 없다. 때문에, AI 또는 머신 러닝을 사용하는 모든 프로젝트에서 이러한 사항이 모니터링되고 있는지를 확인해야 한다.
*
주말에 이 글을 읽으며, 이것으로 AI와 관련된 언급을 마무리하면 좋겠다는 생각을 했습니다. 물론, 몇 가지 유의사항이 있습니다. 이 글은 브랜딩이 아닌 서비스 디자인의 관점에서 만들어졌습니다. 또한, UX 리서처로서의 주관을 강하게 관철하기 위해 과도하게 비현실적인 (좀 더 직설적으로, 멍청한) AI 기반 프로세스를 제시한 바도 없지 않습니다. 이 내용에서 설명하는 ‘AI'를 ‘어느 한 사람’으로 바꾸어도 동일한 내용이 성립할 것입니다. IDEO의 창립자가 ‘시행착오를 통해 깨달은 것이 외로운 천재를 통해 깨달은 것보다 낫다‘고 했던 것처럼, 어떤 브랜드 또는 디자인 전략도 한 사람의 예단과 커피챗을 통해 몇 사람에게만 물어본 결과로 만들어지지 않습니다. 다시 말해, 전략이 의존해야 할 것은 예측과 평균값, 적당해 보이는 전략이 아닌, 실제 인간을 관찰하며 얻은 인사이트라는 것입니다.
이전 글들을 통해, AI가 만드는 것이 ‘창의적인 것’이 아닌 ‘모범적 평균’이라고 이야기한 바 있습니다. 그리고 그 평균은, 새로운 인간의 데이터를 학습시키지 않을 경우 점점 더 낮아진다는 연구나, AI도 노화를 겪는다는 연구 결과도 등장하고 있습니다. 분명 기술의 발전 속도는 놀라운 수준이기 때문에, 앞으로 언제까지나 그럴 수 있으리라는 보장이 없기는 하나, AI를 활용하는 관점은 어떠한 작업의 시간을 단축시켜 주는 도구여야 하지, 그 자체로 크리에이션을 결정하는 도구가 아니라는 것입니다. 결국 브랜딩은 인간의 세상에서 효용성을 가져야 하며, 전략의 책임은 결국 그 전략을 결정한 사람의 것임을 잊지 않아야 합니다.