(빅데이터의 다음 단계는) 예측 분석이다 - 에릭 시겔 저 (옮긴이 고한석, 이지스퍼블리싱)
Introduction
#. 테스코(Tesco, 영국 식료품 체인)
13개국에 진출해 있는 수많은 점포의 계산대에서 연간 1억 장의 맞춤식 할인쿠폰을 발행
소비자들이 어떤 할인쿠폰들을 사용할지 예측, 할인쿠폰 사용률 이전 방식 대비 3.6배 증가
#. FedEx
고객들이 경쟁업체로 넘어갈 위험성 예측의 정확성을 65%에서 90%로 높여 업계 선두 유지
#. Allstate
보험에 가입한 차량의 특성에 근거, 자동차 충돌 시 신체적 피해 경향을 예측, 개선하여 연간 4천만$ 보험지급금 절약
#. Citizens Bank
예측 기술을 통해 수표 사기에 의한 손실을 20% 줄임
#. HP
가짜 제품보증서에 의한 수리 및 교환 요청을 탐지하여 6,600만 $ 절감
#. 예측 효과(The Prediction Effect) : 예측은 굳이 매우 정확할 필요가 없다
기업들은 이미 Mass Marketing(불특정 다수를 대상으로 하는 마케팅) 이라는 일종의 숫자 게임을 하고 있다.
그렇기에 예측을 통해서 기업은 게임의 균형을 미묘하게, 그러나 의미 있는 수준 안에서 자기에게 유리한 쪽으로 기울어지게 할 수 있다.
어렴풋하게라도 볼 수 있는 것이 완전히 깜깜한 암흑 상태보다는 훨씬 우수한 결과를 낳는다.
Chapter 02 - 힘이 커질수록 책임도 커진다
#. Target 쇼핑몰 (대형 유통업체) - 임신 예측
쇼핑몰의 신생아 등록 할인판매 이벤트 : 자신의 임신 여부와 출산 예정일 기재 유도, 데이터 확보
cf) 내가 기차에서 노인 또는 임산부에게 자리를 양보한 경우, 임신이나 나이와 같은 민감한 개인 데이터를 유추하려고 노력한 것인가? 아니면 그저 그 사람이 필요로 하는 바를 제공하려고 노력한 것인가?
귀납(Induction, 구체적 사실들로부터 일반적 원칙을 논리적으로 이끌어내는 것)적 추론에 죄를 뒤집어 씌우는 것은 마치 사고를 불법화하는 것과 같다. 귀납적 추론이란 무언가를 파악해 내는 행위와 전혀 다를 바 없다.
** 연역(Deduction,일반적인 것으로부터 구체적인 것, 또는 원인으로부터 결과를 논리적으로 이끌어내는 것)
#. 그것이 위엄하다고 여겨지는 사실 그 자체가 바로 그것이 가진 힘
페이스북 사용자 약 1/4는 프라이버시에 대한 우려로 가짜 데이터를 입력함
#. 윤리적 딜레마
법 집행에 예측 분석을 활용하는 경우
어떤 한 사람과 일정한 특징을 공유하는 다른 사람들이 취한 행위들에 근거, 그 사람이 나쁜 행위를 예측하는 것은 부당한가?
vs
인간도 마찬가지로 경험으로부터 배우기 때문에 한 개인의 미래 범죄 가능성에 대해 인간이 예측하는 것 또한 본질적으로는 그 이전에 다른 사람들을 대상으로 관찰한 것에 근거한 것이 아닌가?
범죄 리스크 모델은 작은 수의 특징들만을 가지고 과거의 범죄자를 지극히 제한된 관점으로 축소시킴으로써 비인간화한다.
vs
하지만 애당초 교도소에 수감되는 것 자체가 인권의 제한이므로 예측 분석을 통해 전반적인 범죄율을 낮추며 교도소 관련 예산을 절약할 수 있다면?
의사결정을 형식화하고 계량화하게 되면, 의도와는 달리 소수에 대한 편견을 심어줄 수 있다.
Chapter 03 - 데이터 효과
#. 상관관계 != 인과관계
예측 분석을 적용함에 있어 일반적으로 인과관계에 대해 알 수 없지만, 굳이 신경쓸 필요도 없다.
많은 예측 분석 프로젝트는 미래를 예측하는 데 목적이 있는 것이지, 세상을 이해하고 무엇이 그렇게 작동하게 만드는지를 알아내는 것이 아니다.
그러니 그저 제대로 작동하기만 하면 된다. 예측은 해석보다 우위를 차지한다. 예측 분석은 해결책을 찾아 제시하는 것에 목표를 두고 수행한다.
예측 분석이 종종 다양한 사회과학적 통찰력을 제공해 주기도 하지만, 그러한 것들은 예측 분석의 부산물이지 주요한 목적은 아니다.
Chapter 04 - 학습하는 기계
#. 향상도 (Lift)
예측 모델의 성능을 비교하는 하나의 측정치(metric). 예측 승수(Predictive Multiplier)라고 할 수 있음. 모델을 적용하지 않았을 때와 비교해 어떤 특정한 모델을 적용했을 때 얼마나 더 많은 목표(target) 고객을 파악해 낼 수 있는지 알려줌.
#. 체이스 은행의 부동산 담보대출 조기상환 예측 시스템
CART 의사결정나무 방법을 활용, 각기 다른 특성을 가지는 부동산 담보대출 건들을 위해 특화된 모델을 수립.
건들을 각각의 조건에 따라 그룹별로 나눈 후 각 그룹마다 각기 다른 의사결정 나무를 생성함.
나무마다 서로 다른 상황을 대상으로 한 것이었기 때문에 나무들은 상당히 다양한 모습(고유한 변수들을 서로 다른 방식으로 포함)을 띠게 됨.
도입 첫해에 6억 $ 이익 추가 창출, 조기상환 대출 건 중 74% 정확히 인식
이후 JP모건 인수, 자산 기준 미국 최대의 은행으로 성장
Chapter 05 - 앙상블 효과
#. 넷플릭스 영화 추천 시스템
고객이 선택하는 영화의 70%는 온라인 추천 시스템에 의한 것으로 매우 중요한 역할을 하고 있음
#. Meta-learning (메타 학습)
학습한 것을 토대로 학습하는, 앙상블 모형의 근간.
#. 집단 지성 효과
여러 모델들은 각각 장점과 단점이 있다. 마치 사람들의 추측처럼 예측 모델들이 만들어낸 각각의 예측 점수들은 불완전하다. 어떤 것은 너무 높고 어떤 것은 너무 낮다.
그러나 모델들을 혼합, 각 점수의 평균을 내면 오류의 상당 부분을 제거할 수 있다.
#. Bagging (Bootstrap Aggregating, 자루 담기)
앙상블 모델에서 중요한 방법론 중 하나. 서로 다른 데이터 하위집합을 토대로 모델을 구축, 한 자루 가득 다양성을 지닌 모델들을 만들어 냄.
#. 앙상블 효과 (The Ensemble Effect)
예측 모델들이 하나의 앙상블로 합쳐지면서 각자의 한계를 보완하게 되어, 전체로서의 앙상블은 자신의 구성요소 모델들보다 더 정확하게 예측할 가능성이 높아짐.
Chapter 06 - 인간을 이긴 기계학습
#. IBM Watson
질문/답을 하나의 예측 분석 응용의 틀로 바라봄 --> 대답의 정확성을 예측.
방식 : '문서 및 DB' 등으로부터 잠재적 답안(데이터) 수집 --> '수천 개의 후보 답안' 추출 --> '예측 모델'을 적용해 가장 우수한 답을 골라냄.
질문 유형(퍼즐, 사지선다, 날짜, 숫자, 번역, 어원 등)에 따라 상이한 모델을 활용
왓슨에게 가장 우수한 결과는 '로지스틱 회귀분석(Logistic Regression)'에서 나왔음
Chapter 07 - 숫자를 통한 설득
#. Churn Modeling (이탈 모델링)
경험이 있는 경영자라면 누구나 현재의 고객을 유지하는 것이 비즈니스의 기본이자 가장 중요한 일이라고 말할 것임.
왜냐하면 새로운 고객을 확보하는 것보다 기존 고객을 그대로 머물도록 설득하는 것이 비용 측면에서 더 싸게 먹히기 때문.
고객 손실률을 조금이라도 줄이면 고객 기반이라는 풍선은 더 부풀어 팽창률이 늘어남.
즉 회사의 고객기반 성장률이 늘어나는 것으로, 고객기반 성장은 비즈니스의 기본임.
#. 예측의 역설
예상 이탈고객에게 계약을 갱신하고 혜택을 받으라는 접촉 = 약정기간이 끝나가니 이제 고객님은 자유롭게 갈아탈 수 있다는 사실을 상기시켜 준 것
결국, 고객의 이탈 가능성을 오히려 더 높게 만드는 행휘. 잠자는 사자의 코털을 건드리지 말자.
--> 따라서, 무엇을 예측해야 하는가라는 근원적인 질문에, 단순히 이탈 예측을 넘어 고객이 어떻게 반응할 것인지 2차적 예측이 필요함.
그러므로 우리는 무엇이 효과적일 것인가 뿐 아니라, 무엇이 역효과를 가져올 것인가를 고려해야 함.
* 물건을 구입한 사람들 중 우리가 접촉하지 않았더라도 우리 물건을 구입했을 사람은 누구인가? 원래부터 구입 의향이 있었던 것은 아닌가?
#. Uplift Model (향상 모델 = 설득 모델) ★
대상을 접촉하는 것이 좋은지 여부를 결정하는 것보다, 그를 접촉하는 것이 접촉하지 않는 것보다 과연 더 좋은지 여부를 결정하는 방법
경쟁하는 2개의 조치들로부터 발생한 결과들을 기록한 서로 다른 훈련용 데이터 집합들을 예측을 목적으로 모델링하는 것
무작위 A/B 통제 실험(테스트)의 개념과 예측 모델링 방법을 영리하게 결합한 것.
* 설득 가능성은 하나의(오직) 집단에 걸쳐 집합적으로 관찰될 수 있으나, 한 사람에 대해서는 절대로 성립할 수 없다.
'향상 점수'는 이러한 조치가 또 다른 조치와 비교할 때 우리가 원하는 결과를 발생시킬 가능성이 얼마나 더 많은가란 질문의 대답이다.
* Lift는 무작위 선별 대비 타게팅 선별 방식의 효과성 vs Uplift는 조치 대상 집단이 그렇지 않은 집단에 비해 얼마나 효과적인가
이를 통해 접촉에 의해 일어난 반응을 예측하는 것이 아닌, 고객을 접촉한 후의 구매를 예측한다.
ex) Uplift Trees(향상 나무)
확실한 고객과 접촉 불가 고객을 제외함으로써, 향상 모델링은 전체 타기팅 대상의 100%보다 적게 접촉하면서도 100%보다 많은 반응을 거둘 수 있는 힘을 갖게 해준다 - Kathleen Kane (Principal Decision Scientist of Fidelity Investments)
ex) 383p
세계 7위 규모 이통사 텔레노르 : 전통 이탈 분석 모델링 대비 마케팅 캠페인 ROI 11배 증가 + 고객 이탈률 36% 감소 + 비용 40% 감소
오바마 재선 : 일정한 수의 유권자들에 대해 선거운동 접촉을 미리 실험하고 반대로 통제집단을 선별하여 아무런 조치를 하지 않았다.
이후 두 집단을 대상으로 설문조사를 진행하여 이들이 결국 투표소에 갔을 때 오바마를 지지할 것인지 여부를 알아보았다.
이를 바탕으로 각 경합지역 주별로 설득 모델을 구축하였다. 변수는 인구사회학적 특징, 과거 투표 참가 이력, 잡지 구독 등 80가지 이상.
그 외
#. 분석 사례들 : 164 ~ 171p, 273 ~ 291p
#. 대응변수(Proxy Variable)
수집 대상의 값을 직접 얻을 수 없지만, 간접적으로 알아볼 수 있도록 하는 변수.
어떤 특정한 변수에 대해 직접적으로 획득이 곤란하거나 사용이 어려운경우, 혹은 반영이 제대로 이루어지지 않는 경우에 원래 변수 대신하여 사용되는 변수를 의미한다. 이렇게 대리 변수를 사용하는 경우 선택된 대리변수와 원래의 변수 사이에는 밀접한 상관관계가 있어야 한다.
삶의 질이나 생활수준과 같은 수치화 하기 어려운 변수를 사용하고자 할때 이를 직접적으로 계산 하기에는 어려움이 따르므로, 1인당 GDP를 해당 변수 대신하여 사용하는 경우 등이 있다. (출처 : 위키피디아)
#. 예측이란, 미지의 사물에 대해서 불완전하게 추론하는 것
#. 많은 산업 분야에서 기업들이 비슷한 제품들을 제공하고 비슷한 테크놀로지를 사용하는 시대에 있어서 차별화의 마지막 남은 지점들 중 하나는 고효율의 비즈니스 프로세스이다 - 『분석으로 경쟁하라 (Competing on Analytics) - Thomas Davenport, Jeanne Harris』
#. 지식의 유일한 원천은 경험이다. - 알버트 아인슈타인