본문 바로가기
AI/Statistics

10. 멀티암드 밴딧 알고리즘( MAB;Multi-armed bandit )

by _S0_H2_ 2020. 5. 20.
728x90
반응형

가장 처음에 공부했던 A/B 검정에서 이러한 결론이 있었다.

따라서, 멀티암드 밴딧과 같은 새로운 유형의 실험설계가 필요해졌다.

멀티암드 밴딧은 실험설계에 대한 전통적인 통계적 접근방식보다 명시적인 최적화, 빠른 의사 결정을 위해 사용한다.

 

 

어원

슬롯머신의 팔(=밴딧)을 당기면 돈을 얻게 된다.

슬롯머신 신기해서 찾아봄ㅋㅋ

만약, 슬롯머신에 둘 이상의 손잡이가 달려있고 각 손잡이가 다른 속도로 돈을 지불한다면 우리는 많은 상금이 나오는 손잡이를 빨리 확인하고자 할 것이다. 다음과 같이 가정해보자.

 

손잡이 A : 50번 중 10번 승리

손잡이 B : 50번 중 2번 승리

손잡이 C : 50번 중 4번 승리

 

그러면 우리는 A가 최고의 손잡이인 것 처럼 보인다. 하지만 사실 B,C가 더 좋다면 우리는 A를 당기기 때문에 B,C를 놓치게 된다. 따라서 하이브리드 접근 방식을 취하여 A의 우위를 적극 활용해보자. C를 잡아당길 기회를 A에게 더 준다. 그러다가 A가 나빠지기 시작하면 기회를 다시 C에게 돌린다. 그 중 하나가 A보다 우수하고 이것이 초기 실험에서 감춰졌었다면 사실을 밝힐 수 있게된다.

 

 

 

웹 테스트 적용

이것을 웹 테스트에 적용한다면? 여러 개의 손잡이 대신에 제안/헤드라인/색상을 테스트 할 수 있다. 고객은 클릭/ 클릭안함의 결정을 한다. 처음에는 무작위로 균등하지만 하나가 좋은 결과를 내기 시작하면 더 자주 표시될 수 있도록 한다.

 

 

그렇다면 잡아당기는 비율을 언제 어떻게 수정해야할까?

 

 

1 ) 엡실론 - 그리디 알고리즘 ( epsilon - greedy algorithm )

1 : A/B 검정

0 : 탐욕알고리즘 = 더 이상의 실험 없이, 피실험자 웹 방문자들을 지금까지 알려진 가장 좋은 제안에 할당한다

 

2 ) 톰슨의 샘플링 ( Thompson's sampling )

표본을 추출하여 최고의 손잡이를 선택할 확률을 최대화한다. 

베이지언 방식 : 베타분포를 사용하여 수익의 일부 사전 분포를 가정한 뒤, 각 정보가 누적되면서 업데이터되어 다음번에 최고 손잡이를 선택할 확률을 효과적으로 최적화할 수 있다

 

 

 

 

 

// 좀 더 깊이있게 공부하자.

 

 

 

더보기

 

 

 

 

 

 

 

 

 

 

 

 

 

728x90
반응형

'AI > Statistics' 카테고리의 다른 글

09. 카이제곱 검정 ( chi-squared test )  (4) 2020.05.18
08. 분산분석( ANOVA )  (0) 2020.05.17
07. 자유도( degree of freedom )  (4) 2020.05.14
06. 다중 검정( Multiple Comparison )  (0) 2020.05.13
05. t검정( t -test )  (0) 2020.05.11