베이스볼~~~

세이버메트릭스

동예영 2011. 5. 26. 14:05

세이버메트릭스

야구는 기록의 스포츠다. 투수가 던지는 하나의 공에도 스트라이크, 볼, 아웃, 인플레이, 파울 등의 수많은 결과들이 기록된다. 한 타석, 한 경기 정도의 기록이 한 시즌 전체에 미치는 영향은 그리 크지 않다. 하지만 지난 시즌과, 그 이전, 또는 지난달과 그 이전달 같이 많은 양의 누적된 기록들은 ‘통계적으로 신뢰할 수 있는’ 영향력을 행사하기 시작한다. 세이버메트릭스(Sabermetrics)는 이렇게 다년간 쌓인 통계 자료를 이용하여 선수의 재능을 평가하고자 하는 분야이며, 이 분야의 전문가들을 세이버메트리션이라 부른다. [Historical Baseball Abstract]의 저자인 빌 제임스가 가장 유명하며, 최근에는 이들의 연구 결과가 연봉 협상 시 중요한 근거로 제시되고 있기도 하다.   

 

빌 제임스의 Historical Baseball Abstract

 

 

세이버메트릭스?

빌 제임스의 정의를 따르자면, 세이버메트릭스는 ‘야구에 대한 객관적 지식을 찾고자 하는 연구’이다. 이대호 선수를 예로 들어 보자.

이대호 선수가 최고인 이유는 내가 그 선수를 좋아하기 때문이다.

과연 다른 이들에게 설득력이 있을까? 좋아한다는 감정은 주관적이기 때문에, 결국 이대호를 싫어하는 사람에게는 아무런 설득력을 가지지 못한다. 이런 상황에서 세이버메트릭스가 설득력을 얻는 과정은 다음과 같다.

- 이대호 선수의 시즌 기록은 어떠했는가?

- 리그의 평균적인 수준에 비해 이대호 선수는 어느정도 우수했는가?

- 리그 최정상급 타자들과 비교했을 때 어느정도의 우위를 가질수 있는가?

위의 항목과 비슷한 주제의 연구를 수행하여, 최종적 결과를 얻는 것이다.

 

실제로, 2010년 이대호 선수는 타격 7관왕에 오름으로써 다른 모든 타자들에 비해 기록적으로 우수함을 증명했고, 이대호 선수는 2010년 최고의 타자라 할 수 있을 정도의 객관적 증거를 얻을 수 있게 된 것이다. 이것을 부정할 사람은 그리 많지 않다. 세이버메트릭스는 이렇게 기록을 통해 최대한 객관적 접근 방식으로 설득력을 얻으려 하며, 또 많은 논쟁을 통해 선수를 더욱 잘 설명할 수 있는 지표를 찾아 나가고자 한다.

 

 

세이버메트릭스에 대한 오해

더욱 좋은 지표를 만들어 가려는 세이버메트리션들의 노력에도 불구하고, 여전히 시즌 예측 시스템(Zips, Parcel, PECOTA등 시즌을 예측하는 많은 시스템들이 있다.)들이 보여주는 결과는 그리 만족스러운 수준이 아니다. 좀더 정확한 무언가를 기대한 팬들은 이러한 예측 시스템에 대해 화를 내기도 하고(무료가 아닌 정보들도 있기에 더욱), 심지어 해당 게시판에 욕을 하기도 한다. 하지만 예측 시스템이 생겨나는 과정과 이에 관련된 여러 사항들을 이해하게 된다면, 시스템의 정확성에 화를 내는건 오해라는 것을 알게 될 것이다.

 

세이버메트릭스는 지표의 설득력을 얻기 위해 상당히 많은 기록들과 통계 자료들을 이용한다. 기록 자체는 중립적이며, 연구자들은 여러 기록들을 조합해 보면서 기존의 지표에 비해 좀더 많은 연관성을 지니는 공식을 찾아내려 애쓴다. 이를 통해 얻어진 또 하나의 기록은 다른 많은 이들을 통해 검증 과정을 거치게 되고, 충분한 설득력을 가질 경우 공신력 있는 사이트나 SABR협회에서 인용될 기회를 얻는다. 많은 이들에게 인정받은 지표일수록 기존의 자료들에 비해 선수의 생산성과 밀접한 연관성을 가지게 되겠지만, 근거 자료의 대부분은 과거에 국한되어 있다.

 

투수의 실력만을 평균자책점의 형태로 나타내는 DIPS를 예로 들어보자.(DIPS는 소속팀 수비진의 실력에 의한 결과를 상쇄시킨 지표이다) 작년에 투수 A의 DIPS는 2.85였는데, 그의 실제 평균자책점은 4.2였다. 세이버메트릭스 상으로 그는 분명 올해 잘할 가능성이 더욱 높다. 왜냐하면 작년 그의 평균 자책점은 그가 던지지 못했기 때문이 아니라, 팀의 수비가 약했거나, 정말 그가 운이 없었기 때문에 높았을 것이기 때문이다. 하지만 DIPS에는 그가 올해 부상을 당한다던가, 사귀던 애인과 헤어진 충격으로 부진에 시달린다던가, 또는 감독과의 불화로 인해 등판 기회를 잡지 못하는 것에 대한 예상은 들어가 있지 않다.


야구 뿐만이 아니라 스포츠에는 기록 이외에 많은 변수들이 존재하고 있고, 세이버메트릭스는 그러한 기록 이외의 변수들에 대한 보정치까지 보여줄 수 는 없는 것이다. 기록 외의 많은 변수들이 존재하기 때문에 실제 기록과는 어느 정도의 차이가 생기게 마련이지만, 기존 지표를 뛰어넘는 또 다른 지표를 만들어 내는 과정에서 선수의 가치를 다시 발견하게 된다는 점이 세이버메트릭스의 한가지 매력이다. 

 

Pitch f/x 시스템에 주어진 자료를 통해 역추적한 투구의 궤적

 

 

수치의 보정

위에서 언급했지만, 인간의 능력을 평가하는 대부분의 지표들이 그의 실력을 반영하기도 하나, 부분적으로 운이라는 요소를 포함하고 있다. 즉 지표 자체에 불확실성을 내포하고 있다는 이야기다. 예를 들어 신인 타자 C가 시즌 마지막 경기에 대타로 나와 안타 하나를 치고 다음 시즌으로 넘어가게 되었다고 하자. 기록상 선수의 타율은 1.000이다. 하지만 그 누구도 이 타자가 다음해에 1.000의 타율을 보여주리라 생각하지 않는다. 그렇다면 우리는 이 1.000을 어떻게 받아들여야 할까?

 

스카우터들의 평가에 따라, 또는 2군에서의 성적에 따라 ‘좋은 타격을 가진 선수’ 또는 ‘타격은 그저 그렇지만 수비가 좋은 선수’ 정도로 분류할 수 있다면, 우리는 C를 분류한 그 집단의 평균에 따라 그를 평가해야 할 것이다. 물론 이 경우에도 C의 표본이 작기 때문에 절대 좋은 결과를 기대할 수는 없을 것이다.

 

만약 우리가 구하려는 지표가 운의 요소를 최대한 배제하려는 성격의 것이라면 표본의 크기가(타자의 예를 들자면 타수) 다소 적더라도 충분한 결과물을 얻을 수 있지만, 운적인 요소가 다소 크게 작용한다고 생각되는 지표라면 표본의 크기가 충분히 커야만 만족스러운 결과를 얻을 수 있다.

 

세이버메트릭스의 미래

세이버메트릭스는 기록과 그 맥락을 같이하는 분야이기에, 덕아웃 내부의 사정에 대해서 이것이 설명해 줄 수 있는 내용은 없다. 사람이 하는 일을 수치화 하려 하는 움직임이기에 선수나 코치들의 입장에서 볼 때 그렇게 반갑지 않은 것도 사실이다. 하지만 SK 와이번스가 현재 여러 통계 자료들을 이용하고 있고, 성적을 통해 자료의 필요성을 인식시켜 주기도 했다.

 

메이저리그에서는 Pitch F/X시스템을 도입하여 공의 움직임에서 출발하여 타격 이후 공의 방향과(Hit f/x) 현재는 선수 한 명 단위의 움직임까지 추적할 수 있는 시스템을 개발 중이다.

기존의 세이버메트릭스가 단지 통계자료를 이용한 분석에 그쳤다면, 현재의 세이버메트릭스는 이러한 각종 최첨단 장비의 힘을 빌려 기록이 설명해 주지 않는 영역에 까지 도전하고 있다.

 

경기 중 덕아웃에 붙어있는 상대선수에 대한 코스별 분석 자료. Pitch f/x를 통해 코스별 데이터를 뽑아내고, 이것을 활용해 코칭 스태프는 여러가지 작전을 구상해 볼 수 있다. <사진: 손윤>

 

 

분명히 사람에 따라 호불호가 분명한 분야이기는 하나, 이러한 연구를 통해 선수들의 약점이 발견되고 또 그것을 고치려는 여러 노력 속에서, 세이버메트릭스는 현대 야구에서 점점 그 존재 가치를 부각시켜 나갈 것이다.

 

 

 

송민구
야구 전문 블로그 <야구라>(www.yagoora.net)의 필진으로 활동 중이다. 스포츠 2.0에 기고 하였으며, 현재 네이트 스포츠 Pub에 기고하고 있다. Pitch f/x(투구추적 시스템)를 통해 다양한 각도에서 선수를 지켜보고자 한다.