본문 바로가기
책 리뷰

숫자에 가치를 더하는 힘. [리뷰]"내러티브 & 넘버스" 3부.

by 투자하는 아재 2023. 8. 2.
728x90
반응형

반갑습니다. '투자하는 아재'입니다. 오늘은 "내러티브 & 넘버스" 3부로, "넘버크런칭 도구"에 대하여 이야기해 보도록 하겠습니다. 이 글은 저의 유투브 채널에서 영상으로 만나실 수 있습니다.

https://youtu.be/Aey-3mMucQk

  숫자에 입각한 투자를 하는 사람에게는 지금이 황금기입니다. 수십 년 전만 해도 몇 달이나 걸려야 했던 일들이 기술의 발전으로 단 몇 초 만에 끝낼 수 있습니다. 물론, 이를 오남용 하여 조작되고 편향을 일으키고 있다는 문제점 또한 드러나고 있습니다.

 그렇다면, 오늘날은 "데이터의 시대"인가요, "정보의 시대"인가요?

 사실상, 데이터와 정보는 완전히 다른 개념임에도 같은 의미인 것처럼 혼용되고 있습니다. 데이터는 넘버크런칭의 시작점이며 가공되지 않은 숫자로 정의됩니다. 우리는 이런 숫자들을 대량으로 모으고 저장하는 것이 가능한 데이터의 시대에 살고 있습니다. 데이터가 정보가 되기 위해선 가공과 분석을 거쳐야 하며, 이 부분에서 숫자의 편향과 오차가 숨어있는 것입니다. 또한, 데이터 양산은 가공해야 할 데이터가 훨씬 늘었다는 의미인 동시에, 데이터끼리 모순된 신호를 발산하기 때문에 정보로 바꾸기가 훨씬 어려워졌다는 의미입니다. 결국 우리가 직면한 문제는 정보의 과부하가 아닌 데이터의 과부하입니다. 

 저자는 "넘버크런칭"과정을  "1. 데이터 수집--> 2. 데이터 분석 -->3. 타인에게 데이터 제시"의 세 단계로 나누고 있습니다. 각 단계에서 발생되는 숫자의 편향과 오차를 최소화하고 숨어있는 편향과 오차를 파악할 수 있는 방법을 이야기하고 있습니다.

 1. 데이터 수집
 - 데이터를 정보로 가공하기 위한 첫 단계로 전산화된 데이터베이스에 접속하거나 실험이나 설문을 통해 데이터를 수집할 수 있습니다. 일반적으로 데이터는 조직화된 정부, 증권거래소, 각종 기업과 기관 등의 데이터베이스에 접속하여 보유하고 있는 설문조사, 실험등을 통해 수집할 수 있습니다.

 과거의 데이터 수집은 시간도 많이 들고 수작업이 많이 필요한 작업이었습니다. 하지만 최근엔 전산거래가 증가하고 대부분의 데이터가 온라인에 기록되면서 데이터베이스를 구축하고 유지하는 일이 간편해졌습니다.

 데이터를 사용할 때 가장 우선되어야 할 것은 신중하게 수집하고 조직된 "소규모 데이터 표본"과 다양한 잡음이 섞여 있어 잠재적 오차도 클 수 있는 "대규모 데이터 표본" 사이에서 선택해야 한다는 것입니다. 

 둘 중 하나를 선택할 때에는 일반적으로 통계학의 기본 요소 중 하나인 "대수의 법칙"을 따르게 됩니다. "대수의 법칙"은 표본의 크기가 클수록 그 표본에서 얻어지는 통계량이 더 정밀해진다는 것입니다. 만약, 금융데이터를 수집한다면 다음과 같은 선택을 해야 할 것입니다.

 1. 공개 기업 데이터 VS 비공개 기업 데이터
 - 상장된 기업들은 기업 정보 공개 의무에 따라 대중에게 재무제표를 공개해야 합니다. 그렇기 때문에 공개 기업의 데이터는 비공개 기업 데이터보다 접근하기가 훨씬 쉽습니다.

2. 회계 데이터 VS 시장 데이터
 - 공개 기업의 경우 재무제표 데이터뿐만 아니라 주가변동과 매매 호가, 거래량 등의 거래 데이터와 같은 금융 시장에 나오는 데이터에도 접근할 수 있습니다.

3. 국내 데이터 VS 글로벌 데이터
 - 많은 수의 리서처들, 특히 미국의 리서처들은 주로 미국 내의 데이터에 집중하는 편입니다. 더 이해하기 쉽고 신뢰할 수도 있고 접근하기도 더 쉽기 때문입니다. 하지만, 기업과 투자자가 세계화하는 분위기에서 국내 시장에만 초점을 맞추는 것은 적절하지 않을 수 있습니다. 특히, 세계 시장을 염두에 두고 있다면 더더욱 그러합니다.

4. 정량 데이터 VS 정성 데이터
 - 일반적으로 데이터베이스는 정량 데이터에 치중돼 있습니다. 수집된 데이터의 양이 방대하고 정성 데이터보다 저장과 검색이 용이하다는 장점 때문입니다. 예를 들어 공개 기업의 이사 수를 알려주는 데이터는 확보하기 쉽지만, 이사회 내의 알력이 얼마나 심한지를 알려주는 데이터는 확보하기 어렵습니다. 물론, 최근 소셜미디어 사이트가 급증하면서 정성 데이터를 읽고 분석하고 저장하기 위한 기법들이 자연스럽게 발달하고 있습니다.

 우리가 수집하려는 데이터의 유형에 따라 얻게 되는 결과는 달라질 것입니다. 그 이유는 우리가 데이터 유형을 선택하고 포집하면서 의도치 않는 편향이 스며들기 때문입니다.

 데이터가 객관적이라는 믿음을 고수하는 사람이라면 데이터 수집 과정을 살펴보는 것만으로도 그러한 생각을 몰아낼 수 있을 것입니다. 우리가 데이터 수집에 있어서는 조심해야 할 두 가지 편향으로 선택 편향(selection bias)과 생존자 편향(survior bias)이 있습니다.

 1) 데이터 수집에 영향을 미치는 편향

첫째, 선택 편향(selection bias)

 - 통계학에서는 가능한 큰 모집단에서 골라낸 표본으로 결론을 도출하는 대수의 법칙을 따르는 것이 완벽하게 합리적이라 생각합니다. 물론, 무작위 표본이어야 한다는 조건이 따릅니다. 일반적으로 간단한 방법으로 생각할 수 있지만 실제 사업이나 투자와 관련해서는 매우 어려울 수 있습니다.

 어떤 경우에는 원하는 결과를 얻기 위해 노골적으로 편향이 개입되기도 합니다. 예를 들어, 기업의 실적이 전반적으로 괜찮다는 것을 보여주기 위해 미국에서 시가총액이 가장 높은 기업들을 모아놓은 S&P500의 기업만을 표본에 집어넣는 결정을 내릴 수도 있습니다. 하지만 이것을시장 전체로 확대하여 일반화해서는 안 될 것입니다.

  추가로 데이터 수집에 아무런 영향도 미치지 않을 것이라는 믿음으로 내린 선택에 자신도 모르게 편향이 개입될 수 있습니다. 예를 들어 표본을 공개 기업으로만 한정하기로 한 선택 자체가 악영향을 미칠 수 있습니다. 이유는 데이터베이스 자체가 공개 기업에 대한 데이터만을 포함하기 때문입니다. 비공개 기업은 공개 기업보다 사업 규모가 대체로 작기 때문에 이러한 데이터에서 얻은 결괏값을 모든 사업체로 일반화해 적용해서는 안 됩니다.

 위의 편향을 조심하기 위해서는 데이터를 수집할 때 표본에서 제외시킨 데이터도 함께 살펴보는 것이 좋은 방법이 될 것입니다.

 둘째, 생존자 편향(survior bias)

 - 이것은 어떠한 이유로 데이터에서 제외된 것을 아예 무시하는 편향입니다. 생존자 편향을 보여주는 예로 저자는 동료 교수 "스티브 브라운"이 헤지펀드 수익률을 조사하면서 했던 연구를 들었습니다. 그동안 헤지펀드의 장기간 수익률을 관찰한 수많은 연구들은 헤지펀드가 기대를 훨씬 뛰어넘는 "초과 수익"을 달성했다고 결론을 내렸습니다. 하지만, "브라운"교수는 많은 분석가가 현존하는 헤지펀드들만을 가지고 과거 수익률을 추정하는 실수를 저질렀다고 지적합니다. 다시 말해 최악의 실적으로 사라진 헤지펀드들의 수익률은 포함되지 않은 것입니다. 당연히 이것은 표본의 평균 수익률을 끌어올리는 결과를 낳았습니다. 브라운교수는 위의 "생존자 편향"이 헤지펀드들의 평균 수익률 2~3%를 끌어올렸다고 결론을 내렸다고 합니다. 일반적으로 생존자 편향은 실패율이 높은 집단일수록 더 심각한 영향을 미칩니다. 따라서 소비재와 같은 종목에 투자하는 것보다 신성장(IT, 4차 산업 등) 신생기업에 투자하는 것이 더 큰 문제를 발생시킬 수 있다고 합니다.

 2) 잡음과 오차

 - 손으로 직접 데이터를 입력하는 시대에서 벗어난 컴퓨터 데이터 시대인 오늘날의 데이터의 신뢰도는 지나칠 정도로 매우 높아졌습니다. 아무리 데이터베이스를 신경 써서 관리하더라도 '데이터 입력 오차'는 생각보다 흔하게 발생됩니다. 때론, 중요한 결과 값을 바꿀 정도로 아주 큰 오차가 발생하기도 합니다. 결국, 이러한 '데이터 입력 오차'를 우선적으로 걸러내는 것은 리서처의 몫입니다.

 또 다른 문제는 특정 데이터가 누락되는 '결측치(missing data)'입니다. 이 문제를 해결하기 위한 방법 중 하나는 관련 결측치가 있는 관측치를 제거하는 것입니다. 하지만, 이는 표본의 크기를 줄일 뿐 아니라, 모집단 내 특정 소집단이 다른 소집단보다 결측치가 더 많이 발생할 경우 편향이 개입될 수도 있습니다. 

 이것은 저자가 미국 중심의 데이터를 글로벌 중심으로 옮겨가면서 자주 발생되는 문제라고 합니다. 예를 들어 저자는 기업의 부채 규모를 살필 때 리스 계약도 부채로 본다고 합니다. 미국 기업의 경우 리스 계약을 공개하는 것도 '정보 공개 의무'에 포함되지만 대다수의 신흥시장에서는 리스 계약에 대한 정보를 공개하지 않아도 됩니다. 이 문제를 해결하기 위한 두 가지 방법이 있는데, 첫 째는 리스를 포함하지 않는 전통적 부채의 정의로 돌아가 구시대적인 재무 부채 척도를 사용하는 것입니다. 둘 째는 리스 계약을 공개하지 않는 회사는 재무 부채 데이터 수집에서 아예 제외해 버리는 것입니다. 저자의 방법은 미국 기업에 대해서는 공개된 리스 계약을 부채에 포함시키고 리스 계약을 공개하지 않는 미국 외 기업들은 당해의 리스 비용을 근거로 미래에 지불하게 될 대략적인 리스 비용을 추정하는 것입니다.

 2. 데이터 분석
 - 수집한 데이터를 요약하고 기술해야 하며, 의사결정에 사용할 데이터들 사이의 관계도 탐구해야 합니다.

 데이터가 대규모일 때에는 데이터를 요약 통계량으로 바꾼 후 좀 더 복잡한 분석에 들어가야 합니다.  여기서 제일 기본이 되는 두 가지 통계값이 있는데 평균값(mean)과 표준편차(standard deviation)입니다. 평균값은 모든 데이터 측정값의 단순 평균을 의미하고 표준편차는 평균을 중심으로 측정값의 변동성이 얼마나 되는지를 의미합니다.

 측정값들이 평균 주위에 고르게 분포돼 있지 않으면 평균은 표본을 대표하는 숫자가 될 수 없습니다. 이때는 표본에서 딱 50%에 위치하는 중앙값(median)이나 가장 자주 나타나는 값인 최빈값(mode)을 구해야 합니다. 또한 표본 숫자들이 퍼진 정도, 즉 산포 정도를 보여주는 요약 통계량도 있습니다. 왜도(skewness)는 평균을 중심으로 했을 때 표본 숫자들의 대칭성 정도를 나타내고, 첨도(kurtosis)는 분포의 뾰족한 정도로서 평균값과 크게 다른 숫자들의 빈도를 보여줍니다.

 데이터 시각화를 선호하는 사람들이 자주 접하게 되는 것은 숫자를 그래프로 나타내는 분포도입니다. 데이터가 딱딱 떨어지는 이산형(discrete)이라면, 다시 말해 측정값이 유한수로만 구성돼 있으면 그 값이 등장하는 횟수를 세서 도수분포표를 만듭니다. 그리고 그것을 이용해 도수분포도를 그릴 수 있습니다. 

 데이터 측정값이 최댓값과 최솟값 사이의 값을 취하는 연속형(continuous)이라면, 이 숫자들을 작은 구간으로 쪼개고 각 구간의 숫자를 센 다음 결과를 히스토그램(도수분포를 나타내는 그래프)으로 도식화할 수 있습니다. 

그림1. 좌, 히스토그램(섬유제품 수분) / 그림2. 우, 분포 곡선

 히스토그램이 표준확률분포(정규분포, 로그정규분포, 지수분포)에 가까우면 이 표준분포의 특성을 그림으로 나타내어 데이터에 대한 통계적인 판단을 내릴 수 있습니다. 

 마지막으로 두 변수가 서로 어떻게 연동하는지를 측정하는 통계 척도와 도구가 있습니다. 가장 일반적인 연동 척도는 상관계수(correlation coefficient)를 들 수 있습니다. 두 개의 변수가 완벽히 일치하여 연동한다면 상관계수는  +1이고, 완벽히 반대로 연동한다면 상관계수는 -1이 됩니다.

 비슷하지만 다른 개념으로는 두 변수의 연동을 측정하지만 -1~+1의 범위에는 제한되지 않는 공분산(covariance)이 있습니다. 두 변수의 관계를 가장 간단히 시각화하는 방법은 점을 찍어 산포도(scatter plot)를 그리는 것입니다. 저자는 고성장 기업일수록 고 PER이라는 전통적인 가치평가가 정말로 맞는지 알아보기 위해 분석가들이 추정한 미국 기업들의 순이익 기대 성장률과 기업들의 PER을 대비시켜 아래와 같이 산포도로 나타내었다고 합니다. 

728x90

2016년 미국 기업들의 차후 5년간 EPS 기대 성장률 대비 PER

 희소식이라면 PER과 EPS 기대 성장률의 상관관계가 양(+)이므로 전통적인 가치평가가 틀린 것은 아니라는 점입니다. 그러나, 둘의 상관관계가 20% 정도로 별로 강하지 않다는 것입니다. 만약, 한 변수로 다른 변수를 예측하는 것이 목표라면 두 변수를 잇는 선을 찾는 회귀분석(regression analysis)의 방법이 가장 적합한 도구입니다. 단순회귀(simple regression)는 산포도를 그래프상 쉽게 표시할 수 있으며, 순이익(EPS) 기대 성장률에 대한  PER 회귀의 결과는 위의 그림과 같습니다. 회귀 구간에 있는 숫자들은 t 통계량으로 나타냈는데, t 통계량이 20을 넘으면 통계적으로 유의미하다는 뜻입니다. 회귀분석을 근거로 했을 때 기대 성장률 1%의 증가는 PER이 0.441이 늘어난다는 의미입니다. 따라서, 회귀분석을 이용해 순이익 기대성장률이 10%인 기업의 PER을 예상해 보면 아래와 같습니다. 

예상 PER = 19.86 + 4.410 = 23.27

 위의 산포도에서 R²가 21%라는 것은 회귀의 예측력이 낮다는 의미입니다. R²는 회귀의 정확도를 나타내는 결정계수로 0에 가까울수록 설득력이 낮고 1에 가까울수록 설득력이 높음을 의미합니다. 회귀의 가장 큰 장점은 여러 변수를 활용하여 설명하려는 변수인 단일 종속변수를 여러 독립변수에 연결할 수 있습니다. 따라서 어떤 기업의 PER 위험, 성장, 수익성과 어떤 관계에 있는지 알아보고 싶을 때에는 성장, 위험, 수익성을 나타내는 독립 변수에 대한 종속변수 PER의 다중회귀분석을 행하면 됩니다. 

 1) 데이터 분석에 개입하는 편향

 첫째, 우리는 평균을 지나치게 맹신한다

 - 사용할 수 있는 데이터와 분석 도구가 넘쳐흐르는 현재에는 대부분 사업과 투자결정에 "평균"을 근거로 삼고 있습니다. 어떤 투자자와 분석가들은 한 회사의 주식이 산업평균보다 낮은 PER에 거래되고 있으므로 주가가 싼 편이라고 말합니다. (저 또한 그런 부류의 투자자였습니다.) 또한 일부는 회사가 시장평균보다 부채비율이 높으므로 부채가 지나치게 많은 편이라고 주장합니다. 그러나 여기서 우리가 알아야 할 것은 평균은 비대칭 분포에서 어디에 초점을 맞춰야 할지를 정할 때 별로 훌륭한 대푯값이 되지 못한다는 것입니다. 1960년대의 분석가라면 많은 데이터를 다 사용하는 것이 시간만 소비하고 비효율적이라 주장할 수 있지만, 오늘날의 데이터 환경에선 평균값만을 활용하는 것이 오히려 비효율적입니다.

 둘째, 정규는 표준이 아니다

 - 통계학 수업을 들은 대다수의 기억에 남는 분포는 정규분포밖에 없다는 부끄러운 전설이 있습니다. 물론 정규분포는 매우 우하하고 편리한 분포입니다. 평균과 표준편차라는 딱 두 개의 요약 통계량만 있으면 정규분포의 모든 특징을 다 설명할 수 있습니다. 그리고 "이 사건이 평균에서 벗어나는 표준편차는 3이므로 이 사건이 일어날 확률은 1%에 불과하다"라는 식의 확률적 설명도 가능합니다. 하지만, 안타깝게도 현실에선 정규분포의 확률로 발생하지 않습니다. 특히, 사업과 금융 데이터는 정규분포를 바탕으로 예측하고 모델을 구축하는 행동을 멈추지 않습니다. 그러나가 예상치를 벗어나는 코로나와 같은 이벤트에 빈번하게 흔들립니다.

 셋째, 이상치 문제

 - 여기서 이상치(outlier)는 관측된 데이터 범위에서 벗어난 아주 작은 값이나 큰 값으로 통계 분석의 결과를 왜곡하거나 적절성을 위협하는 요인을 의미합니다. 일반적인 리서처들이 이상치 문제에 대응하는 방식은 처음부터 문제의 근원인 이상치를 멀리하는 것입니다. 하지만 이상치를 제거하는 행동이 오히려 편향을 가중시켜 위험을 불러올 수 있습니다. 사전분포(prior districbution)에 해당하지 않는 이상치는 빠르게 제거하고, 사전분포에 해당되는 이상치는 그대로 유지하기 때문입니다. 사업이나 투자 환경에서 벌어지는 위기에 대응하는 것이 본인의 주요 업무라고 여기는 사람이라면 가설에 말끔하게 들어맞는 데이터가 아니라 이상치에 가장 크게 관심을 두어야 한다고 주장할지도 모릅니다.

 3. 데이터 제시
 - 분석한 데이터를 타인에게 적절하게 제시해야 합니다. 타인은 도출된 정보를 이용할 수 있게 됩니다. 

 우리가 직접 의사결정을 내리기 위해 데이터를 수집하고 분석했다면 그 분석을 토대로 최상의 판단을 내릴 준비가 끝난 셈입니다. 하지만 의사결정자에게 제시할 목적으로 자신의 결정을 설명해야 하는 입장이라면 데이터에 익숙하지도 않고 흥미도 없는 청중에게 알맞은 데이터를 제시할 방법을 찾아야 합니다.

 1) 데이터를 제시하는 방법

데이터를 제시하는 방법은 크게 두 가지로 참조표를 이용하는 것과 그래프를 이용하는 방법으로 나눌 수 있습니다. 첫 번째 방법은 표를 이용하는 것으로 표의 유형은 크게 두 가지로 나눌 수 있습니다. 

  (ⅰ) 표

  ㈎ 참조표 : 방대한 양의 데이터가 담겨 있어 개별 부분에 대한 구체적인 데이터를 확인할 수 있습니다.

  ㈏ 데모표세부 집단의 차이점 및 그로 인한 결여를 보여주는 것을 목적으로 요약 내용을 제시합니다.

  (ⅱ) 그래프

   ㈎ 선그래프 : 시간 전체 데이터의 추세선을  보여주고 다양한 시계열을 비교할 때 가장 적합합니다.

국내 주식(코스피, 코스닥)과 S&P 500 비교

   ㈏ 막대그래프 : 세부 집단들 간의 통계량을 비교하기 적합합니다. 예를 들어 같은 섹터의 5개의 기업들의 PER을 비교하면 그중 이상치가 어느 것인지를 알아낼 수 있습니다.

국가별 단기 국채 대비 주식 위험 프리미엄

반응형

  ㈐ 원그래프 : 전체를 구성 요소로 쪼갤 때 사용하면 좋은 그래프입니다. 예를 들어 글로벌 기업의 국가별 매출을 보여주거나 여러 사업을 벌이는 기업의 사업별 실적을 보여줄 때 원그래프가 활용하기 좋습니다.

코로나 시기(2019년) EU 에너지원 별 전력 생산 비중

2) 데이터 제시의 편향과 과실

  - 제시하는 데이터의 축의 크기를 바꾸거나, 인포그래픽(정보를 시각화하는 것)을 조작 설계하여 실제보다 더 크게 보이게 만들어선 안됩니다. 따라서, 데이터 제시 단계에서는 모호한 내용을 담은 3차원 그래프로 의사결정에 혼란을 주는 것이 아닌, 그들이 더 나은 결정을 내리도록 돕는 것을 목표로 삼아야 합니다. 따라서, 텍스트로 설명해도 충분할 때는 표를 사용하지 말아야 하며, 표 하나로 충분할 때는 그래프를 덧붙이지 말아야 합니다. 또한 2차원 그래프만으로도 충분하다면 3차원 그래프를 사용하지 말아야 합니다. 

  오늘은 데이터를 정보로 바꾸는 처리 과정에서 어떤 식으로 왜곡과 편향이 스며드는지를 이야기했습니다. 데이터 수집 단계에서는 원하는 결과를 만들려는 의도에서 표본에 편향이 스며들고, 데이터 분석 단계에서는 이상치를 다루는 방법에 편향이 개입되고, 데이터 제시 단계에는 각 종 인포그래픽을 조작 설계하여 실제보다 왜곡되어 보이게 만들 수 있습니다.

 오늘의 이야기는 여기까지입니다. 여러분의 성투를 기원합니다.

728x90
반응형

댓글