Disclaimer; 제 블로그의 글들은 저의 주관적이고 개인적인 경험담을 바탕으로 작성되었습니다. 정확한 정보를 원하시는 분은 블로그 글보다는 공식 홈페이지를 참고하여 주시기 바랍니다.
구글 트렌드 빅데이터 연구로 유명한 세스 스티븐스-다비도위츠 박사의 모두 거짓말을 한다를 읽었다. 연구에서 데이터는 가장 핵심적인 재료이고, 얼마나 정확한 데이터를 얻을 수 있는가의 여부는 연구의 흥망을 가를 수 있을 정도로 가장 중요하다고 생각한다. 세스 스티븐스-다비도위츠 박사는 사람들의 구글 검색 데이터로 흥미로운 많은 연구들을 내놓았다. 이 책에서는 그가 했던 연구 외에도 핵심 데이터를 통해서 기존의 상식의 틀을 깨는 다양한 경우에 대해 재미있는 예시들을 제시한다.
책에서 많은 예시가 나오지만, 전부 다 기억할 수 없어서 머릿속에 남아있는 것들만 몇 개 나열해 보려고 한다. 예를 들어 미국 대통령 선거를 예측할 때, 기존의 설문 기관이나 매스 미디어가 하는 설문조사와 실제 대통령 선거 결과가 다른 경우, 어디에서 이 차이를 잡아낼 수 있는가에 대해 얘기해 볼 수 있다. 이 책의 제목에서부터 알 수 있다시피, 사람들은 익명으로 하는 설문조사에서도 실제 자신의 생각과 다른 의견을 얘기할 수 있다. 이러한 차이 때문에 실제 결과와 설문조사 사이의 간극이 생긴다.
이 간극을 메꿀 수 있는 것이 저자가 제시하는 구글 검색 결과를 토대로 한 예측이다. 즉, 설문조사에서 특정 후보에게 투표한다고 응답하는 것 보다, 그 사람이 구글 검색창에 어떤 것들을 검색해 보는지를 보는 것이 진짜 그 사람의 생각을 알 수 있다는 것이다. 예를 들어 어떤 사람이 설문조사에서는 오바마 대통령에게 투표한다고 해놓고, 스마트폰이나 노트북을 통해 검색할 때에는 흑인 비하 발언과 오바마 대통령에 대한 악의적 루머 등에 대해 검색한다면, 이 사람은 실제로는 오바마 대통령에게 투표를 하지 않을 가능성이 훨씬 높다는 것이다.
이렇게 검색창 앞에서 솔직해지는 사람들의 특성 덕분에, 사람들이 대체로 대답하기 껄끄러운 질문에 대해서 솔직하게 대답한 데이터를 얻을 수 있고, 설문조사와 실제 생각 간의 왜곡된 지점을 바로잡을 수 있는 것이다. 더 나아가서, 구글 트렌드 데이터 뿐만 아니라 도움이 되는 특정 데이터들을 활용하여 전통적으로 생각하던 고정관념이 틀린 부분에 대해서도 정확하게 짚어낼 수 있다.
책에서 나온 예시들 중 기억나는 것들 몇 가지가 있다. 장래가 촉망되는 젊은 경주마를 사고 파는 경매장에서 전통적으로 사용되던 방식은 혈통에 관해 알아보고 말을 고르는 방법이었다. 그러나 이 방법이 아닌, 경주마의 장기 크기나 장기의 특성 등에 주목한 빅데이터를 활용하여 말을 구매한 사람들이 나중에 보니 혈통에 의해 말을 산 경우보다 훨씬 좋은 말을 고르는 경우이다.
또 다른 예로는 미국에서 성공한 NBA 선수들의 출신 환경에 대한 오해를 푸는 것이었다. 대개 성공한 NBA 선수들은 어린 시절 가정의 재정 상태가 어려웠거나, 전통적인 가족의 모습이 아니거나 하는 등의 어려움이 있았기에 그들이 성공했다는 편견에 대한 것이다. 실제로 NBA 선수들을 조사한 결과, 집안이 어려웠거나 혹은 편부모와 자랐거나 하는 사연이 있는 선수들은 매우 적었다. 전통적인 가정에서 중산층 이상의 부모를 두었고, 성격적 결함이 적으며, 정규 교과 과정을 마친, 표준 이상의 키를 가진 사람들이 NBA에서 지속적인 성공을 거두며 안정적으로 살아가는 경우가 대부분이었다.
또 나의 시선을 끌었던 조사는 명문 고등학교 진학에 관련된 것이었다. 대개 사람들은 명문 고등학교에 진학해야지만 성공이 보장된 삶을 살 수 있다고 생각한다. 이 말이 진실인지 입증해 보기 위해 뉴욕의 한 명문 고등학교 졸업생과, 그 학교에 입학시험을 치렀지만 합격하지 못했던 학생들을 대상으로 조사를 했다. 조사 대상은 한 문제 차이로 학교에 입학했던 사람들과, 한 문제 차이로 근소하게 입학하지 못했던 학생들이었다. 이 학생들이 살아온 결과를 가지고, 고등학교 입학이 미래의 성공에도 크게 영향을 미치는지를 조사했다. 결과는 신기하게도 근소한 차이로 고등학교에 합격했던 학생들과, 그렇지 못했던 학생들이 사회에서 큰 차이가 없었다는 것이다. 그들은 비슷한 수준의 대학에 진학했고, 그 후에도 비슷한 직업군에 종사했다. 즉, 특정 고등학교 합격/불합격이 그들이 살아가는데 크게 영향을 미치지 않았다는 것이다.
책에서 한가지 또 흥미로웠던 내용이 있다. 어떤 결과를 도출해 냈을 때 그 결과가 어떻게, 왜 나오게 되었는지 그 전부를 알 필요는 없다는 것이다. 결과가 도출되었다면, 그것을 필요한 곳에 알맞게 적용하는 것만으로도 충분하다는 것. 일어난 일들 모두를 분석하고, 원인을 찾으려고 하는 것이 때로는 불필요하다는 것을 읽고 나니 그 말만으로도 머리가 한결 가벼워지는 느낌이다.
사람들이 검색창에 어디가 아플 때 검색을 하게 되는데, 어떤 증상들을 검색하는 사람들이 결국에는 비슷한 큰 질병을 겪었다는 결과도 흥미로웠다. 나의 신체에서 일어나는 여러 증상들을 검색한 것이, 내가 어떤 병에 걸릴 가능성이 큰지 미리 알려줄 수 있는 것이다.
책이 2018년에 처음 출간되었기 때문에 AI에 관련된 내용은 등장하지 않았다. 그럼에도 아직까지는 이 책이 시사하는 바가 크다고 생각한다. 빅데이터가 모이고 AI를 통해 분야를 뛰어넘는 데이터 학습이 이루어지게 된다면, 미래에는 그저 검색을 해 보는 것만으로도 지금보다 훨씬 더 많은 것들을 알 수 있는 시대가 올 것 같다.
'소소한 이야기' 카테고리의 다른 글
나이키 런 클럽 (NRC) 러닝 레벨 (2) | 2024.11.20 |
---|---|
호프 자런의 '랩걸'을 읽고 (5) | 2024.11.19 |
조이스 캐럴 오츠의 '좀비'를 읽고 (2) | 2024.11.18 |
브리트니 스피어스의 '더 우먼 인 미'를 읽고 (5) | 2024.11.17 |
에너지젤 리뷰: 구(GU), 마우르텐(Maurten), 글루코스(Glukos) (1) | 2024.11.16 |
댓글