Twitter Facebook Google+ Flickr Tumblr
Comments Closed

J.K 롤링을 고백하게 만든 기술, 법언어학

한 일주일쯤 된 뉴스인데, 무명의 추리소설 작가가 쓴 The Cuckoo’s Calling이라는 책이 사실은 해리포터의 작가인 J.K Rowling이 Robert Galbraith란 가명으로 쓴 글이라는 얘기가 있었다. 처음 이를 밝혀낸 영국의 선데이타임즈 뿐만 아니라 NYT에서도 이 사실을 기사화했고, 국내에서도 열심히 받아적은것[1]으로 알고 있다.

어떻게 밝혀지게 되었는지에 대한 뒷얘기가 NYT에 올라와 있고, 한국에서는 임정욱님(@esitima7)블로그에 소개해주셨다.

우선 그는 인터넷으로 JK롤링의 최근작 The Casual Vacancy와 The Cuckoo’s Calling 사이에 많은 유사성을 찾아냈다. 두 책 모두 공통의 에이전트, 출판사, 편집자가 맡고 있었다. JK롤링을 맡을 정도의 거물편집자가 로버트 갈브레이스라는 무명작가를 같이 담당한다는 것부터 이상했다.

그리고 책을 읽기 시작했다. 군인출신에 지금은 사설탐정으로 일한다는 사람이 썼다고 하기엔 믿기어려운 글솜씨였다. 그는 쿠쿠스 콜링과 해리포터 등 몇개의 JK롤링의 저서를 언어전문가에게 보내 분석을 의뢰했다. 역시 많은 유사점이 발견됐다. 비슷한 라틴어문구를 썼다든지 일부 장면의 설정이 비슷했다.

글을 보면 언어전문가에서 분석을 의뢰했다는 얘기가 나오는데, 이 분석이 어떠한 것이었는지 내셔널 지오그래픽 매거진에 자세한 설명이 나온다. 글의 제목은 “How Forensic Linguistics Outed J.K. Rowling (Not to Mention James Madison, Barack Obama, and the Rest of Us)”이다.

Forensic Liguistics를 뭐라고 해석하는게 좋을까 고민을 하다가 검색을 좀 해봤는데, 법언어학이 그나마 가장 가까운 단어가 되지 않을까 싶다.[2] 읽어보면 재밌으면서도 오싹한 부분이 좀 나오는데, 인상적인 부분을 소개해보려한다.

With computers and sophisticated statistical analyses, researchers are mining all sorts of famous texts for clues about their authors. Perhaps more surprising: They’re are also mining not-so-famous texts, like blogs, tweets, Facebook updates and even Amazon reviews for clues about people’s lifestyles and buying habits. The whole idea is so amusingly ironic, isn’t it? Writers choose words deliberately, to convey specific messages. But those same words, it turns out, carry personal information that we don’t realize we’re giving out.

컴퓨터와 정교한 통계 분석을 통해서, 연구자들은 글의 저자에 대한 단서를 위해 모든 종류의 유명한 텍스트를 모은다. 아마도 가장 놀라운 것은 유명한 글 뿐만이 아니라, 블로그나 트윗, 페이스북 업데이트, 심지어 생활스타일과 구매 습관을 알기 위해 아마존에 쓰여진 리뷰까지도 모은다는 것이다. 이 모든 아이디어들은 놀랍게도 아이러닉하다. 작가는 특정한 메시지를 전달하기 위해 단어를 신중하게 고른다. 그러나 그러한 단어들 속에는 의식하지 못했던 개인적인 정보들까지 담겨져있다.

그러니까 유명한 사람에 대한 것만 모으는게 아니라는 얘기다. 기술적인 부분에 대해서 조금 얘기를 해보자면…

One of those tests, for example, compared all of the word pairings, or sets of adjacent words, in each book. “That’s better than individual words in a lot of ways because it captures not just what you’re talking about but also how you’re talking about it,” Juola says. This test could show, for example, the types of things an author describes as expensive: an expensive car, expensive clothes, expensive food, and so on. “It might be that this is a word that everyone uses, like expensive, but depending on what you’re focusing on, it [conveys] a different idea.”

예를 들어 이러한 테스트들 중에 하나는 쌍으로 묶이는 단어들이나, 일련의 부사들을 각각의 책에서 비교하는게 있다. “많은 방법들에서 개별적인 단어를 비교하는것보다 낫다. 왜냐하면 이런 경우 당신이 무엇에 대해 말하려고 하는지 뿐만 아니라 당신이 어떻게 말하는지에 대해서도 확인할수 있기 때문이다.” 라고 Juola는 말한다. 예를들어 이 테스트는 expensive라는 단어를 작가가 어떻게 묘사하는지에 대해 보여준다. : expensive car, expensive clothes, expensive food 등등. “expensive라는 단어는 모든 사람들이 사용하는 단어처럼 보이지만, 당신이 무엇에 집중하느냐에 따라서 다른 아이디어를 담고 있을수도 있다.”

간단히 말하면 동일한 의미를 가진 다른 단어를 사람마다 쓰는 방법이 다르고, 그걸 통계적으로 분석해낼수 있다는 얘기다. 이 외에도 단어의 길이, 문단의 길이, 관사가 전체 글에서 얼마나 쓰였는지에 대한 분석도 병행하면 작가가 누군지 추론이 가능하다고 한다.

J.K 롤링의 책들을 분석한 둘 중 다른 한명인 Peter Millican은 직접 그러한것들을 분석하는 Signature라는 프로그램을 홈페이지에서 다운로드 받을수 있게 해뒀다.

이 방법은 J.K 롤링의 The Cuckoo’s Calling 뿐만 아니라 다른 사례에서도 적용된적이 있다고 한다. 오바마의 책인 “Dreams from my Father”가 테러리스트인 Bill Ayers에 의해 쓰여졌다는 얘기에 대해서 그렇지 않다는걸 판독해내기도 했고, 외국정부에 대해 비판적인 익명의 글을 쓴 사람이 미국에서 추방당할 위기에 처하자 그러지않도록 법적인 증거를 마련해주기도 했다고 한다.[3]

이러한 기술들이 널리 사용되면(실제로 아마존에서는 제품 리뷰를 분석하는데 사용된다고 한다.), 결국 완전한 익명이 존재할수 있을까 하는 생각이 든다. 공개된 곳(인터넷이라든가… 인터넷 같은곳)에 글을 쓸 때는 실명으로 쓰든 익명으로 쓰든 언제든지 나라는 것이 밝혀질 수 있다는 생각으로 신중하게 써야한다. 심지어 포탈에 쓰는 짧은 댓글에서도 말이다.

NGM의 글에서는 마지막을 아주 위트있게 썼다.

In fact, it was a good thing the original tipster of the Rowling news deleted his or her Twitter account, Juola says. “If we still had the account, we could have looked at the phrasings to see if it corresponded to anyone who works at the publishing house.”

Juola가 말하길 사실 롤링의 뉴스에 대해 처음 가르쳐준 사람이 그의 트위터 계정을 삭제한것은 잘한 일이다. “만약 그 계정이 아직까지 있다면, 말투를 통해서 그 사람이 출판사에서 일하는 사람과 일치하는지 확인해볼수 있었을 것이다.”

그랬다면 이게 마케팅인지 아니면 정말 재밌는 해프닝인지도 알수 있을텐데 말이다 :)


  1. 최초 이 기사를 쓴 곳은 영국의 선데이타임즈인데, 출처를 밝히는 국내 언론사가 많지 않다는건 좀 아쉽다. 그냥 영국 언론이라는 식으로 뭉뚱그릴뿐.  ↩

  2. 국내에서 이걸 뭐라고 부르는지에 대해서 정확히 아는 분은 트위터나 이메일로 피드백을 주시길 바란다.  ↩

  3. 국내에서도 대필 논란이 있었던 적이 많은데, 한국어에 있어서는 이런 분석툴이 있는지… 얼마나 연구가 됐는지도 궁금하다.  ↩