ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 영어 단어 7천개로만도 일상회화가 가능하다는 지프의 법칙은 무엇인가 ?
    아들을 위한 인문학/과학 2021. 12. 29. 04:12

    우리나라 사람들이 가장 많이 사용하는 단어는 무엇일까 ? 책이나 신문, 잡지 등에 실린 글을 전부 컴퓨터로 데이터베이스화한 후 각 단어의 사용빈도를 세야하기 때문이다. 지난 2000년에 고려대 국문과 김홍규 교수가 이 작업을 해서 127종 토대로 우리말과 글 150만 어절을 정리하여 컴퓨터로 분석해 한국어 어휘의 사용빈도를 조사했다

     

    한국인이 즐겨 사용하는 단어는 일반명사의 경우는 사람, 고유명사의 경우 한국, 동사는 하다, 형용사는 없다, 접속사는 그러나라고 한다. 일반명사의 경우 사람에 이어 때, , , 사회, , 문제, 문화, 집 경우가 10위 안에 들어있다. 재미있는 것은 사용빈도 상위 1천개의 단어만 알면 누구든 한국어의 75%를 이해할 수 있다는 사실이다. 우리가 일상생활에서 주로 사용하는 단어는 대략 1천개 안팎으로 한정돼 있다는 의미이다. 표준국어대사전에 실린 단어가 30만개라니 우리가 사용하는 단어는 한국어 전체 어휘의 0.3%정도 밖에 안 되는 셈이다

     

    미국에서도 이와 비슷한 연구가 있었는데 하버드 대학교 언어학자 조지 지프는 영어로 된 책에 나오는 단어들을 모두 세어 그 빈도를 조사했다. 그 결과 미국인이 가장 많이 사용하는 단어는 the였으며 of, and, to가 그뒤를 이었다. 그런데 흥미로운 것은 순위가 내려갈수록 사용빈도가 기하급수적으로 떨어진다는 사실이다. 한책에 수록된 단어를 조사해 본 결과 가장 많이 사용된 단어는 the가 모두 1천번 등장하고 두 번째 많이 나오는 ofthe가 나온 빈도의 1/2인 약 5백번이 세 번째 andthe1/3로 이렇게 점점 줄어들어 나머지 대부분의 단어들은 제한적인 횟수만 사용되더라는 것이다. 즉 자주 사용되는 단어는 소수에 불과하고, 다른 대부분의 단어들은 비슷하게 적은 횟수로 쓰인다는 얘기다

     

    이것을 수식으로 표시해 사용 빈도를 Y라고 하고 순위를 X라 하면 이들 사이의 관계는 Y=cX-a로 표현된다. 이것을 로그-로그 그래프로 그려보면 a를 기울기로 갖는 직선 그래프를 얻게 된다. 두 변수의 관계가 이와 같은 그래프로 표현될 때 이것을 수학에서는 베키의 법칙이라고 부르는데 일반적으로 power law라는 말을 더 많이 쓴다. 우리가 일상생활에서 무의식중에 사용하는 단어들 이면에 빈도에 대해 이렇게 정교한 법칙이 있었다니 얼마나 놀라운 일인가 !

     

    미국 환경학자 도넬라 메도우즈는 세계가 만일 100명의 마을이라면이라는 제목으로 세계 고소득층 상위 20%가 전체 재산의 75%를 소유하고 있으며 최하위 20%는 겨우 2%만을 소유하고 있다고 하였다. 우리나라 종합소득세 신고현황을 보더라도 고소득자 20%가 대한민국 전체 소득의 80% 이상을 차지했다고 한다. 부동산은 더 심해서 상위 10% 부자가 대한민국 땅덩어리의 90% 이상을 소유하고 있다고 한다, 이처럼 언어학 분야에 지프의 법칙이 있듯이, 경제학에서는 파레토의 법칙이 있다

     

    또한 한나라의 도시를 인구가 많은 순서대로 나열했을 때 인구수와 순위와의 관계를 표시하면 영어단어처럼 로그-로그 그래프에서 직선형태를 띤다. 중국의 경우 베이징, 상하이, 텐진, 칭다오 등 대도시에 많은 사람들이 밀집해 사는 반면 나머지 도시나 마을에 사는 사람들의 숫자는 급격히 떨어져 대다수의 도시는 인구수에서 별 차이가 없다. 우리나라의 경우도 서울에 전체 인구의 1/4이 모여 살고 있으며 나머지 부산, 대구, 인천으로 내려갈수록 그 숫자는 급격히 떨어지고 대다수의 지방에서는 대체로 비슷한 수의 사람들이 모여 산다

     

    웹페이지에서도 이런 현상을 관찰할 수 있다. 사람들이 얼마나 자주 방문했는가를 나타낸 조회수별로 웹페이지의 순위를 매겨보면 조회 순위가 떨어질수록 조회수가 기하급수로 떨어져 대부분의 웹페이지들은 몇몇 사람들만이 들어갔다 나오는 정도라는 것이다. 맥주 소비량도 전체 인구의 20%가 전체 맥주 소비량의 80%를 소비한다

     

    언어학의 지프의 법칙, 경제학에서 파레토의 법칙, 베키의 법칙고 무수한 Power law의 공통적인 특성을 가지고 있다. 바로 불평등과 불균형이다. 또 이런 양상은 어떤 스케일에서 관찰하든 같은 패턴을 보인다는 특성이 있다. 이렇게 다양한 분야에서 스케일에 무관하게 같은 구조를 되풀이하는 것을 self-similarity라고 부른다.

     

    그렇다면 이 복잡한 세상이 다양한 장소에서 이런한 power law 패턴이 나타나는 이유는 무엇일까에 대해 지프는 1949년 인간 행동과 최소 노력의 법칙에서 지프는 인간의 행동이 최소 노력으로 최대 효과를 얻으려는 특징이 있다고 믿었다. 언어는 정보를 전달하는 수단으로 언어를 사용할 때도 인간의 최소의 노력으로 가장 효과적으로 자신의 생각을 표현할 수 있도록 문법을 변화시키고 말의 패턴을 조절해왔을 것이라고 가정했다. 1천개의 영어단어만 알아도 75%의 일상대화를 이해할 수 있는 것도 바로 이 때문이다

     

    한 물리학자는 원숭이를 타자기 앞에 데려다 놓고 마음껏 두드리게 한 다음 원숭이가 친 문장을 분석한 결과 그 문장들 역시 지프의 법칙을 만족시킨다고 학계에 보고하기도 했다. 다시 말해 최소의 노력이라는 가정 없이도 지프의 법칙은 성립할 수 있다는 것이다. 따라서 이 문제는 명확한 대답이 없으며 논쟁 중에 있다고 해야 한다

     

    한편 파레토의 법칙은 경제적 불평등이 거부할 수 없는 자연의 법칙이자 인간의 숙명인 양 주장하는 것 같아 씁쓸하다. 시스템의 동역학적 특성을 연구하는 물리학자들은 파레토의 법칙이 경제적 불평등을 정당화하는 논리가 아니라 시스템을 재정비하도록 경각심을 불러일으키는 사이렌 역할을 했다고 믿는다. 이제 파레토의 법칙을 규명하고 이 시스템을 변화시켜야 경제적으로 평등하고 정의로운 분배가 이루어질 수 있을지 연구하는 일이다. 인간의 법칙은 변화할 수 있는 법칙이기 떄문이다

     

    출처 : 정재승 <과학의 콘서트>

    댓글

Designed by Tistory.