The Website for CWB-based Multi-Lingual Corpora (MILCA)

 
 
빅데이터 시대의 언어연구 - 내 손안의 검색엔진



책 내용 소개

 

언어학적 빅데이터인 코퍼스를 이용하여 언어의 여러 특성을 발견해내는 연구가 이미 1990년대 초반부터 시작되었고, 이제는 코퍼스 기반 언어연구가 연구방법론의 트렌드가 되었다. 이 연구서에서는 텍스트를 다루는 사람은 누구나 디지털화된 텍스트를 손수 CWB 검색시스템으로 구축할 수 있음을 보이고, 더 나아가 이 시스템을 이용하여 여러 가지 정보를 추출하여 활용하는 방안을 제시한다.
이 책에서 다루는 대상언어는 영어와 한국어, 독일어, 프랑스어, 스페인어 및 인도네시아어 등이고 연구대상으로 삼은 언어현상은 파생어, 연어 관계, 구문과 어휘의 상관관계, 텍스트의 핵심도 및 문서유사도 등이다. 코퍼스로부터 추출한 빈도와 용례를 기초로 하여 6개 언어에 대해 여러 층위의 언어현상을 분석하고 필요에 따라 Perl-스크립트와 R-스크립트를 이용하여 통계적 분석을 추가한다. 연구방법론으로는 공연구조적 분석, 변별적 공연어휘소 분석, 위계적 군집분석 및 대응분석 방법론 등을 적용한다.
이 연구서는 일반 언어학자들과 외국어 교육자들이 자신들의 연구나 교육에 필요한 다양한 데이터 및 용례를 효율적으로 추출하는데 있어 적지 않은 도움이 될 것이다.

 

목 차

 

제1장 서론-연구목적 및 연구대상

제2장 CWB-기반 코퍼스의 구축 방법

제3장 CQP 검색언어의 이해

제4장 영어 분석

제5장 한국어 분석

제6장 독일어 분석

제7장 다중언어 코퍼스의 활용

7.1 프랑스어

7.2 스페인어

7.3 인도네시아어

제8장 종합

부록

참고문헌


■ 참고문헌 보충

1. Biber, Douglas/Johansson, Stig /Leech, Geoffrey /Conrad, Susan/Finegan, Edward (1999). Longman Grammar of Spoken and Written English. Longman.

::: 이 책은 코퍼스언어학의 고전으로서 본 학술서의 본문에서는 Biber et. al (1998) 혹은  Biber et. al (1999)으로 지칭된 연구서이다.

2. 이민행 (2012). 독일어 NPN-구문의 통사의미적 특성에 관한 연구. 독어학 제26권. 197-224. 한국독어학회.



부 록

저자 소개


이민행(李民行)

           leemh at yonsei.ac.kr

          http://www.smart21.kr/

• 독일 뮌헨대학교 대학원 졸업 (1991), 언어학박사

- 전공: 독어독문학부내 이론언어학, 부전공: 독어학, 논리학

• 하버드 대학교 초청, 하버드-옌칭 연구소 방문학자 (2002-2003)

• 국립 제주대학교 독어독문과 조교수 (1992-1995)

• 연세대학교 문과대학 독어독문학과 조교수, 부교수, 정교수 (1995-현재)

• 문화관광부 지원 국어정보화 아카데미 조직위원장 역임(제1회, 제2회, 제7회)

• 한국언어학회 부회장 (2006-2008, 2014-2016)

• 한국독어학회 『독어학』편집위원장 (2010-2012, 2014-2016)


■ 연구분야

• 의미론, 전산언어학, 코퍼스언어학, 기계번역, 광고언어학


■ 주요저서

• 『독어학 연구방법론-인문학적 발견의 변증법』(도서출판 역락, 2005)

• 『전산 통사•의미론-이론과 응용』(도서출판 역락, 2005)

• 『독일어 전산 구문문법 연구』(도서출판 역락, 2012)

• 『심리동사의 의미론』(공저자: 이익환, 도서출판 역락, 2005)

• 『언어, 매체 그리고 권력』(6인 공저, 연세대 대학출판문화원, 2015)




CWB의 설치과정

 

1. 아래에 제공된 [CWB 설치파일]을 다운받는다.
2. 압축파일을 적당한 폴더에 넣어두고 압축을 푼다.
3. Active Perl을 설치한다. (파일 ActivePerl.msi를 더블클릭함으로써 설치를 시작한다.)
4. R for windows 2.8.0을 설치한다. (파일 R-2.8.0.exe를 더블클릭함으로써 설치를 시작한다.)
5. RTools를 설치한다.(파일 Rtools28.exe를 더블클릭함으로써 설치를 시작한다.)
6. Less를 설치한다.(파일 less-394.exe를 더블클릭함으로써 설치를 시작한다.)
7. 폴더 cwb를 c:에 복사한다.
8. Path를 설정한다.
(Windows 7/8을 기준으로 상세한 절차를 설명하기로 한다.)

8.1 제어판을 클릭한다.
8.2 “시스템 및 보안”을 선택해서 클릭한다.
8.3 오른편 화면의 “시스템”을 클릭
8.4 왼편 메뉴의 "고급 시스템 설정" 클릭
8.5 우측 하단의 "환경변수"를 클릭
8.6 “시스템 변수(S) 영역에 위치한 Path를 선택하여 블록을 지정한 후에 하단의 "편집"을 누른다.
8.7 하단“시스템 변수(s)” 창에서 “편집”을 선택한 후에 “변수 값(V)”의 가장 뒤쪽에 ;C:\CWB\bin; 를 추가한다.
8.8 하단의 “확인” 키를 눌러 “환경 변수(N)” 영역에서 벗어난다.
8.9 다시 하단의 “확인” 키를 눌러 “고급” 영역에서 벗어난다.
8.10 다시 “확인” 키를 눌러 “시스템” 영역에서 벗어난다.

*** Cwb 오픈소스 웹사이트는http://cwb.sourceforge.net/download.php 이다. 아래에 제공된 [CWB 설치파일]은 이 사이트에서 받은 것이다.

 


[CWB 설치파일] 다운받기


검색엔진 CQP를 실행하는 방법

1. 첨부한 스크린샷과 같이 도스창에서 cqp -e -r registry라는 명령을 실행한다.
2. 어휘빈도를 추출하는 검색을 연습한다.
3. 특정한 파생어 목록을 추출하기 위해 정규표현식을 이용한 검색을 실행한다.



새로 인코딩한 코퍼스를 CWB 시스템에 추가하는 절차

1. 인코딩된 코퍼스는 데이터베이스 폴더 하나와 등록파일 하나로 구성된다.
2. 데이터베이스 폴더는 폴더 cwb\corpora 안에 추가한다.
3. 등록파일은 폴더 cwb\copora\registry 안에 추가한다.



▶ 아래에 첨부한 연습용 코퍼스를 CWB 시스템안에 추가하는 방법

- 압축파일을 풀면 폴더 하나와 파일 하나를 얻는다.
-REG으로 시작하는 이름을 가진 파일이 바로 등록파일인데,
이 파일을 폴더 cwb\corpora\registry 안에 추가한 다음에,
도스의 ‘이름 바꾸기’ 명령을 써서 파일의 이름으로부터 접두사 REG을 삭제하고 나머지는 그대로 둔다.

코퍼스 다운받기


▶ BNC 21을 저자에게 요청하는 방법

1. 옥스포트대학의 BNC 코퍼스 사이트를 방문한다: http://www.ota.ox.ac.uk/desc/2554
2. 사이트에서 이메일로 xml 형식의 파일들로 구성된 BNC 텍스트 코퍼스를 확보한다.
3. BNC 텍스트 코퍼스를 확보한 사실을 입증할 수 있도록
옥스포트대학에 이메일로 요청한 캡쳐화면(snapshot)과 자신의 PC에 저장된 BNC폴더 캡쳐화면을 생성한다.
4. 캡쳐화면 둘을 저자의 이메일 계정(leemh at yonsei ...)으로 보내서 CWB 시스템으로 인코딩된 BNC21을 요청한다.

@ BNC 코퍼스의 경우, 저작권법의 제약을 받기 때문에 임의로 배포할 수 없습니다. 이에 대해 이해를 부탁드립니다.


▶ SJ21과 SJM21을 저자에게 요청하는 방법

1. 국립국어원 사이트를 방문하여 회원가입을 한다: https://ithub.korean.go.kr/user/member/memberJoinStep1.do
2. 회원가입후에 이 사이트에서 [현대 문어 형태분석말뭉치]와 [현대 구어 형태분석말뭉치]를 다운받아 말뭉치를 확보한다.
3. 세종계획 말뭉치를 확보한 사실을 입증할 수 있는 인증샷을 캡쳐프로그램을 이용하여 생성한다.
4. 인증샷을 저자의 이메일 계정(leemh at yonsei ...)으로 보내서 CWB 시스템으로 인코딩된 SJ21과 SJM21을 요청한다.

@ 세종말뭉치의 경우, 저작권법의 제약을 받기 때문에 임의로 배포할 수 없습니다. 이에 대해 양해를 부탁드립니다.



Perl-스크립트 목록

스크립트명

기능

연관 장

TreetagSJ.pl

UTagger를 실행해서 얻은 결과파일을 TreeTagger 포맷으로 변환함

제2장

Freq.pl

레마 빈도 파일을 입력으로 하여 누적빈도 및 누적백분율을 산출함

제4장-제6장

trans2MT.pl

테이블 포맷의 빈도데이터를 행렬 포맷으로 변환함

제4장-제6장

classID.pl

개별 레마에 의미부류를 할당함

제4장

getStatistics.pl

개별 레마를 대상으로 누적빈도와 누적백분율을 산출함

제4장

ccgRelRel.pl

두 개의 빈도파일을 입력으로 하여 통합빈도 파일 하나를 출력함

제4장-제7장

TreeTagger의 설치과정

 

1. 아래에 제공된 [TreeTagger 설치파일]을 하드디스크 C: 나 D: 로 다운받는다.
2. 다운받은 위치에서 압축파일을 푼다.

2.1 압축파일의 이름위에 마우스를 놓고 오른쪽 버튼을 누룬다.
2.2 “TreeTagger\압축풀기”를 선택한다.

3. 압축푸는 과정이 완료되면 폴더안의 하위폴더 bin\으로 이동한다.
4. 파일이름 "wintreetagger"위에 마우스를 올려놓고 우측 버튼을 눌러 "바로가기 만들기"를 선택한다.
5. 새로 만들어진 바로가기 파일을 "바탕화면"으로 옮겨놓는다.

*** 트리태거 웹사이트는 http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/ 이다. 인용시에는 이 사이트를 언급해야 한다.

 


[TreeTagger 설치파일] 다운받기



TreeTaggerU8의 설치과정

 

1. 아래에 제공된 [TreeTaggerU8 설치파일]을 하드디스크 C:로 다운받는다.
2. 다운받은 위치에서 압축파일을 푼다.

2.1 압축파일의 이름위에 마우스를 놓고 오른쪽 버튼을 누룬다.
2.2 “TreeTaggerU8\압축풀기”를 선택한다.

3. 새로운 파일에 대해 프로그램을 실행할 때에는 파일을 먼저 C:\TreeTaggerU8\bin 폴더안으로 옮긴 다음에 UTF8로 인코딩한다.
4. 폴더안의 파일 how2runTreeTaggerU8.jpg에 정리된 실행방법에 따라 새로운 파일을 태깅하거나 청킹한다.
*** 트리태거 웹사이트는 http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/ 이다. 인용시에는 이 사이트를 언급해야 한다.

 


[TreeTaggerU8 설치파일] 다운받기




Exchange Rates Widget