RAW CORPORA

  RAW CORPORA CONTENTS - PART I
DICORA
2015-11-20 | | 조회 1,049 | 댓글0


CONTENTS - PART I

 

 

 

1. POLITICAL NEWS - 4 TYPES - 50,000 Token size {2015.11~2016.02}

    정치면 신문기사 보수 2가지 & 진보 2가지

     [1] CHOSUN 조선일보

     [2] DONG-A 동아일보

     [3] HAN-GYELYEY 한겨례신문

     [4] OH MY NEWS 오마이뉴스

 

2. POLITICAL REPLIES- 4 TYPES - 50,000 Token size {2015.11~2016.02}

    정치면 인터넷댓글 보수 2가지 & 진보 2가지

     [1] CHOSUN 조선일보

     [2] DONG-A 동아일보

     [3] HAN-GYELYEY 한겨례신문

     [4] OH MY NEWS 오마이뉴스

 

3. REVIEW-RAW CORPORA - 4 TYPES - 100,000 Tokens (12,000 Sentences) / corpus

    온라인 사용자 리뷰글 원시코퍼스 각 10만 토큰 (약 11,000~13,000 문장크기)

     [1] PL (Politic Opinion) - 정치적 오피니언 문장 모음

     [2] IT (IT-Product Review) - IT(특히 휴대폰류) 사용자 후기글 모음

     [3] RS (Restaurant Review) - 맛집 사용자 후기글 모음

     [4] PS (Plastic Surgery Review) - 성형수술 후기글 모음

  

4. MUSE-TWEET-RAW-CORPORA - TOTAL (14만 트윗 = 130만 토큰)

    한국어 트위터 원시코퍼스 3가지 파일 (전체 파일 & 극성관련 27,000 트윗글 & 무극성 트윗글 11만개)

     [1] TOTAL TWEETS: 140,000 TWEETS (= 1,300,000 Tokens)

     [2] POLARITY-RELATED TWEETS: 27,000 TWEETS (300,000 Tokens)

     [3] NO-POLARITY TWEETS: 110,000 TWEETS (1,000,000 Tokens) 

 

5. SEJONG-RAW-CORPORA - 7 TYPES {DIVERSE SIZE}

    세종 코퍼스에서 연구-실습용으로 구성한 코퍼스 - 다양한 토큰 사이즈

     [1] CREATIVE WRITING - 25,000 Tokens {Integrated In FRENCH UNITEX}

     [2] ENJOYING MOVIES - 32,000 Tokens

     [3] THE BOY PLAYING A FLUTE - 36,000 Tokens

     [4] NGO GOVERNMENT POLICY - 49,000 Tokens

     [5] THE SCENT OF PEOPLE - 32,000 Tokens


     [6] SEJONG-WRITTEN-CORPUS-150,000 Tokens

     [7] SEJONG-SPOKEN-CORPUS-150,000 Tokens

 


6. MOVIE-REVIEW-CORPORA - 2 TYPES {NAVER-MOVIE-REVIEWS}

    영화 리뷰 코퍼스 모음 (네이버 영화평 정제한 2가지 타입)

    [1] MOVIE-REVIEW-150,000 Tokens

    [2] MOVIE-REVIEW-BALANCED-300,000 Tokens

 


7. PRIMITIVE-REVIEW-CORPORA - 4 TYPES - 50,000 Token-size/corpus

    4가지 도메인(맛집/휴대폰/영화/성형) 사용자 후기글 각 5만 토큰 사이즈 - 정제되지 않은 상태

    [1] RESTAU-REVIEW-50,000 Tokens

    [2] IT-REVIEW-50,000 Tokens

    [3] MOVIE-REVIEW-50,000 Tokens

    [4] PLASTIC-REVIEW-50,000 Tokens

 

이전글
리스트