형성대학과 대학

코퍼스 언어학은 무엇인가?

그냥 전에 몇 십 년이 언어 연구를 자동화하기 위해, 과학자들은 단지 꿈 수 있습니다. 이 작품은 가장 중요한 상당한 가능성 "부주의"실수가, 그것은 학생들의 큰 숫자를 유치, 손으로 수행하고, 한 -이 모든 길고 오랜 시간이 걸렸습니다.

컴퓨터 기술의 발전이 빠른 크기의 순서에 대한 연구를 수행 할 수있게하고, 오늘 한 언어의 연구에서 가장 유망한 방향 중 하나는 코퍼스 언어학이다. 주요 기능은 특별한 방법으로 하나의 데이터베이스에 텍스트 정보, 많은 양의 정보의 사용과 마킹 체를했다.

현재까지, 어휘 단위의 수백억에 수백만에 걸친 다양한 언어 자료에 근거하여 서로 다른 목적으로 만들어 많은 건물이있다. 이 방향은 유망 인식 응용 프로그램 및 연구 목적을 향한 상당한 진전을 보여줍니다된다. 전문가에 의해, 어떤 식 으로든 자연 언어와 다른 거래, 적어도 기본적인 수준에서 텍스트의 몸에 익숙해하는 것이 좋습니다.

코퍼스 언어학의 역사

이러한 추세의 형성은 지난 세기의 초반 60 이거 야 브라운 본체에서 미국의 창조 때문이다. 컬렉션은 단어의 모든 형태의 1 백만의 텍스트를 포함하고 오늘이 크기의 몸은 완전히 경쟁력이 될 것입니다. 이 컴퓨터 기술의 발전 속도뿐만 아니라 새로운 연구 자원에 대한 수요 증가에 주로 기인한다.

코퍼스 언어학은 완전하고 독립적 인 분야로 등장 90 년대, 텍스트의 모음 작성되었으며, 수십 개의 언어에 대한 표시. 이 기간에서 그것은 예를 들어, 영국 국립 코퍼스 억 토큰 만들었습니다.

언어학의이 지역의 발전과 함께, 텍스트 볼륨이 점점되고있다 (그리고 사전 단위의 수십억에 도달), 레이아웃은 더 다양 해지고있다. 현재까지 인터넷 공간은 기록 된 시체를 발견하고 언어, 다 언어, 학습 중심의 예술 또는 학술 문헌뿐만 아니라 다른 많은 종을 말 할 수있다.

주택 무엇입니까

신체 언어학 바디 유형은 여러 가지 이유로 제공 될 수있다. 직관적으로 분류의 기초는 (러시아어, 독일어) 텍스트 언어 (상용 오픈 소스, 폐쇄) 액세스 모드, 소스 자료 (소설, 다큐멘터리, 교육, 저널리즘)의 장르가 될 수 있습니다.

재미있는 방법은 구어의 물질을 생성한다. 이러한 언론의 의도적 녹화는 응답자 인공 환경을 조성하고, 그 결과 물질이 "자연"이라고 할 수 없기 때문에, 현대 코퍼스 언어학은 다른 길을 갔다. 자원 봉사자는 마이크를 장착하고, 낮 동안은 참여하는 모든 대화의 기록을 생성한다. 사람들은 주위 물론, 일상적인 대화의 과정에서 과학의 발전에 기여하고 있음을 알 수 없습니다.

나중에 데이터베이스에 저장된 기록을 수신 인쇄 된 텍스트 성적 증명서 종류와 함께 제공됩니다. 따라서, 일일 경구 음성 하우징 생성에 필요한 마크 업이 가능해진다.

신청

가능한 한 언어의 사용, 그리고 아마도 건물 텍스트의 사용. 방법이 될 수있다 언어학 선체을 적용합니다 :

  • 키를 결정하는 프로그램을 작성, 널리 각각 유권자 고객의 긍정적이고 부정적인 반응을 추적하기 위해 정치와 사업에 사용된다.
  • 사전 및 번역에 연결 정보 시스템 성능을 향상시킬 수 있습니다.
  • 언어 단위, 가까운 미래의 변화의 개발 및 예측의 역사의 이해에 기여하는 연구 작업의 다양한.
  • 1, 형태 구문, 의미 및 기타 기능에 따라 정보 검색 시스템의 개발.
  • 다른 언어 시스템 등의 최적화.

건물의 사용

유사한 리소스 전형적인 검색 엔진 인터페이스와 정보베이스를 검색하는 단어 또는 단어의 조합을 입력하라는. 그렇다 정확한 쿼리가 거의 모든 언어 적 기준에 대한 텍스트 정보를 찾을 수있는 향상된 버전을 사용할 수 있습니다 형성한다.

검색 기준이 될 수있다 :

  • 품사 특정 그룹의 구성원;
  • 문법 기능;
  • 의미;
  • 문체, 정서적 색상.

당신은 또한 "에서"전치사와 대격 경우에 명사 뒤에 오는 단수 현재 시제, 첫번째 사람에 동사의 모든 항목을 찾기 위해, 예를 들어, 일련의 단어에 대한 검색 기준을 결합 할 수 있습니다. 같은 간단한 작업에 대한 해결책은 사용자에게 몇 초 정도 걸립니다 지정된 분야에서 단 몇 번의 마우스 클릭이 필요합니다.

만드는 과정

검색 자체는 모든 subcorpus에서 수행 할 수 있습니다 하나는 특별히 선택된 특정 목표를 달성의 필요에 따라 :

  1. 첫 번째 단계는 경우에 대한 기초를 형성하는 문자를 정의하는 것이다. 실제적인 목적을 위해, 자주 언론, 뉴스, 온라인 주석을 사용한다. 이 연구 프로젝트는 패키지 유형의 다양한 사용하지만 텍스트는 몇 가지 공통점에 따라 선택해야한다.
  2. 전처리를 실시 텍스트의 결과 집합은 텍스트의 서지 및 엑스트라 언어 설명에 의해 제조있는 경우, 오류 정정있다.
  3. 모든 비 텍스트 정보를 제거 : 그래픽, 사진, 테이블을 삭제합니다.
  4. 추가 처리를 위해, 일반적으로 음성이다 토큰의 할당이다.
  5. 마지막으로, 원소 얻어진 문법적 형태 및 기타 표시 복수었다.

일부의 경우, 의미 속성에 음성 문법의 일부를 식별하고, 각각의 요소의 복수의 내부로 분산 신택 틱 구조로 이루어진 모든 거래의 결과.

건물을 만드는 어려움

그 몸을 위해 함께 단어 나 문장의 집합을 넣어하는 것만으로는 충분하지 않습니다 이해하는 것이 중요합니다. 한편, 텍스트의 집합, 즉, 균형을 특정 비율로 텍스트의 다른 유형을 대표한다. 다른 한편으로 - 인클로저의 내용은 특별한 방법으로 간격을해야합니다.

첫 번째 문제는 합의에 의해 해결된다 : 예를 들어, 컬렉션에 문학 작품의 60 %, 다큐멘터리의 20 %를 포함, 일정 비율은 완벽한 조리법 균형 몸 오늘날 존재하지 않는 구어, 법률, 과학 작품, 등의 서면 표현을 주어집니다 ...

컨텐츠 레이아웃에 관한 두 번째 질문은, 도전 해결한다. 이 특별 프로그램 및 자동은 텍스트의 표시에 사용되는 알고리즘은,하지만 그들은 중단을 일으킬 수있는 완벽한 결과를 제공 및 수동 재 작업이 필요하지 않습니다. 이 문제를 다루는 기회와 도전 코퍼스 언어학의 용지 V. P. Zaharova에서 상세히 설명된다.

텍스트 마크 업 우리가 아래 목록을 여러 수준에서 구현됩니다.

형태 태그

학교에서, 우리는 러시아 언어, 언어의 다른 부분이 있다는 것을 기억하고 그들 각각은 자신의 특성을 가지고있다. 예를 들면, 동사의 종류 및 경사시 아니 명사있다. 주저없이 네이티브 스피커 명사와 복합 동사를 거부하지만, 1 억의 시체를 표시 할 수 있습니다. 작동하지 않습니다 육체 노동을 토큰. 이 가르 칠 필요가있다이를 위해 필요한 모든 작업은, 그러나, 컴퓨터를 실행할 수 있습니다.

형태 학적 태그, 컴퓨터는 특정 문법적인 기능을 가진 연설의 특정 부분으로 각 단어를 "이해"해야합니다. 러시아 (및 기타 언어) 일반 규칙을 운영하기 때문에, 알고리즘의 수를 자동차에 투자, 형태 학적 분석을 위해 자동 절차를 구축 할 수 있습니다. 그러나, 규칙뿐만 아니라 여러 복잡한 요인에 예외가 있습니다. 그 결과, 오늘날의 순 컴퓨터 분석은 지금까지 이상에서, 그리고 심지어는 4 %의 오차는 4 백만의 값을 산출한다. 수동 재 작업을 필요로하는 1 억. 단위의 몸에 단어.

자세한 책은 문제 Zaharova V. P. "코퍼스 언어학"을 설명합니다.

구문 주석

구문 분석이나 구문 분석 - 문장에서 단어의 관계를 결정하는 절차를. 알고리즘의 집합을 사용하여 주제, 조건, 추가, 언론의 여러 차례의 텍스트를 결정하는 것이 가능하다. 주 계열, 어느있는 단어를 찾아 - 의존, 우리는 효과적으로 텍스트에서 정보를 추출하여 검색 요청에 대한 응답으로 우리를 흥미 정보 만 발급 기계를 가르 칠 수 있습니다.

그런데, 현대적인 검색 엔진과 같은 관련 질의에 대한 응답으로 특정 숫자 대신 긴 텍스트를 제공하기 위해이를 사용하거나 "얼마나 많은 칼로리 사과" "상트 페테르부르크 모스크바의 거리." 그러나, 또는 기타 기본 자습서 "코퍼스 언어학 소개"를 참조 할 필요에 의해 설명 된 프로세스의 경우에도 기본을 이해합니다.

의미있는 마크 업

단어의 의미는 - 간단한 용어 의미에서이다. 그의 의미 범주 및 하위 범주의 집합에 속하는 반영하는 단어 속성 태그의 의미 분석에 널리 적용 방법. 이러한 정보는 알고리즘이 텍스트 톤, 자동 요약 및 코퍼스 언어학의 다른 작업 방법을 분석하고 최적화하는 데 유용합니다.

매우 넓은 의미와 추상적 인 단어를 나타내는 트리의 "뿌리"가 있습니다. 트리 노드의 지점이 형성되기 때문에, 점점 더 많은 특정 어휘 요소를 포함. 예를 들어, 단어 "생물"는 "인간"및 "동물"과 같은 개념과 연관 될 수있다. 클래스와 동물의 종류에 - 첫 번째 단어는 다른 직업, 친족 용어, 국적, 두 번째로 밖으로 분기 할 것입니다.

정보 검색 시스템의 사용

코퍼스 언어학의 사용 분야 활동의 다양한 분야를 커버한다. 하우징은 사전 준비 및 보정에 사용되는, 자동 번역 시스템, 사실을 검색, 주석 음색과 다른 텍스트 처리를 결정을 만들 수 있습니다.

또한, 이러한 자원은 적극적으로 세계 언어와 일반적으로 언어의 기능의 메커니즘 연구에 사용된다. 사전 준비 대량의 정보에 대한 액세스는 개발 언어의 동향을 신속하고 포괄적 인 연구를 용이하게하고, 안정적인 형성 신어 음성 속도 변화는 어휘 단위와 다른 값.

이와 같은 데이터의 많은 양의 작업이 자동화를 필요로하기 때문에, 오늘날 컴퓨터와 코퍼스 언어학 간의 긴밀한 상호 작용이있다.

러시아 국립 코퍼스

이 경우 (약칭 NKRYA)은 다양한 작업에 대한 자원의 사용을 허용 subcorpus들을 포함한다.

데이터베이스의 자료는 NKRYA 분할된다 :

  • 국내외 언론 90 년대와 2000 년대, 출판물에;
  • 음성을 기록하는 단계;
  • aktsentologicheski하여 문자를 표시 (즉, 응력의 부호);
  • 방언 연설;
  • 시;
  • 구문 및 기타 표시와 재료.

정보 시스템은 영어, 독일어, 프랑스어 등 다양한 언어 (또는 그 반대)로 러시아어에서 작품의 병렬 번역과 Subcorpus이 포함되어 있습니다.

또한, 데이터베이스 개발의 다른 기간 러시아에서 서면 연설을 대표하는 역사적 텍스트의 한 부분이있다. 러시아의 언어를 마스터에 외국인에 유용 할 수있는 교육 기관도있다.

러시아 국가 코퍼스는 4 억 개 어휘 단위를 포함하고, 앞서 유럽 기관의 언어의 상당 부분의 많은 방법이다.

전망

이러한 추세의 인식에 찬성 사실은 외국뿐만 아니라, 러시아어 대학 실험실 코퍼스 언어학을 약속의 가용성이다. 이 정보와이 정보 검색 자원의 프레임 워크의 사용과 연구 높은 기술, 질의 응답 시스템 분야에서 특정 지역의 개발을 수반하지만, 위의 설명합니다.

사용자가 자신의 일상 생활 속 자원의 유형을 사용할 수있는 더 많은 방법이 있기 때문에 코퍼스 언어학의 발전은 기술에서와 컴퓨터 힘을 실어, 검색 및 정보를 처리하는 프로세스를 최적화 새로운 알고리즘, 더 많은 RAM의 구현의 관점에서, 소비자에 이르기까지 모든 수준에서 예측 삶과 일.

결론적으로

우주선이 우주를 통해 이동 로봇이 사람에 대한 모든 작업을 할 경우 2017 년 지난 세기의 한가운데에, 먼 미래를 보였다. 사실, 과학은 "흰 반점"과 방해 세기 동안 인류의 질문에 대답하기 위해 필사적 인 시도를들로 가득하다. 언어의 기능 질문은 여기에 영광의 자리를 차지, 캐비닛 및 전산 언어학은 그 답을 우리에게 도움이 될 수 있습니다.

대용량 데이터 세트의 처리는 거의 실시간으로 단어의 형성을 추적하기 위해 특정 언어 기능의 발달을 예측, 이전에 액세스, 패턴을 감지 할 수 있습니다.

실용적인 차원에서 글로벌 인클로저는 공공 분위기를 평가하기 위해 잠재적 인 도구로서, 예를 들어 볼 수있다 - 인터넷은 실제 사용자에 의해 생성 된 지속적으로 업데이트 매일 다양한 텍스트입니다 : 의견과 리뷰 및 기사 및 언론의 많은 다른 형태의이.

또한, 기관과 함께 작업하는 정보 검색에 관여하는 동일한 하드웨어의 발전에 기여하고, 우리는 서비스 "구글"또는 "Yandex 주차", 기계 번역, 전자 사전 잘 알고 있습니다.

우리는 자신있게 코퍼스 언어학은 첫 번째 단계를하게 주장 할 수 있으며, 가까운 미래에 번성 할 것이다.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 ko.birmiss.com. Theme powered by WordPress.