공통참조
언어학에서 공통참조는 두 개 이상의 표현이 같은 사람이나 사물을 가리킬 때 발생한다. 그들은 동일한 지시 대상을 가지고 있다. 예를 들어 'Bill said Alice would arrive soon, and she did.'라는 문장에서 Alice와 she 는 같은 사람을 가리킨다.[1]
공통참조는 종종 결정하기 쉽지 않다. 예를 들어, 'Bill said he would come.'이라는 문장에서 he 라는 단어는 Bill을 의미할 수도 있고 아닐 수도 있다. 어떤 표현이 공통참조인지 결정하는 것은 의미를 분석하거나 이해하는 데 중요한 부분이며, 종종 문맥으로부터 알 수 있는 정보나 실제 세계에서의 지식이 필요하다. 이런 정보나 지식에는 특정 이름이 특정 종(예를 들어 'Rover')과 연관되는 경향, 'Titanic'과 같은 인공물, (한국어에는 존재하지 않지만) 문법상의 성별 등이 포함된다.
언어학자들은 일반적으로 색인을 사용하여 공통참조를 표현한다. 예를 들어 'Billi said hei would come'에서 색인 i는 'Bill'과 'he'가 같은 대상임을 의미한다. 이러한 표현법을 coindex라고 부르며, 이를 공통참조로 해석해야 함을 뜻한다.
특정한 둘 이상의 표현이 공통참조적일 때는 완전한 혹은 설명적인 형태(개인의 성과 이름을 포함한 전체 이름, 때때로 직위나 직함을 포함)가 먼저 나타난다. 그리고 이후에는 축약된 형태(예를 들어 성만, 혹은 성을 제외한 이름만, 혹은 대명사)로 나타난다. 먼저 나타나는 것을 antecedent라 하고, 뒤에 나타나는 것을 proform, anaphor, reference라고 부른다. 하지만 "When she arrived home, Alice went to sleep."과 같은 문장에서처럼 대명사가 지시하는 대상보다 먼저 나타날 수 있다. 이러한 경우, 이 공통참조는 anaphora가 아닌 cataphora라고 부른다.
공통참조는 syntax 분야에서 binding phenomena에 중요하다. 바인딩 이론은 텍스트 내의 공통참조 표현 사이에 존재하는 문법적 관계를 탐구한다.
유형
[편집]공통참조를 탐색할 때, 예를 들어 anaphora, cataphora, 분할 선행사, 공통참조 명사구 등과 같은 수많은 구별이 이루어질 수 있다.[2] 이러한 보다 구체적인 현상 중 몇 가지가 여기에 설명되어 있다.
- 대용 (代用, Anaphora)
- a. The musici was so loud that iti couldn't be enjoyed. Anaphor인 it이 지시하는 대상인 'the music'보다 뒤에 온다. 여기서는 'The music'이 antecedent이다.
- b. Our neighborsi dislike the music. If theyi are angry, the cops will show up soon. Anaphor인 they가 지시하는 대상인 'Our neighbors'보다 뒤에 온다. 여기서는 'Our neighbors'가 antecedent이다.
- 후방 조응 (Cataphora)
- a. If theyi are angry about the music, the neighborsi will call the cops. Cataphor인 they가 지시하는 대상인 'the neighbors'보다 먼저 온다. 여기서는 'The neighbors가 postcedent이다.
- b. Despite heri difficulty, Wilmai came to understand the point. Cataphor인 her가 지시하는 대상인 'Wilma'보다 먼저 온다. 여기서는 'Wilma'가 postcedent이다.
- 분할 선행사 (Split antecedents)
- a. Caroli told Bobi to attend the party. Theyi arrived together. Anaphor인 they가 분할된 선행자(a split antecedent)를 가지고 있다. 'they'는 Carol과 Bob 모두를 지칭한다.
- b. When Caroli helps Bobi and Bobi helps Caroli, theyi can accomplish any task. Anaphor인 'they'가 분할된 선행자(a split antecedent)를 가지고 있다. 'they'는 Carol과 Bob 모두를 지칭한다.
- 명사구 공통참조 (Coreferring noun phrases)
- a. The project leaderi is refusing to help. The jerki thinks only of himself.
- b. Some of our colleagues1 are going to be supportive. These kinds of people1 will earn our gratitude.
명사구에 대한 공통참조. 두번째 명사구가 첫번째 명사구에 대한 서술어(predication)이다.
결속 변항과의 관계
[편집]의미론자들과 논리학자들은 종종 공통참조와 결속 변항(bound variable)을 구분한다.[3] 결속 변항은 대용형(代用形, proform)에 대한 선행사가 정해지지 않은 수량화된 표현일 때 발생한다.[4] 틀:Clarification needed
- Every studenti has received hisi grade. 대명사 his는 결속 변항의 예이다.
- No studenti was upset with hisi grade. 대명사 his는 결속 변항의 예이다.
every student나 no student 같은 수량화된 표현은 문법적으로 단수이지만 담론이나 현실 세계에서 특정 대상을 지칭하지 않는다. 따라서 이 두 예시에서 선행사 his는 참조적이지 않다. 그 대신 선행사에 의해 결속된 변항으로 간주한다. 이 참조는 담론 세계에서 어느 학생을 생각하는지에 따라 달라진다. 아래 예시에서는 결속 변항의 존재가 더욱 명백하다.
- Only Jacki likes hisi grade. – 대명사 his는 결속 변항일 수 있다.
이 문장은 다음의 두 가지 해석이 가능하다.
- Jack은 자신의 성적을 좋아하지만 다른 사람들은 모두 Jack의 성적을 싫어한다.
- 오직 Jack만 자기 성적을 좋아하고, 다른 사람들은 자기 자신의 성적을 좋아하지 않는다.
첫번째 의미에서 his는 공통참조이다. 즉 his와 Jack이 같은 대상을 가리킨다. 두번째 의미에서는 참조 대상이 모든 학생 집합에 대해 다르기 때문에 결속 변항이다. Coindex 표기법은 두 경우 모두에 흔히 사용된다. 즉, 두 개 이상의 표현이 coindex 되어있을 때, 이것이 공통참조인지 결속 변항인지(또는 마지막 예에서와 같이 해석에 따라 달라지는지 여부)를 나타내지 않는다.
공통참조해결
[편집]계산언어학과 자연어 처리에서 공통참조해결(coreference resolution)은 담론에서 잘 연구된 문제이다. 텍스트를 정확하게 해석하거나 언급된 다양한 주제의 상대적 중요성을 추정하려면, 대명사와 기타 참조표현이 올바른 대상과 연결되어야 한다. 공통참조를 해결하기 위한 알고리즘은 일반적으로 참조표현과 호환되는 가장 가까운 선행 대상을 먼저 찾는다. 예를 들어, she는 woman 또는 Anne과 같은 선행 표현과 연결할 수 있지만 Bill은 아닐 가능성이 크다. himself 같은 대명사는 제약이 더 엄격하다. 많은 언어 작업과 마찬가지로 정밀도와 재현율 사이에는 trade-off가 있다. 공통참조해결 알고리즘을 평가하는 데 일반적으로 사용되는 클러스터 품질 메트릭에는 Rand 인덱스, 조정된 Rand 인덱스 및 다양한 상호 정보 기반 방법이 포함된다.
영어에서 공통참조해결에 대한 특별한 문제는 많은 용도를 가진 대명사 it이다. It은 일반적으로 무생물을 지칭한다는 점을 제외하면 he나 she와 유사한 방식으로 다른 대상을 지칭할 수 있다 (규칙은 실제로 더 복잡하다: 동물은 it, he, she 모두를 이용하여 지칭할 수 있다. 선박은 관습적으로 'she'로 지칭한다. 허리케인은 일반적으로 성별을 가진 이름을 가짐에도 불구하고 it으로 지칭한다. It은 추상적인 대상을 지칭할 수도 있다. 예를 들어, 'He was paid minimum wage, but didn't seem to mind it.' 같은 문장이 있다. 마지막으로, 특정 대상을 지칭하지 않는 pleonastic 용법도 있다.
- It's raining.
- It's really a shame.
- It takes a lot of work to succeed.
- Sometimes it's the loudest who have the most influence.
Pleonastic 사용은 참조로 간주하지 않으므로 공통참조의 일부가 아니다.[5]
공통참조해결에 대한 접근 방식은 크게 멘션 쌍, 멘션 순위 또는 엔티티 기반 알고리즘으로 구분할 수 있다. 멘션 쌍 알고리즘은 두 개의 주어진 멘션 쌍이 동일 엔티티에 속하는 경우 이진 결정 방식을 이용한다. 성별 과 같은 엔티티 전체 제약 조건은 고려되지 않기 때문에 오류 전파 가 발생한다. 예를 들어, 대명사 he 또는 she는 모두 the teacher와 공통참조의 가능성이 높지만, 서로 공통참조가 될 수는 없다. 멘션 순위 알고리즘은 이 아이디어를 확장하지만, 대신 하나의 멘션이 하나의 (이전) 멘션과만 공통참조될 수 있다고 규정한다. 결과적으로 각각의 이전 멘션에 점수가 부여되며 가장 높은 점수를 받은 멘션이 연결거나, 어떠한 멘션도 연결되지 않는다. 마지막으로 엔티티 기반 방법에서는 개별 멘션이 아닌 전체 공통참조 체인의 정보를 기반으로 멘션이 연결된다. 가변 너비 체인의 표현은 멘션 기반 방법보다 복잡하고 계산 비용이 크기 때문에 이러한 알고리즘은 대부분 신경망 아키텍처를 기반으로 한다.
내용주
[편집]- ↑ For definitions of coreference, see for instance Crystal (1997:94) and Radford (2004:332).
- ↑ These distinctions (anaphora, cataphora, split antecedents, coreferring noun phrases, etc.) are discussed in Jurafsky and Martin (2000:669ff).
- ↑ For discussions of bound variables, see for instance Portner (2005:102ff.).
- ↑ See Jurafsky and Martin (2000:701) for an example of a bound variable like the ones given here.
- ↑ Li et al. (2009) have demonstrated high accuracy in sorting out pleonastic it, and this success promises to improve the accuracy of coreference resolution overall.
참고 문헌
[편집]- Crystal, D. 1997. A dictionary of linguistics and phonetics. 4th edition. Cambridge, MA: Blackwell Publishing.
- Jurafsky, D. and H. Martin 2000. Speech and language processing: An introduction to natural language processing, computational linguistics, and speech recognition. New Delhi, India: Pearson Education.
- Portner, P. 2005. What is semantics?: Fundamentals of formal semantics. Malden, MA: Blackwell Publishing.
- Radford, A. 2004. English syntax: An introduction. Cambridge, UK: Cambridge University Press.
- Li, Y., P. Musilek, M. Reformat, and L. Wyard-Scott 2009. Identification of pleonastic it using the web Archived 2022년 10월 26일 - 웨이백 머신. Journal of Artificial Intelligence Research 34, 339–389.