1. PCFG(Probabilistic Context-Free Grammar) 정의

2. 구성 요소

1.png

  1. 비단말 기호 (Nonterminal, N)
    1. 분류라고 생각하면 편하다. → Verb, Adj, Noun … etc
  2. 단말 기호 (Terminal, Σ)
    1. 비단말에 속하는 리프, 단어라고 생각하면 편함
    2. Noun → dog, cat … etc
    3. Verb → play, run … etc
  3. 시작 기호 (Start symbol, S ∈ N)
    1. 루트 노드임. 뜻을 가지지는 않음
  4. 생산 규칙 (Production rules)

<aside> 💡

cf. A→B[p]를 표기하는 방법으로는 세 가지가 있다.

(1) P(A→B)

(2) P(A→B | A)

(3) P(B|A)

</aside>

  1. 확률 조건

3. 확률 계산

1. 규칙 확률 계산 (MLE 방식)

코퍼스(트리뱅크)에서 각 규칙의 출현 빈도를 집계한 뒤, **최대우도추정(MLE)**으로 확률을 구하는 것이다.

  1. 코퍼스에서 각 규칙 A → α의 출현 횟수(count)를 센다.
  2. 같은 LHS를 가진 모든 규칙의 출현 합을 구한다.
  3. 각 규칙의 확률은 다음과 같다:

$$ P(A→α) = \frac{count(A→α)}{\sum count(A→β)} $$