句法语义分析

句法语义分析的定义与方法。

任务定义

依存句法分析(树)

形式简单、易于标注、便于学习、效率高。热点。应用于机器翻译、关系抽取等任务。

形式定义

给定输入句子,希望输出$d=\lbrace (h,m,l):0\leq h \leq n, 1\leq m\leq n \rbrace$,即从head, father(核心词)到modifier, dependent, child(修饰词)的依存弧。

  • 依存图 dependency graph

    • each node is present a word, and every word should be contained.
    • $A\sube V\times V\times L$
  • 依存树 dependency tree

    • 在是图的同时,要满足以下条件:
      1. 单核心 single-headed

        每个词只能修饰一个核心词,亦即:

        1. $w_0$没有核心词
        2. 每个词只能以一种依存关系修饰核心词
        3. 每个词也智能修饰唯一的核心词
      2. 连通 connected

        可以从节点0到任意节点

      3. 无环 acyclic

  • 投影依存树 projective dependency tree

    如果在两点最大最小距离内的所有点都可以被到达,就是投影依存弧;全是,则树。

  • 非投影依存树 non-projective dependency tree

    包含非投影依存弧。

形象的,投影依存树可以无交叉的在平面中画出来,而非不可。

基本问题

给定句子x,给出最大分值依存树$\hat d$

$$ \hat d =\arg\max\limits_{d \in y(x)}\mathinner{Score}(x,;d;;\theta) $$

$y(x)$为搜索空间,$\theta$为模型参数。

需要解决三个问题:

  1. 如何定义模型。
  2. 如何让模型学习。
  3. 最优编码。

根据定义方法、最优解码方法,可以分为基于图(graph-based)基于转移(transition-based)

  1. 其他语义表示方法
    • 抽象语义表示 abstract meaning representation
    • 组合范畴文法 combinatory categorial grammar

序列标注

条件随机场 conditional random field CRF

无向图模型(马尔可夫随机场,马尔可夫网络)的一种变种,其中某些随机变量是可观测的,另一些需要概率建模。

给定观测序列$\bm{y}=y_1,y_2…y_n$, CRF利用对数线性模型建模标签序列$\bm{x}=x_1,x_2…x_n$

$$ p(\bm{y}\mathbin{|}\bm{x})=\frac{exp\sum_{i=1}^{n}w\times f(\bm{x},y_{i-1},y_i,i)}{\sum_{y\in ?(x)}{exp\sum_{i=1}^{n}w\times f(\bm{x},y_{i-1}^{\prime},y_i^{\prime},i)}} $$

每一个特征函数都可以用来为一个标注序列评分,把集合中所有特征函数对同一个标注序列的评分综合起来,就是这个标注序列最终的评分值。

一阶马尔可夫假设,仅使用局部特征。

深度序列标注

语义角色标注

Built with Hugo
Theme Stack designed by Jimmy