资讯专栏INFORMATION COLUMN

学习笔记CB003:分块、标记、关系抽取、文法特征结构

zhaochunqi / 1512人阅读

摘要:名词短语分块,通过词性标记规则识别,通过机器学习方法识别。关系抽取,找出实体间关系。文法特征结构,单词最后字母词性标签文法类别正字拼写指示物关系施事角色受事角色。文法特征是键值对,特征结构存储形式是字典。

分块,根据句子的词和词性,按照规则组织合分块,分块代表实体。常见实体,组织、人员、地点、日期、时间。名词短语分块(NP-chunking),通过词性标记、规则识别,通过机器学习方法识别。介词短语(PP)、动词短语(VP)、句子(S)。

分块标记,IOB标记,I(inside,内部)、O(outside,外部)、B(begin,开始)。树结构存储分块。多级分块,多重分块方法。级联分块。

关系抽取,找出实体间关系。实体识别认知事物,关系识别掌握真相。三元组(X,a,Y),X、Y实体,a表达关系字符串。通过正则识别。from nltk.corpus import conll2000,print(conll2000.chunked_sents("train.txt")[99]) 。

文法,潜在无限句子集合紧凑特性。形式化模型,覆盖所有结构句子。符合多种文法句子有歧义。只能用特征方法处理。

文法特征结构,单词最后字母、词性标签、文法类别、正字拼写、指示物、关系、施事角色、受事角色。文法特征是键值对,特征结构存储形式是字典。句法协议、属性、约束、术语。import nltk,fs1 = nltk.FeatStruct(TENSE="past", NUM="sg") ,fs2 = nltk.FeatStruct(POS="N", AGR=fs1) 。nltk产生式文法描述 /nltk_data/grammars/book_grammars 。sql0.fcfg,查找国家城市sql语句文法:

% start S

S[SEM=(?np + WHERE + ?vp)] -> NP[SEM=?np] VP[SEM=?vp]

VP[SEM=(?v + ?pp)] -> IV[SEM=?v] PP[SEM=?pp]
VP[SEM=(?v + ?ap)] -> IV[SEM=?v] AP[SEM=?ap]
NP[SEM=(?det + ?n)] -> Det[SEM=?det] N[SEM=?n]
PP[SEM=(?p + ?np)] -> P[SEM=?p] NP[SEM=?np]
AP[SEM=?pp] -> A[SEM=?a] PP[SEM=?pp]

NP[SEM="Country="greece""] -> "Greece"
NP[SEM="Country="china""] -> "China"

Det[SEM="SELECT"] -> "Which" | "What"

N[SEM="City FROM city_table"] -> "cities"

IV[SEM=""] -> "are"
A[SEM=""] -> "located"
P[SEM=""] -> "in"

加载文法描述

import nltk
from nltk import load_parser
cp = load_parser("grammars/book_grammars/sql0.fcfg")
query = "What cities are located in China"
tokens = query.split()
for tree in cp.parse(tokens):
    print(tree)

参考资料:

《Python 自然语言处理》

http://www.shareditor.com/blo...

http://www.shareditor.com/blo...

欢迎推荐上海机器学习工作机会,我的微信:qingxingfengzi

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/18342.html

相关文章

  • 学习笔记CB007:分词、命名实体识别、词性标注、句法分析树

    摘要:基于条件随机场命名实体识别方法属于有监督学习方法,利用已标注大规模语料库训练。命名实体的放射性。统计模型词性标注方法。检查词性标注一致性。句法分析树生成。 中文分词把文本切分成词语,还可以反过来,把该拼一起的词再拼到一起,找到命名实体。 概率图模型条件随机场适用观测值条件下决定随机变量有有限个取值情况。给定观察序列X,某个特定标记序列Y概率,指数函数 exp(∑λt+∑μs)。符合最大...

    BenCHou 评论0 收藏0
  • 美团餐饮娱乐知识图谱——美团大脑揭秘

    摘要:图美团大脑年月,美团点评中心开始构建大规模的餐饮娱乐知识图谱美团大脑。在建的美团大脑知识图谱目前有数十类概念,数十亿实体和数百亿三元组,美团大脑的知识关联数量预计在未来一年内将上涨到数千亿的规模。 前言 I’m sorry. I can’t do that, Dave. 这是经典科幻电影《2001: A Space Odyssey》里HAL 9000机器人说的一句话,浓缩了人类对终极...

    Jensen 评论0 收藏0
  • 深度学习新算法,完成字里行间的情绪识别

    摘要:深度学习首先发起于学术界,目前各大互联网巨头也纷纷投入研究,如的猫脸识别以及的深度学习团队。一家将深度学习用于情绪分析的公司说将词汇单独分析的方法并不准确,必须将其放入到越来越大的结构中。 深度学习领域是计算机科学一个新兴领域,通俗说来就是构建像人脑一样处理数据的计算机程序。深度学习首先发起于学术界,目前各大互联网巨头也纷纷投入研究,如Google的猫脸识别以及Facebook的深度学习团队...

    ChanceWong 评论0 收藏0
  • 学习笔记CB004:提问、检索、回答、NLPIR

    摘要:聊天机器人,提问检索回答。答案抽取,分析和推理检索句子或段落,抽取提问一致实体,根据概率最大对候选答案排序。表示获取词性相关所有词性信息,从顶级词性到该词性路径。 聊天机器人,提问、检索、回答。 提问,查询关键词生成、答案类型确定、句法和语义分析。查询关键词生成,提问提取关键词,中心词关联扩展词。答案类型确定,确定提问类型。句法和语义分析,问题深层含义剖析。检索,搜索,根据查询关键词信...

    miguel.jiang 评论0 收藏0
  • 学习笔记CB008:词义消歧、有监督、无监督、语义角色标注、信息检索、TF-IDF、隐含语义索引模型

    摘要:词义消歧有监督机器学习分类算法,判断词义所属分类。词义消歧无监督机器学习聚类算法,把词义聚成多类,每一类一种含义。语义角色,谓词,施事者,受事者,事情发生时间,数量。隐含语义索引模型。 词义消歧,句子、篇章语义理解基础,必须解决。语言都有大量多种含义词汇。词义消歧,可通过机器学习方法解决。词义消歧有监督机器学习分类算法,判断词义所属分类。词义消歧无监督机器学习聚类算法,把词义聚成多类,...

    zhongmeizhi 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<