学校识别。GATE7.1中可以使用自带unversity.lst词表将部分大中专院校识别为组织(organization),但对众多的中小学无法识别。并且组织标注集含义广泛,学会、公司、政府机构等都会被识别为组织。为了更有针对性的进行识别,本研究新增学校(school)标注,并分别针对中小学、本专科院校及其他各类学校撰写相应的规则。
Macro:PRIMARY_HIGH //定义识别中小学的宏
({Token.string=="小学"}|{Token.string=="附小"}|{Token.string=="中学"}|{Token.string=="附中"}|{Token.string=="小"}|{Token.string=="中"})
Rule:primary_high
//识别中小学名,如北京第一师范小学,南京琅琊路小学,山东师大附中等
(
({Lookup.majorType==location,Lookup.minorType==county_abbrev})
//county_abbrev.lst中存放了大量的地区名
({Token})
({Token})
({Token})
//分词后在地区和中小学之间可能出现0个、1个、2个或3个任意词组
({Token.string=="师范"}|{Token.string=="师范附属"})
(PRIMARY_HIGH)
):school
-->
:school.school={kind=inferred,rule="primary_high"}
Rule:university
//识别本专科院校,如上海水产大学等
(