说明:收录25万 73个行业的国家标准 支持批量下载
书 书 书犐犆犛 35 . 240 . 01 犔 70 中华人民共和国国家标准 犌犅 / 犜 36452 — 2018 信息处理用藏文分词规范 犛狆犲犮犻犳犻犮犪狋犻狅狀狅狀犜犻犫犲狋犪狀狊犲犵犿犲狀狋犪狋犻狅狀犳狅狉犻狀犳狅狉犿犪狋犻狅狀狆狉狅犮犲狊狊犻狀犵 2018  06  07 发布 2019  01  01 实施 国家市场监督管理总局 中国国家标准化管理委员会 发布目    次 前言 Ⅰ ………………………………………………………………………………………………………… 引言 Ⅱ ………………………………………………………………………………………………………… 1   范围 1 ……………………………………………………………………………………………………… 2   规范性引用文件 1 ………………………………………………………………………………………… 3   术语和定义 1 ……………………………………………………………………………………………… 4   分词规范 1 ………………………………………………………………………………………………… 参考文献 15 …………………………………………………………………………………………………… 犌犅 / 犜 36452 — 2018 前    言    本标准按照 GB / T1.1 — 2009 给出的规则起草 。 请注意本文件的某些内容可能涉及专利 。 本文件的发布机构不承担识别这些专利的责任 。 本标准由全国信息技术标准化技术委员会 ( SAC / TC28 ) 提出并归口 。 本标准起草单位 : 中国电子技术标准化研究院 、 西藏大学 、 西北民族大学 、 西藏自治区藏语文工作委员会办公室 、 青海师范大学 、 青海民族大学 、 中国科学院软件研究所 、 西藏自治区工业和信息化厅 。 本标准主要起草人 : 扎西加 、 欧珠 、 尼玛扎西 、 熊涛 、 格桑多吉 、 多拉 、 拉巴泽仁 、 大罗桑朗杰 、 高定国 、 拉琼 、 仁青诺布 、 索南尖措 、 旺堆 、 小尼玛扎西 、 普次仁 、 顿珠次仁 、 赵栋材 、 边巴嘉措 。 Ⅰ 犌犅 / 犜 36452 — 2018 引    言    本标准以现代藏语的词类和分词研究成果为基础 , 根据藏文词汇特点与构词规律 , 并参考汉语分词及词类标记相关标准 ( 见参考文献 ) 的部分内容 , 规定了信息处理用藏文分词规范 。 Ⅱ 犌犅 / 犜 36452 — 2018 信息处理用藏文分词规范 1   范围 本标准规定了信息处理用藏文分词规范 。 本标准适用于藏文信息处理各领域 , 其他行业和有关学科可参照使用 。 2   规范性引用文件 下列文件对于本文件的应用是必不可少的 。 凡是注日期的引用文件 , 仅注日期的版本适用于本文件 。 凡是不注日期的引用文件 , 其最新版本 ( 包括所有的修改单 ) 适用于本文件 。 GB / T36337 — 2018   信息处理用藏语词类标记集 3   术语和定义 下列术语和定义适用于本文件 。 3 . 1 词   狑狅狉犱 区别事物意义的最小的语法单位 。 3 . 2 词组   狆犺狉犪狊犲 两个或更多词组合成的语言单位 。 注 : 词组可以是实词与实词的组合 , 也可以是实词和虚词的组合 。 3 . 3 藏文信息处理   犜犻犫犲狋犪狀犻狀犳狅狉犿犪狋犻狅狀狆狉狅犮犲狊狊犻狀犵 ; 犜犐犘 用计算机对藏文的音 、 形 、 义等信息进行处理 。 3 . 4 分词单位   狊犲犵犿犲狀狋狌狀犻狋 在分词过程中出现的词 。 注 : 分词单位不仅限于语法词 , 其中也包含了信息处理所需的一部分结合紧密 、 使用稳定的词组 。 3 . 5 藏文分词   犜犻犫犲狋犪狀狊犲犵犿犲狀狋犪狋犻狅狀 将连续的藏文音节序列按照一定的规范重新组合词序列的过程 。 4   分词规范 4 . 1   藏文分词单位和词类的标记 本标准以 “/” 作为藏文分词单位的标记 , 藏语词类标记依据 GB / T36337 — 2018 的规定 。 4 . 2   一般名词 ( nn ) 4 . 2 . 1   由单音节名词和单音节形容词组成的词为一个分词单位 。 1 犌犅 / 犜 36452 — 2018 示例 : 4 . 2 . 2   由双音节名词和单音节形容词组成的三音节名词为一个分词单位 。 示例 : 4 . 2 . 3   由名词性分词单位和专职词 “ ” 组成的名词为一个分词单位 。 示例 : 4 . 2 . 4   名词性的构词后缀 “ ” 不单独切分 。 示例 : 4 . 2 . 5   四音节构成的复合词为一个分词单位 。 示例 : 4 . 2 . 6   五音节构成的复合词为一个分词单位 。 示例 : 4 . 2 . 7   三音节构成的固定词组为一个分词单位 。 示例 : 4 . 2 . 8   四音节构成的固定词组为一个分词单位 。 示例 : 4 . 2 . 9   五音节及以上音节构成的固定词组为一个分词单位 。 示例 :       4 . 3   人名 ( 狀狉 ) 4 . 3 . 1   不易区分姓和名的笔名通常作为一个分词单位 。 示例 : 4 . 3 . 2   人名的译名按其习惯形式作为一个分词单位 。 示例 : 4 . 3 . 3   人名 ( 包括带格助词的人名 ) 作为一个分词单位 。 2 犌犅 / 犜 36452 — 2018    示例 : 4 . 4   地名 ( 狀狊 ) 4 . 4 . 1   山丘河流等名称作为一个分词单位 。 示例 : 4 . 4 . 2   地名后有表示自然区划的普通名词 , 如 “ ” 等 , 作为一个分词单位 。 示例 : 4 . 4 . 3   地址叙述中的大小地名分别作为一个分词单位 , 如其中地名或路名是一个音节则不予切分 。 示例 : 4 . 5   国名 ( 狀犵 ) 国名不论长短 , 作为一个分词单位 。 示例 : 4 . 6   族群名 ( 狀犲 ) 4 . 6 . 1   表示民族 、 人种的词作为一个分词单位 。 示例 : 4 . 6 . 2   表示部落 、 部族的词作为一个分词单位 。 示例 : 4 . 6 . 3   表示文种 、 语种的词作为一个分词单位 。 示例 : 4 . 7   团体机构名 ( 狀犪 ) 4 . 7 . 1   行政区划称谓中两个音节及以上做切分 , 地名或行政区划名如其中一个是单音节 , 则不切分 , 将地名与行政区划名合起来作为一个词 。 示例 : 3 犌犅 / 犜 36452 — 2018 4 . 7 . 2   团体机构名称作为一个分词单位 。 示例 : 4 . 8   专有名词 ( 狀狕 ) 专有名词作为一个分词单位 。 示例 : 4 . 9   辞藻 ( 狀狅 ) 辞藻作为一个分词单位 。 示例 : 4 . 10   数称词 ( 狀犿 ) 数称词作为一个分词单位 。 示例 : 4 . 11   处所方位词 ( 狀犳 ) 处所词方位词为一个分词单位 。 示例 : 4 . 12   时间词 ( 狀狋 ) 4 . 12 . 1   历史朝代的时间词为一个分词单位 。 示例 : 4 . 12 . 2   季节 、 月份的时间词为一个分词单位 。 示例 : 4 . 12 . 3   民俗节庆的时间词为一个分词单位 。 4 犌犅 / 犜 36452 — 2018

.pdf文档 GB-T 36452-2018 信息处理用藏文分词规范

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
GB-T 36452-2018 信息处理用藏文分词规范 第 1 页 GB-T 36452-2018 信息处理用藏文分词规范 第 2 页 GB-T 36452-2018 信息处理用藏文分词规范 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2025-07-17 23:32:34上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。