首 页

手机版
您的位置:电脑软件 > 行业软件 > 法律法规 > 2017敏感信息词库

2017敏感信息词库

软件大小:222KB

软件语言:简体中文

用户评分:

软件类型:国产软件

授权方式:免费软件

软件官网:

更新时间:2019/4/15

软件分类:法律法规

运行环境:Windows10, Windows8, Windows7, WinVista, WinXP

敏感词

普通下载

高速下载

需下载高速下载器,提速50%

很多时候用户在聊天的过程中会看到有人话语权被屏蔽,更多是在游戏中看到别的玩家经常会发一些看不到的话,比如你个***,我***,之所以会这样是因为用户或者玩家在组织语言的时候,用词不当使用了敏感词的缘故,在这里小编也为用户收集整理了2017敏感信息词库,帮助用户更好地学习和掌握文明用语,同时对于一些需要维护聊天秩序的程序员而言,有了直接可以使用的敏感词库,将会使文本编辑工作轻松许多,不用从网上一条条寻找不规范用语,将工作量大大减少,同时小编收集整理的敏感词库,里面包含了很多方面,如暴恐、民生、贪腐等敏感话题,用户可以通过学习规范自己在生活的生活用语,欢迎用户下载使用。

包含的敏感词库

★色情词库
★暴恐词库
★反动词库
★民生词库
★其他词库
★贪腐词库

敏感信息词概论

大部分论坛,为了方便管理,都进行了关于敏感词的设定。比如,当你发贴的时候带有某些事先设定的词时,这个贴是不能发出的。或者这个词被自动替换为星号(*)或叉号(X)等,或者说是被和谐掉了。在多数网站,敏感词一般是指带有敏感政治倾向(或反执政党倾向)、暴力倾向、不健康色彩的词或不文明语。也有一些网站根据自身实际情况,设定一些只适用于本网站的特殊敏感词,例如很多电子商务网站会将一些涉及侵犯知识产权,不宜销售的商品,例如“山寨”、“水货”、“盗版”、“刻录”等设置为敏感词,在商品简介中这些词是发不出来的。竞争对手的名称在一些电商网站也是无法发出的敏感词

敏感信息词举例说明

例如“Pi”这个词,在国内“Pi”绝对算的上是敏感词语,主要原因一是不雅,二是与黄色有连带关系,但在现实中,“Pi”的使用率却出奇的高,比如人们愤愤然说的“Pi民”、“Pi话”、“狗Pi不通”、“Pi滚尿流”等等,在正常的行文中经常可以看到。同时“Pi”在泰国一般用于称呼某个人,如您叫陈,则在泰国就会被称为“Pi陈”,同时果称谁为“Pipi”,那更是尊称,比如某老人或女人姓王,你叫她“Pipi王”,她会高兴得不得了。显然,在泰国“Pi”是个尊称,类似我们说老王、小罗之类。

2017敏感信息词库特点

1、2017敏感信息词库整合了多个敏感词库,并添加java实现敏感词过滤的工具类,需要根据具体业务适当调整词库内容。
2、敏感词集合,共2W+的敏感词,已通过程序算法去除重复项。
3、里面整理了最新网络词库
4、考虑到各行各业需要的分词规则不同,故没有合并
5、文件为txt、xlsx文本用于敏感词过滤

百度经验敏感词排查方法

一、大致锁定敏感词出现的范围,进行替换尝试
1.明确你的经验,是否是敏感词密集型的主题,比如政治、性等在中国有管制的主题。如果是的话,那你就要注意你通篇的措辞,如何巧妙得选择词汇,避开敏感词,将是非常考验写手经验的。
2.如果只是普通主题,那可能是一些词汇的问题。这些词汇,可能还是色情(OXOX)、广告(链接、手机)、政治(人名、事件)、骂人语等一般来说你只要发现文中有此类型(不和谐)的词汇,都不用进行下一步了,直接删了或改了吧
二、对不确定的词,进行搜索尝试
1.可以在百度经验的搜索栏内对可能的敏感词进行搜索,凡是出现显示为“抱歉,没有找到包含关键词XX的经验。”就可以确定XX是敏感词了
2.在搜索框内搜索敏感词,是根据“没有结果”这个结果来判断的。而很多时候搜索的句子太长,也会没有结果。所以建议以“词”为单位进行搜
三、尝试若失败,建议通过隔离段落法来排查
1.在使用这种方法之前,你必须要明白这么做的代价。
那就是:因为使用隔离法,提交时你的文章是残缺的,若检测通过了,文章的状态会变成“提交中”
2.此时的代价有:
风险1:通过的文章有很多地方不能修改了。比如标题、分类、工具都不能修改了
风险2:可能因为段落的残损导致审核不通过。
风险3:在不断的复制粘贴中,留一份文章的附本吧,免得敏感词没照出来,文章都被剪没了
3.隔离法究竟隔离几段,留下几段呢?
方法一:
一般的方法都是减去其中一段,提交剩下的段落,以此来确定减去的段落是否含有“不当词汇”,这种方法操作起来比较方便,建议首选。
但是有两个缺点,
1.如果是最后一段含有“不当词汇”,需要每段都提交一次。(所以应该根据经验来选择隔离顺序。)
2.如果运气很差,“不当词汇”出现了不只一次,在几个段落里都有,那你用这种方法,根本查不出来啦
方法二:一段一段提交。
先提交一段,审核通过,再提交第二段,...,以此类推,直到出现不能提交的那段。但是并此方法不好,因为提交一次,就需要等待审核一次,相当耗时间。
但是这种方法克服了前面那种方法里,多段中都有敏感词却查不出来的缺点。
不过总的来说,这种方法并不常用
方法三:,不断划分文章进行排查(相当于二分法)。
把所有段落分成两部分,先隔离第二部分,提交第一部分。
第一部分若通过,则证明敏感词在第二部分中;若没通过,则证明敏感词就在第一段中。
此时选取有敏感词的那部分,再次进行划分,提交。最终可以找到那有“不当词汇”的一段。
此方法是前两种方法的折中,速度还可以,也可以查多段都有敏感词的情况,建议第一种方法不行时,用此方法

精品软件

其他版本下载

下载地址

  • PC版

网友评论

0条评论

评论需审核后才能显示