Compare commits
28 Commits
| Author | SHA1 | Date | |
|---|---|---|---|
|
|
a6bdc935a1 | ||
|
|
394f85d9a7 | ||
|
|
7ad6d2b1f2 | ||
|
|
95f3311d2c | ||
|
|
09e3dcbe9a | ||
|
|
ede497398f | ||
|
|
493cc4050f | ||
|
|
4f811bd99e | ||
|
|
01a716b5f3 | ||
|
|
0d79d0e4a5 | ||
|
|
ea25b63f87 | ||
|
|
255134eaf0 | ||
|
|
61498ad26d | ||
|
|
bc85cc190e | ||
|
|
f514baac9e | ||
|
|
ddff71e8e2 | ||
|
|
c0a6a2bf96 | ||
|
|
ddb53a6cfc | ||
|
|
cfd149a42e | ||
|
|
219259f9bb | ||
|
|
8d96e3f03d | ||
|
|
f3333c63e5 | ||
|
|
4b73638afe | ||
|
|
4ade75f525 | ||
|
|
9adedfcd89 | ||
|
|
d9534629a2 | ||
|
|
f515a4de8c | ||
|
|
f3a58a7aa6 |
49
.github/workflows/main.yml
vendored
Normal file
49
.github/workflows/main.yml
vendored
Normal file
@@ -0,0 +1,49 @@
|
||||
name: 手动或自动上传 Release 包
|
||||
|
||||
on:
|
||||
push:
|
||||
tags:
|
||||
- '*' # 自动触发:打 tag 时运行
|
||||
workflow_dispatch: # 手动触发支持
|
||||
inputs:
|
||||
tag_name:
|
||||
description: '请输入 tag 名(如 1.0)'
|
||||
required: true
|
||||
default: '1.0'
|
||||
|
||||
jobs:
|
||||
release:
|
||||
runs-on: ubuntu-latest
|
||||
|
||||
steps:
|
||||
- name: 拉取代码
|
||||
uses: actions/checkout@v3
|
||||
|
||||
# 设置 tag 名 和 zip 文件名
|
||||
- name: 设置 Tag 和文件名
|
||||
id: release_info
|
||||
run: |
|
||||
if [ "${{ github.event_name }}" = "workflow_dispatch" ]; then
|
||||
TAG_NAME="${{ github.event.inputs.tag_name }}"
|
||||
else
|
||||
TAG_NAME="${GITHUB_REF##*/}"
|
||||
fi
|
||||
FILE_NAME="Sensitive-lexicon-${TAG_NAME}.zip"
|
||||
echo "tag_name=${TAG_NAME}" >> $GITHUB_OUTPUT
|
||||
echo "file_name=${FILE_NAME}" >> $GITHUB_OUTPUT
|
||||
|
||||
- name: 压缩项目
|
||||
run: |
|
||||
zip -r ${{ steps.release_info.outputs.file_name }} . -x '*.git*'
|
||||
|
||||
# 🎯 关键就在这!明确告诉 action 使用哪个 tag 来上传 release!
|
||||
- name: 上传到 GitHub Release
|
||||
uses: softprops/action-gh-release@v2
|
||||
with:
|
||||
tag_name: ${{ steps.release_info.outputs.tag_name }}
|
||||
name: "Sensitive-lexicon ${{ steps.release_info.outputs.tag_name }}"
|
||||
files: ${{ steps.release_info.outputs.file_name }}
|
||||
draft: false
|
||||
prerelease: false
|
||||
env:
|
||||
GITHUB_TOKEN: ${{ secrets.GITHUB_TOKEN }}
|
||||
2
LICENSE
2
LICENSE
@@ -1,6 +1,6 @@
|
||||
MIT License
|
||||
|
||||
Copyright (c) 2024 Konsheng
|
||||
Copyright (c) 2024~2099 Konsheng
|
||||
|
||||
Permission is hereby granted, free of charge, to any person obtaining a copy
|
||||
of this software and associated documentation files (the "Software"), to deal
|
||||
|
||||
81
README.md
81
README.md
@@ -1,30 +1,75 @@
|
||||
# 敏感词库项目 Sensitive-lexicon
|
||||
# Sensitive-lexicon (中文敏感词库)
|
||||
|
||||

|
||||

|
||||

|
||||

|
||||
|
||||
> **一个持续更新的中文敏感词库,帮助开发者和内容审核者快速识别并过滤不当文本。**
|
||||
|
||||
## 目录
|
||||
|
||||
* [简介](#简介)
|
||||
* [功能特点](#功能特点)
|
||||
* [快速开始](#快速开始)
|
||||
|
||||
* [集成到项目](#集成到项目)
|
||||
* [贡献词汇](#贡献词汇)
|
||||
* [注意事项](#注意事项)
|
||||
* [开源许可](#开源许可)
|
||||
* [项目支持与致谢](#项目支持与致谢)
|
||||
|
||||
## 简介
|
||||
本项目旨在创建和维护一个中文敏感词库,用于帮助开发者和内容管理者识别和过滤文本内容中的不当或不适宜的语言。通过使用本敏感词库,可以有效防止有害信息的传播,维护在线环境的健康和秩序。
|
||||
|
||||
Sensitive‑lexicon 提供了一份广泛覆盖政治、色情、暴力等敏感领域的词汇列表,方便快速嵌入任何文本审核流程,并通过社区协作保持长期更新。
|
||||
|
||||
## 功能特点
|
||||
- **广泛的词汇覆盖**:包含各类敏感词汇,涵盖政治、色情、暴力等多个领域。
|
||||
- **定期更新**:随着社会环境和语言使用的变化,我们会定期更新词库,确保其时效性和准确性。
|
||||
- **易于集成**:提供简单易懂的本地部署API接口,方便开发者在各种应用程序和系统中快速集成和使用。(开发中)
|
||||
- **开源共享**:鼓励社区成员贡献和分享,共同完善敏感词库。
|
||||
|
||||
## 使用说明
|
||||
1. **集成到项目**:下载敏感词库文件,根据您的项目需求,选择合适的方式集成。
|
||||
2. **调用API**:如果您希望通过API接口使用,可以参考我们的API文档进行调用。
|
||||
3. **贡献词汇**:我们欢迎社区成员贡献新的敏感词汇。请通过Pull Request或Issue的形式提交您的建议。
|
||||
* **广泛覆盖**:涵盖数万条词汇,覆盖主流敏感领域。
|
||||
* **持续更新**:根据社会语境变化定期更新,保持时效性与准确性。
|
||||
* **易于集成**:纯文本格式,可在任意语言/框架中直接引用。
|
||||
* **社区驱动**:欢迎 Issue / PR,携手打造更完整的词库。
|
||||
|
||||
## 快速开始
|
||||
|
||||
### 集成到项目
|
||||
|
||||
1. 克隆或下载本仓库。
|
||||
2. 在您的代码中读取 `sensitive-lexicon.txt`(或您需要的分支文件)。
|
||||
3. 根据业务场景,选择合适的匹配算法(如 DFA、Trie、正则表达式等)进行过滤。
|
||||
|
||||
```bash
|
||||
# 示例:使用 Git 克隆
|
||||
git clone https://github.com/Konsheng/Sensitive-lexicon.git
|
||||
```
|
||||
|
||||
### 贡献词汇
|
||||
|
||||
* **Pull Request**:在 `Vocabulary/` 目录新增或修改词条,并提交 PR。
|
||||
* **Issue**:如果不确定具体实现,欢迎通过 Issue 提出建议或讨论。
|
||||
|
||||
> **提示**:PR 请附上来源或用例,便于维护者审核。
|
||||
|
||||
## 注意事项
|
||||
- 在使用敏感词库时,请确保您的应用遵守当地法律法规。
|
||||
- 敏感词的定义可能因文化、地区和语境而异,使用时请加以判断和适当调整。
|
||||
|
||||
* 使用时请遵守当地法律法规及平台政策。
|
||||
* 敏感词定义受文化/地域/语境影响,实际应用中请结合业务需求自行评估与调整。
|
||||
|
||||
## 开源许可
|
||||
本项目采用[MIT许可证](LICENSE),您可以自由使用、修改和分发,但需要保留版权和许可声明。
|
||||
|
||||
## 联系方式
|
||||
如果您有任何问题或建议,请通过以下方式联系我们:
|
||||
- Email: [konsheng@outlook.com](mailto:konsheng@outlook.com)
|
||||
本项目采用 **MIT License**,在保留版权与许可声明的前提下,可自由使用、修改与分发。
|
||||
|
||||
感谢您对本项目的支持和贡献
|
||||
## 项目支持与致谢
|
||||
|
||||
* **中国数字时代** ([https://chinadigitaltimes.net](https://chinadigitaltimes.net))
|
||||
* **中国农业科学院信息化办公室**
|
||||
|
||||
感谢所有贡献者的关注与支持!
|
||||
|
||||
## Star History
|
||||
<a href="https://star-history.com/#konsheng/Sensitive-lexicon&Date">
|
||||
<picture>
|
||||
<source media="(prefers-color-scheme: dark)" srcset="https://api.star-history.com/svg?repos=konsheng/Sensitive-lexicon&type=Date&theme=dark" />
|
||||
<source media="(prefers-color-scheme: light)" srcset="https://api.star-history.com/svg?repos=konsheng/Sensitive-lexicon&type=Date" />
|
||||
<img alt="Star History Chart" src="https://api.star-history.com/svg?repos=konsheng/Sensitive-lexicon&type=Date" />
|
||||
</picture>
|
||||
</a>
|
||||
|
||||
File diff suppressed because one or more lines are too long
76
Vocabulary/COVID-19词库.txt
Normal file
76
Vocabulary/COVID-19词库.txt
Normal file
@@ -0,0 +1,76 @@
|
||||
武汉不明肺炎
|
||||
武汉海鲜市场
|
||||
沙士变异
|
||||
爆發sars疫情
|
||||
武汉卫生委员会
|
||||
p4病毒实验室
|
||||
病毒感染
|
||||
疫情事件
|
||||
肺炎病人
|
||||
武汉流行肺炎
|
||||
非典性肺炎
|
||||
习近平到武汉
|
||||
某人亲自
|
||||
雷神山
|
||||
总书记
|
||||
总书记
|
||||
红十字会
|
||||
疫情
|
||||
肺炎
|
||||
習近平
|
||||
中央
|
||||
疫情
|
||||
政府
|
||||
負面
|
||||
疫情
|
||||
習主席
|
||||
凝聚力
|
||||
疫情蔓延
|
||||
武汉
|
||||
李克强
|
||||
肺炎
|
||||
总理
|
||||
北京
|
||||
武漢
|
||||
李克強
|
||||
扒一扒武汉病毒所
|
||||
所长的成功史
|
||||
地方官+疫情+中央+隱瞞
|
||||
舉行+批評中國+兩會期間+隱瞞
|
||||
武漢+中共+危機+北京
|
||||
共产党+肺炎+表现+统治
|
||||
疫情+红会+4+政府+湖北
|
||||
中国共产党+最大的威胁+这个时代
|
||||
武漢+明明+病毒+人傳人
|
||||
美国疾控中心+冠状病毒
|
||||
菲律宾总统府感谢中国捐赠菲律宾
|
||||
全面接管+10号疫情不好转+解放军
|
||||
網上教學+大力+推進
|
||||
封城+部隊
|
||||
政府+做出+测序+病毒
|
||||
为辅+西医+冠状病毒
|
||||
省委书记+通报+专家组+病毒
|
||||
断崖式下跌+疫情防控
|
||||
發起罷工+五大訴求+員工陣線
|
||||
香港+林鄭+呼籲+病毒
|
||||
香港+港府+衞生防護+港人
|
||||
大陸+台灣+病毒+外交部
|
||||
口罩+台灣+出口+國家
|
||||
口罩+台灣+政府+中國大陸
|
||||
澳門+政府+戴口罩
|
||||
武漢肺炎疫情失控
|
||||
死亡病例+肺炎+死亡人數
|
||||
武漢+感染+十幾萬
|
||||
上海+背景+药物+病毒
|
||||
毒城+武漢
|
||||
武汉+发生+人传人+病毒
|
||||
肺炎+疾病预防控制+病毒+医学期刊
|
||||
有关+疾病控制+旅行限制+病毒
|
||||
疫情+颜色革命+李文亮
|
||||
聲音+人傳人+李文亮
|
||||
疫情+病毒+李文亮+中央
|
||||
冠状病毒+人传人+李文亮
|
||||
监察委+确诊+李文亮
|
||||
武漢+光復
|
||||
湖北+五大诉求
|
||||
武汉+五大诉求
|
||||
2
Vocabulary/GFW补充词库.txt
Normal file
2
Vocabulary/GFW补充词库.txt
Normal file
File diff suppressed because one or more lines are too long
1064
Vocabulary/补充词库.txt
Normal file
1064
Vocabulary/补充词库.txt
Normal file
File diff suppressed because it is too large
Load Diff
53308
Vocabulary/零时-Tencent.txt
Normal file
53308
Vocabulary/零时-Tencent.txt
Normal file
File diff suppressed because it is too large
Load Diff
Reference in New Issue
Block a user