Stop words/停用词列表及应用
停用词(Stop Words)是在处理文本时出现频率比较高,但是没有统计意义的词,通常被用来提升文本特征的质量,或者降低文本特征的维度。一般在处理统计性文本信息时,我们会选择过滤掉这些词,比如用TF-IDF抽取关键词或者摘要,或者计算文档相识度的时候。当然进行文档语音及语法分析的时候,这些词是不能随便过滤掉的。
停用词列表
应用场合不同,停用词列表也不同,比如说各个语言基本的停用词、MySQL Stopwords、Google Stopwords、百度停用词表、哈工大停用词表、SEO 停用词等
下面列几种常用的停用词:
英语基本停用词
["a", "about", "above", "after", "again", "against",
"all", "am", "an", "and", "any",
"are", "aren't", "as", "at", "be",
"because", "been", "before", "being", "below",
"between", "both", "but", "by", "can't",
"cannot", "could", "couldn't", "did", "didn't",
"do", "does", "doesn't", "doing", "don't",
"down", "during", "each", "few", "for",
"from", "further", "had", "hadn't", "has",
"hasn't", "have", "haven't", "having", "he",
"he'd", "he'll", "he's", "her", "here",
"here's", "hers", "herself", "him", "himself",
"his", "how", "how's", "i", "i'd",
"i'll", "i'm", "i've", "if", "in",
"into", "is", "isn't", "it", "it's",
"its", "itself", "let's", "me", "more",
"most", "mustn't", "my", "myself", "no",
"nor", "not", "of", "off", "on",
"once", "only", "or", "other", "ought",
"our", "ours", "ourselves", "out", "over", "own",
"same", "shan't", "she", "she'd", "she'll",
"she's", "should", "shouldn't", "so", "some",
"such", "than", "that", "that's", "the",
"their", "theirs", "them", "themselves", "then",
"there", "there's", "these", "they", "they'd",
"they'll", "they're", "they've", "this", "those",
"through", "to", "too", "under", "until",
"up", "very", "was", "wasn't", "we",
"we'd", "we'll", "we're", "we've", "were",
"weren't", "what", "what's", "when", "when's",
"where", "where's", "which", "while", "who",
"who's", "whom", "why", "why's", "with",
"won't", "would", "wouldn't", "you", "you'd",
"you'll", "you're", "you've", "your", "yours",
"yourself", "yourselves" ]
中文基本停用词
["的", "一", "不", "在", "人",
"有", "是", "为", "以", "于",
"上", "他", "而", "后", "之",
"来", "及", "了", "因", "下",
"可", "到", "由", "这", "与",
"也", "此", "但", "并", "个",
"其", "已", "无", "小", "我",
"们", "起", "最", "再", "今",
"去", "好", "只", "又", "或",
"很", "亦", "某", "把", "那",
"你", "乃", "它", "吧", "被",
"比", "别", "趁", "当", "从",
"到", "得", "打", "凡", "儿", "尔",
"该", "各", "给", "跟", "和",
"何", "还", "即", "几", "既",
"看", "据", "距", "靠", "啦",
"了", "另", "么", "每", "们",
"嘛", "拿", "哪", "那", "您",
"凭", "且", "却", "让", "仍",
"啥", "如", "若", "使", "谁",
"虽", "随", "同", "所", "她",
"哇", "嗡", "往", "哪", "些",
"向", "沿", "哟", "用", "于",
"咱", "则", "怎", "曾", "至",
"致", "着", "诸", "自"]
Google 停用词
["i", "a", "about", "an", "are", "as",
"at", "be", "by", "com", "for",
"from", "how", "in", "is", "it",
"of", "on", "or", "that", "the",
"this", "to", "was", "what", "when",
"where", "who", "will", "with", "the",
"www"]
英文SEO 停用词
["a", "about", "actually", "almost", "also", "although",
"always", "am", "an", "and", "any",
"are", "as", "at", "be", "became",
"become", "but", "by", "can", "could",
"did", "do", "does", "each", "either",
"else", "for", "from", "had", "has",
"have", "hence", "how", "i", "if",
"in", "is", "it", "its", "just",
"may", "maybe", "me", "might", "mine",
"must", "my", "mine", "must", "my",
"neither", "nor", "not", "of", "oh",
"ok", "when", "where", "whereas", "wherever",
"whenever", "whether", "which", "while", "who",
"whom", "whoever", "whose", "why", "will",
"with", "within", "without", "would", "yes",
"yet", "you", "your"]
停用词应用
个人主要是用在 SEO 和关键词搜索、自动生成标签
- 在 Title 里去除停用词
- 在 URL slug 里去除停用词
- 在不使用分词情况下以停用词分割句子,自动生成 tag 或 关键词组
更多参考
- 收集 40 多种语言的停用词列表 https://www.ranks.nl/stopwords
- 中文常用停用词表(哈工大停用词表、百度停用词表、四川大学机器智能实验室停用词库) https://github.com/goto456/stopwords
1
See Also
Nearby
- 上一篇 › 用 Scratch 编写的 Linux 内核模块
- 下一篇 › Bing SEO 优化记录
又更新啦?
@毒药 自己折腾的