youbbs
youbbs
280 2 1

Stop words/停用词列表及应用

停用词(Stop Words)是在处理文本时出现频率比较高,但是没有统计意义的词,通常被用来提升文本特征的质量,或者降低文本特征的维度。一般在处理统计性文本信息时,我们会选择过滤掉这些词,比如用TF-IDF抽取关键词或者摘要,或者计算文档相识度的时候。当然进行文档语音及语法分析的时候,这些词是不能随便过滤掉的。

Stop words/停用词列表及应用

停用词列表

应用场合不同,停用词列表也不同,比如说各个语言基本的停用词、MySQL Stopwords、Google Stopwords、百度停用词表、哈工大停用词表、SEO 停用词等

下面列几种常用的停用词:

英语基本停用词

["a", "about", "above", "after", "again", "against", 
"all", "am", "an", "and", "any", 
"are", "aren't", "as", "at", "be", 
"because", "been", "before", "being", "below", 
"between", "both", "but", "by", "can't", 
"cannot", "could", "couldn't", "did", "didn't", 
"do", "does", "doesn't", "doing", "don't", 
"down", "during", "each", "few", "for", 
"from", "further", "had", "hadn't", "has", 
"hasn't", "have", "haven't", "having", "he", 
"he'd", "he'll", "he's", "her", "here", 
"here's", "hers", "herself", "him", "himself", 
"his", "how", "how's", "i", "i'd", 
"i'll", "i'm", "i've", "if", "in", 
"into", "is", "isn't", "it", "it's", 
"its", "itself", "let's", "me", "more", 
"most", "mustn't", "my", "myself", "no", 
"nor", "not", "of", "off", "on", 
"once", "only", "or", "other", "ought", 
"our", "ours", "ourselves", "out", "over", "own", 
"same", "shan't", "she", "she'd", "she'll", 
"she's", "should", "shouldn't", "so", "some", 
"such", "than", "that", "that's", "the", 
"their", "theirs", "them", "themselves", "then", 
"there", "there's", "these", "they", "they'd", 
"they'll", "they're", "they've", "this", "those", 
"through", "to", "too", "under", "until", 
"up", "very", "was", "wasn't", "we", 
"we'd", "we'll", "we're", "we've", "were", 
"weren't", "what", "what's", "when", "when's", 
"where", "where's", "which", "while", "who", 
"who's", "whom", "why", "why's", "with", 
"won't", "would", "wouldn't", "you", "you'd", 
"you'll", "you're", "you've", "your", "yours", 
"yourself", "yourselves" ]

中文基本停用词

["的", "一", "不", "在", "人", 
"有", "是", "为", "以", "于", 
"上", "他", "而", "后", "之", 
"来", "及", "了", "因", "下", 
"可", "到", "由", "这", "与", 
"也", "此", "但", "并", "个", 
"其", "已", "无", "小", "我", 
"们", "起", "最", "再", "今", 
"去", "好", "只", "又", "或", 
"很", "亦", "某", "把", "那", 
"你", "乃", "它", "吧", "被", 
"比", "别", "趁", "当", "从", 
"到", "得", "打", "凡", "儿", "尔", 
"该", "各", "给", "跟", "和", 
"何", "还", "即", "几", "既", 
"看", "据", "距", "靠", "啦", 
"了", "另", "么", "每", "们", 
"嘛", "拿", "哪", "那", "您", 
"凭", "且", "却", "让", "仍", 
"啥", "如", "若", "使", "谁", 
"虽", "随", "同", "所", "她", 
"哇", "嗡", "往", "哪", "些", 
"向", "沿", "哟", "用", "于", 
"咱", "则", "怎", "曾", "至", 
"致", "着", "诸", "自"]

Google 停用词

["i", "a", "about", "an", "are", "as", 
"at", "be", "by", "com", "for", 
"from", "how", "in", "is", "it", 
"of", "on", "or", "that", "the", 
"this", "to", "was", "what", "when", 
"where", "who", "will", "with", "the", 
"www"]

英文SEO 停用词

["a", "about", "actually", "almost", "also", "although", 
"always", "am", "an", "and", "any", 
"are", "as", "at", "be", "became", 
"become", "but", "by", "can", "could", 
"did", "do", "does", "each", "either", 
"else", "for", "from", "had", "has", 
"have", "hence", "how", "i", "if", 
"in", "is", "it", "its", "just", 
"may", "maybe", "me", "might", "mine", 
"must", "my", "mine", "must", "my", 
"neither", "nor", "not", "of", "oh", 
"ok", "when", "where", "whereas", "wherever", 
"whenever", "whether", "which", "while", "who", 
"whom", "whoever", "whose", "why", "will", 
"with", "within", "without", "would", "yes", 
"yet", "you", "your"]

停用词应用

个人主要是用在 SEO 和关键词搜索、自动生成标签

  • 在 Title 里去除停用词
  • 在 URL slug 里去除停用词
  • 在不使用分词情况下以停用词分割句子,自动生成 tag 或 关键词组

更多参考

1

See Also

Nearby


Discussion (2)

毒药
毒药 2022-06-15 11:16

又更新啦?

0
youbbs
youbbs 2022-06-15 11:17

@毒药 自己折腾的

0
Login Topics