沉默小子g
沉默小子g
3096 1 0

标签功能的一个建议

现在yb的标签似乎是只根据标题来生成的,可是很多情况下标题并不能概括主要内容。我想着能否根据标题及内容来一起生成标签?
标题依旧按照sae分词服务所得的结果,内容的话当然不能按照分词服务所得的结果来添加标签。
内容可以根据TF-IDF算法来生成文章的关键词【甚至我觉得都不用对标题进行分词,直接对标题和内容一起使用TF-IDF来生成关键词(可以适当提高标题的权重)】
这样生成的标签才比较靠谱

0

See Also

Nearby


Discussion (1)

ego008
ego008 2013-05-18 10:12

看了一下,好处很多,只是实现起来比较麻烦,顺便mark一下

TF-IDF的主要思想是,如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数。IDF反文档频率(Inverse Document Frequency)的主要思想是:如果包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。

【scws】开源免费的简易中文分词系统,PHP分词的上乘之选!
https://github.com/hightman/scws/
about http://www.xunsearch.com/scws/

0
Login Topics