索引
搞seo的人,最关心的就是「关键词排名」,无论你的市场目标是什么,搜索引擎排名无非是当前最关切的事情,今天就来介绍「TF-IDF」这个词吧!
TF-IDF 是什么?
TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频率)是一种用于文本分析的统计方法,常用于信息检索和文本挖掘。它衡量一个词在单个文档中的重要性,同时考虑该词在整个文档集合中的稀有性,是一种加权技术的统计方法,用来评估字词「曝光次数」上升或下降来反应「相关程度」,很常用于搜索引擎的字词排名。
[qgg_yellow]
TF(Term Frequency)词频:某字词在网站文章中出现的次数。
IDF(Inverse Document Frequency)逆文本频率指数:字词的类别区分能力程度。
[/qgg_yellow]
原理
数学模型定义(见下图)
SEO应用例子
假设在Google上搜寻「水果」得到5个搜寻结果,如下:
- 水果有水果,水果,水果,水果
- 水果有苹果,桃子,西瓜,菠萝
- 蔬菜都很好吃,我最爱吃茄子了
- 苹果,梨子都是很好吃的水果
- 好吃的水果有西瓜,苹果,葡萄,其他水果还有菠萝,猕猴桃
上面这5个搜索结果,没有特定指的是文章标题或文章内容,而是以「整个页面内容」来判定。
最后得到的排名结果依序是 5、2、4、1、3。
1.出现了4次的「水果」字词;
2.出现了1次的「水果」字词;
3.出现了0次的「水果」字词;
4.出现了1次的「水果」字词;
5.出现了2次的「水果」字词;
接着搜索引擎进行分词的动作,算出IDF:
水果=4
苹果=3
好吃=2
菠萝=2
西瓜=2
梨子=2
桃子=1
蔬菜=1
茄子=1
猕猴桃=1
逆文本频率最高的是「水果」,而这些词组被分出来之后,应用到上面那5个搜寻结果上,按照「包含逆文本频率最高的字词」及「分词的包含程度」来去评估,第五个搜寻结果就会是排名第一,最符合用户意图。
利用分词涵盖程度就能符合内容「相关程度」的重要性。
目前哪些搜索引擎在使用 TF-IDF 算法?
- Google:Google’s John Mueller Discusses TF-IDF Algo [collapse title=’点击展开 查看更多’]“您对TF-IDF关键字有何看法?谷歌是否使用类似的机制?我们应该利用这个来改善我们的内容吗?“约翰穆勒回答说:“… TF-IDF关键字本质上是一种用于信息检索的指标。”对“信息检索”的引用是对信息检索的一般领域的参考。这包括搜索GMAIL收件箱的科学。信息检索是一个有点含糊不清的术语。
然后他说:
“关于试图理解页面上的相关词汇,我们使用了大量不同的信息检索技术。多年来,这些指标已经出现了很多。“
这是一个提示,专注于一个有助于找到“停用词”的旧指标是没有用的,因为有许多其他技术使用。
谷歌的TF-IDF和排名
“…我在这里的一般建议是不要专注于这些类型的人工指标……因为它一方面不能直接重现这个指标,因为它基于网络上所有内容的整体索引。所以并不是说你能说得好,这就是我需要做的事情,因为你并没有真正拥有这个指标。“
这意味着无法计算TF-IDF指标,因为它基于整个网络的统计数据。
John Mueller接着描述了一个更好的替代方案,专注于TF-IDF:
“相反,我强烈建议关注您的网站及其用户,并确保您提供的内容是Google长期以来仍会认可并继续用作有价值的内容。”
穆勒透露,这是一个非常古老的指标,暗示现代信息检索变得更加复杂:
“另一件事是……这是一个相当古老的指标,多年来事情已经发生了很大变化。……还有很多其他指标。“
然后他说,关注用户是一种更好的方法,因为它不受变化的影响。Google致力于提供最有用的搜索结果。如果您专注于有用的内容,那么该页面可能会继续受欢迎并在Google上展示。
这是穆勒所说的
“所以只是盲目地专注于一种理论指标并试图将这些词汇压缩到你的页面中,我认为这不是一件有用的事情。
我认为这是一种非常短视的想法,因为你只是专注于一个搜索引擎,你认为这些词有更强的效果。
所以,不要只关注人为添加关键字。确保你正在做的事情,所有的新算法将继续查看你的页面,并说,这是非常棒的东西。我们应该在搜索结果中更明显地显示它。“
[/collapse]
- Baidu:在百度专利文档《CN102737018A-基于非线性统一权值对检索结果进行排序的方法及装置-公开》可以看到百度也在使用TF-IDF算法
TF-IDF 对于网站页面对权重影响
目前搜索引擎大多数都使用下面的公式来取得网站页面的质量分数:
Total(页面总分)= TF-IDF分数 * x + URL 分数 * y + 用户体验分数 * z;其中 x+y+z = 100%。
[qgg_yellow]URL分数指的是网站自身的Domain 和 Backlink反向链接[/qgg_yellow]
对于Google而言,TF-IDF 的权重(x)占了将近50%,而Baidu占了将近40%。
结论
想要做好网站的关键词排名,答案已经呼之欲出了,就是把页面内容品质顾好(利用TF-IDF逻辑),最后慢慢形成各个关联性的聚合文章,虽然这边并没有提到说用黑帽SEO的方式来进行文章聚合,但可想而知,因为TF-IDF分词算法的关系,可不能像以前一样搞文章句子重组这种方法了,因为这种方法最终就是会降低访客与网站的互动效益。