谈谈我做过的关键词聚类

2022-07-13 00:01:12   文档大全网     [ 字体: ] [ 阅读: ]

#文档大全网# 导语】以下是®文档大全网的小编为您整理的《谈谈我做过的关键词聚类》,欢迎阅读!
谈谈,关键词
谈谈我做过的关键词聚类



第一,若是单纯拿出一堆词就让我分类,那个我真做不到,我不明白有无人能做到,终归我做不到。做关键词分类,对我而言,必然有一些基础信息,基础数据作为背景

案例1:百度商业词聚类模型

此刻看新闻,大伙儿常常讨论一个话题,百度医疗行业的收入奉献比是多少,其实,我爆个大料给大伙儿,在2005年乃至2006年之前,百度自己都不把握这种数据。

那时百度有一个简单的客户分类,是客服提交的,然后咱们看了一下消费的行业散布,果显示超过50%属于其他分类,那个结果大体上就无法看了。

然后我就琢磨,商业词能不能直接聚类为行业,那时我在产品部门,合作反讹诈点击的工程师是张怀亭(这人似乎此刻还在百度)这是个算法高手,他昔时的毕业论文确实是关联规那么和聚类算法,我就去请教他,他说了一堆,我大部份没听懂,但可能要点明白了一些,然后找他要了论文看了看,也没太看明白,凭借自己粗浅的明白得我就动手了,然后那个还真做成了。

起点是 假设客户本身具有行业属性(若是那个假设不存在,那就没辙了),我以为每一个客户提交的关键词,彼此是有关联的。某两个关键词若是同时被不同的客户提交,其关联性就会随之增加,那个是最大体的一个概念,叫做一起选举数。也是最容易算的一个值。 可是仅仅依托于一起选举数有一个问题,确实是会致使很多词都和热点词关联,这是不合理的,我记得那时仿佛是某网上书城的推荐购买那一栏,明显都是热点书籍,似乎也是基于一起选举数做的关联。

问题1AB50个一起选举,AC30个一起选举,可是B那个词是热点词,共2000个客户提交;C是冷门词,只有50个客户提交,请问AB的关联度高仍是AC的关联度高?

问题2:客户1 提交了10000个词(类似阿里,中青旅真的是这么提交的);客户2提交了20个词,客户1所提交的10000个词的彼此关联度和客户2之间提交的是不是一致? 考虑这两个问题,做权值调整,(其实我记得还有一个权值,好久的情形了,弄不清了)

然后计算词与词的关联值。

那么,权值怎么定? 呵呵,实话说,拍脑袋,只是拍完了要校验。

实现程序只用了不到一个下午,然后跑一遍程序大约1个小时到2个小时(那时候百度的

商业词还没那么多,客户也没此刻呢么多,我的程序其实效率不够好)。然后我做了一个web展现界面,确实是任意输入一个词,列出其关联词及关联值,目测坏案例,分析参数的问题,然后修改参数,再跑一遍。。。 跑了n多遍,大约两三天时刻,感觉结果差不多了,词与词的关联成立起来了,考虑第二步,聚类。(那时熟悉了很多奇葩的商业词,大开眼界,对互联网行业熟悉完全改观,比如白小姐,黄大仙,咳咳、咳咳,那个领域就不能再说了)

聚类的方式极为简单,把每一个行业的代表词(与很多词关联的)抽掏出来,看成核心词,然后基于词的关联(延展一级关联、二级关联、三级关联,比如AB关联,BC关联,CD关联,计算彼此权值衰减,得出AD的关联)。尽可能把所有词聚合到核心词上,作成行业词表。

最开始核心词我从库里挑与其他词关联度较高的有20多个,然后多级权值衰减也是拍脑袋想的,然后跑一遍,看两个指标,第一、覆盖率是多少;第二、准确率如何,选取每一个行业关联度最低的词(坏案例的密度较高,有些词会同时被两个行业核心词关联,但权值计算会出问题,致使被并入错误的行业)去看,选择没有被关联上的词去看,分析权值的问题。然后修改衰减参数,增加核心词。那个程序我也是写了一个下午,可是调试权值和增加核心词,干了一个礼拜。

然后,百度商业分析部终于能够推出,基于行业的收入报表。我自豪的说一句,百度做收

入行业散布,是基于我的关键词分类算法开始的,固然,今天他们鸟枪换炮了,我的算法效率不够(初期还行,到更大的词规模和更多客户就不行了),覆盖率和准确度并非十分完美(坏案例仍是一直存在的,只是尽可能操纵在消费总额的 10%之内,对热点词比较准,但对一些长尾操纵不住)。只是、我是在产品部门干的那个活,呵呵。


后来,那个模型还用于智能起价。下面说一下智能起价的八卦。

智能起价实际上是百度一个失败的商业尝试,对业务的损害超级大,可是初期的设计理念并无大问题,百度那时基于关键词的竞价(那时的竞价模式超级简单,别跟我说此刻百度的竞价模式不如此,我明白),对商业价值的挖掘是有缺点的,比如一些超级热点词,3毛一个点击也是卖不掉的(比如电影,小游戏)。是不是能够廉价点卖呢?对一些超级长尾可是价值很高的词,因为发觉的客户少,因此起价很低,而其商业价值并非弱,比如 “最新型绿色干洗机报价” 如此的长尾词可能参与竞价的只有一两个客户,可是其商业价值可不能低于“干洗机”如此的高价词。因此,智能起价真正的目的,是给热点非商业词降价,给冷门长尾商业词提价。 那么我就提出一个观点,关键词的起价应与他关联词的平均点击价钱相关。然后他们拿那个模型去跟领导讲,专门快就通过了。(怨言一句,赵某童鞋去讲的,被领导问毛了,就说算法是技术部门的,他也不是很清楚,他去讲的时候明明是我提供的原型! 只是后来技术部门又做了一版,但那是后话了。) 智能起价模型失败的缘故,有两个缘故,第一,他们上的时候为了提高对非商业词的覆盖率,硬把关键词包括规那么加上去了。致使了一些坏案例。(比如平板,平板电脑,并非是一个行业)。那时成效很不行,领导很不爽,批评我的坏案例太多,列了一堆,我挨个去查,所列的没有一个是我算法算出来的,都是词包括包进去的。其实那个问题还不算严峻,词包括固然有坏案例,可是阻碍面极为有限;第二个问题更严峻,确实是领导太急迫了,那个情形我的建议是,起价权值低一点(通过算法计算每一个词关联平均价钱,然后关联平均价钱*起价参数=该词起价,这是大体公式,起价参数全凭个人判定)看成效慢慢调整,结果领导一上来设的相当高,因此,客户极大不爽,各类擦屁股持续了几个月。百度那个季度实在可怜。

凤巢以后,智能起价终于寿终正寝。凤巢的方案更完美,更综合,这是必需承认的。 案例2:搜索词/指数词的聚类

固然,也能够基于搜索网民的提交来计算关联度,可是第一,网民的搜索行为,并非如客户提交商业词行为那样具有分类属性。第二,我那时的处置能力也弄不定如此的数据规模的关联计算。(好吧,此刻也不大弄得定。) 那么基于什么呢?基于关键词+搜索量。

这事又是张怀亭帮忙,我在百度合作最多的工程师确实是怀亭,那时他帮我做所有搜索记录的整理,包括汇总和反刷处置(除一些ip,客户端标记清理外,最重要的还有一个规那么,是基于渠道散布和客户端散布规那么,正常的搜索词,来自于不同渠道的比例应该是遵循一个合理散布比例的,所谓渠道包括百度官网,hao123,其他联盟渠道等等,若是严峻不遵守那个比例,大体确实是刷指数了,但那个规那么没有应用到百度指数上,至少那时没应用到,缘故似乎是如此的,那时几乎所有榜单上的热点女星,似乎都有经纪公司或粉丝团的刷榜行为。)因此那时我手里有百度所有搜索词的搜索数据(清理掉刷指数的数据),而且每日更新。 那么怎么分类呢?若是做全分类,我真做不到,可是热点词是能够做的。那个地址有一个要点,确实是每一个热点关键词,都不是孤立存在的。而这些热点词的相关词(基于词包括)里,会携带一些说明其行业属性的词根,然后能够回溯那个热点词的行业属性。(对了,我上面不是说词包括有坏案例么,咳咳,那个,别求全责备。只有词和搜索量,还要做分类,有些坏案例也只能手工调整了。) 举例,

一个热点游戏,比如 神仙道, 会有大量诸如 神仙道攻略, 神仙道新服,神仙道道具,神仙道外挂 等等相关词。通过这些相关词的词根(能够对词根标记分类属性)回溯原词,和原词所有相关词的分类。比如电视剧,常见词根有 “第**集,最新集。”,一个小说,常见词根有“第**章”,“最新章节” 等。

固然,还有一个情形,有些词是多含义的,比如典型如苹果(IT产品,电影,水果)。武林别传(电视剧,游戏)等。通过词根的分析,并基于不同词根下的搜索量加权,取得该词的搜索属性,偏向哪个领域,或各个领域的比例,是的,不是很精准,可是仍是有必然价值的。 实现方式确实是,针对每一个未分类的热点词,去遍历包括他的所有词,然后基于预先概念的分类词根去套,对包括每一个分类词根的长尾词依照搜索量加权,汇总,取得该热点词的分类属性,和覆盖包括该热点词的所有长尾词的分类属性。

那个算法思路,不适合对长尾词挖掘(含有行业属性词根的长尾词能够覆盖,可是毕竟覆盖率不够),可是对百度热榜能够有专门好的帮忙,对热点词的挖掘和自动分类仍是有必然把


握的,那时很多人抱怨我说百度热榜更新不及时,一些新游戏都很火了也进不了热榜,我就拉着百度热榜的产品领导和技术分享过,还提供过原型代码,然后也没有然后了。

至少那时,我能不断看到网民搜索行为的分类比例(百度长尾词太多,我的模型覆盖搜索量只有50%左右),和转变趋势,比如眼看着视频类的搜索比例快速增加。 又是一篇自吹为主的文章,那个,啥也不说了,您凑活看吧。 SEO专题推荐:

关键词优化专题:网站关键词优化没成效?来那个地址学习最有效的关键词优化技术! 内链优化专题:最能提升网站权重的内链部署优化技术与方式 外链建设专题:高质量自然外链怎么做?读完这些你将质的飞跃

网站降权专题:2021年最有效的网站降权、被K、被黑、被解决的解决方式 用户体验专题:学习完这些,作为站长的你能够秒懂如何做网站用户体验 行业网站专题:优化行业网站的“葵花宝典”看完后无优化压力


本文来源:https://www.wddqxz.cn/2cf35da3f221dd36a32d7375a417866fb84ac0a5.html

相关推荐