作者你好,各位朋友,个人站长5年,创业路上,我在这里用一篇5000字长的文章给大家讲讲,得到知道流量的正确位置,思路加实操,知行合一,纯干货细节十足,享受
根据我本地数据的不完全统计(知乎百度top3关键词)
百度PC端关键词总流量为:1亿2743万
知乎实际获得的总流量为:1亿2743万x0.15(平均点击率)=1911万
这只是单看PC端,一个2000W以上流量机会就在眼前
所有靠互联网挣钱的先决条件,是首先要得到流量的,而如今流量却比黄金更珍贵
的实际情况却是,周围已是5+个好友,过去半年里,靠这次机会得到6W到25W不同的回报
我们只要一双勤劳的手和一颗思路清晰的脑
那
何以会出现这样的流量机会?
流量机会具体指什么?
我们如何从中获得流量?
下面,就让我为你打开这扇流动的大门
阅读指南:与市场上形形色色的爽文”有所不同,这篇文章根据自己的实践想法,采用正叙,讲怎样0至1之间”,需要朋友一边阅读一边思考,建议拿出一整块的时间(10-20分钟)进行阅读
1、资本游戏
江湖”中都有这样一段话,大致内容如下:
收割机站长,流量截胡达人百度daddy于2022年8月份跟随投到知乎、快手为首后,百度对知乎提权,流量表现不断上升
当我读到这段文字时,对于所接收到的信息量打了个问号——原因何在?
熟悉传播学的朋友应该知道一个基本原则:
对一切事物而言,我们应该努力注意事实判断,而不是价值判断
因为事实判断是确凿的,能形成共识;而且价值判断取决于视角与立场,可有各种解释
此处投资事件是事实描述,后面的效果是价值描述
但是,就这样简单事实性的描述,网上已经有N种版本了,有些话说得不合适,也有说错投资方
经过核实,您也可以看到,百度同样投资了快手,也许还有另一次的机会?
有时思路是基于事实而发散的
则是关于价值判断的,是否真有流量的增加?是真的提权吗?是否确实存在投资泡沫呢?
直接上数据验证(这里从投资时间点2019.8分段取爱站半年的数据,稍有误差并无大碍):
词量数据
通过词量数据我们可以观察到以下2点:
从2022年11月中旬开始,流量跳跃式上升,字数从30W增加到270W,接近10倍!是互联网中最常见的词语
从2022年7月开始,流量增长减缓,但是仍然维持增长趋势
那么,这些流量通过什么途径来增加?如果不知道它们到底是从哪个搜索引擎获得,那就需要对其进行研究
收录数据
通过收录数据我们可以观察到以下两点:
尽管数据口径不同,但是在流量跳跃式上升的过程中,收录量没有增加的倾向,即,原有收录页面中相应搜索词下方排名上升,提权实锤
当已收录的页面不能覆盖更多搜索词的时候,百度向知乎定向流量会达到临界值,打嗝~
以上分析,容易引起废话感”,由于分析结果与第一次所收到的资料基本一致,我们的大脑无法处理同样的信息
这是归纳法”与演绎法”这两种思维方式之间的区别
若不加以证实,归纳思维暗含着假定百度提权为真,导致以后的行动都是建立在一种假设之上
演绎思维中的每一步骤都是建立在条件是真”这一前提之上的,想想就明白了,在这个信息爆炸的时代,如果分析的结果正好相反,会导致什么样的结果
我们真的很需要甄别信息,其中,保持独立思考是非常重要的,但是独立思考并非对everything均应提出不同意见
有效的思考必须以充分的知识积累为基础,否则,就是盲目地想
若在陌生的领域,研究同行还是一个很好的办法
然后,尽管流量增长减缓,不过,这么大流量,知乎还没完全吞下”,现在还有而且一定会有机会利用这段红利期获得流量,赚到钱
Let’skeepgoing!我们的目标是成为国内最大的知乎社区平台
2.SEO?你知道什么叫免费午餐”吗?
收录?你想知道什么问题?排名?提权?你是否想过这些问题?有问题的话,那么,您对SEO这一领域的知识也许还是知之甚少,以下简单介绍一下
SEO,就是通过对搜索引擎(以下简称SE)规则的理解,对网站进行调整,让它在目标搜索引擎中排名上升,实现获取流量的目的
收录:SE中爬虫系统在抓取页面之后,在服务器上缓存行为
权重:SE给站综合打分,主要依据
排名:页面缓存搜索结果排列位置
上述3点都是动态变化的
则,一次搜索流量怎么来?答案就是靠搜索引擎本身的优化和用户自身的选择
用户先输入搜索词(query),对SE启动搜索请求,SE通过算法计算出缓存后的网页的排名,再回到前端(浏览器),用户通过观察搜索结果,在搜索结果上按你的偏好单击网页
一个网页需要流量,首先要有(被SE缓存)的收录,那么也要排在前面(top10),那么还要有一个人搜索(搜索量),最后还要看看那些想要点击(标题+描述)
的链接,知乎有着不可忽视的先天优势,通过多年来对知识型”这一平台进行定位和开发,用户与知乎品牌之间形成了一种自然的信任关系,也许会造成即使名次不是前三名的情况,不过还是可以拿到比同一市场更多的点击量
这次双剑合璧,百度给知乎做定向流量,而知乎则把流量效率提高了一截,美哉美哉
3、蓝海问题+蓝海流量
那么我们的机会在哪里呢?答案就是知乎
宏宏近期资金短缺,于是去百度上搜了怎么来钱快”(真实数据,仅做示例),在知乎上找到某网页的排名1
然后小手一抖点击进入,看着空无一人的网页,面部表情发生了细微的变化
坑爹呢这是!我在百度上搜索坑爸”,结果出来很多
5年的网赚经历,让我有了敏锐的嗅觉,这就是
的机会,所以我得到的是百万级关键词加知乎数据,经过筛选分析发现,相当数量的问题页面拥有搜索流量,但却出现了如下的状况:
回答未解决搜索需求
回答质量低
回答少
回答前N名赞少
那么我们能不能找到这类问题,自己写答案,进而使排名靠前,对我们自身载体(微信/公众号等)进行导流?答案当然可以!
回答是肯定的!我们可以在搜索引擎中寻找到答案
总之,存在搜索流量,竞争较小,我们合称为蓝海问题”,这类问题的流量集,我们把它统称蓝海流量”
下的小炸弹,朋友们体验先~(SE排名是动态的,大家实际搜索可能略有出入,另外考虑到公开性,大概选了一个例子)
BOOM!这个问题很简单,就是为什么搜索结果总是不一样?对了是gay,同题PC与移动端的排名第二,平均移动月搜索量为44.7W,PC的月平均搜索量为9.5W,合计为50W,排名第二,点击率约20%,即此题每月SEO流量10W,其中答案是什么?你知道答案在哪儿么?
第1名只有58个赞,有没有机会上?你想知道答案么?有没有!有没有变现的办法?这绝对是一个让人兴奋的话题
4、在这个互联网时代,互联网的力量正在颠覆我们的生活方式。打破认知局限
有的朋友来了,也许坐不住,头脑中开始设想自己所处的行业该怎么运作
然而,万一自己的产业没蓝海流量怎么办?为什么非要从事自己熟悉的工作?
流量大师的心法,一直以来,大盘思维,即从全局角度考虑问题
这一次,我们将对知乎总体搜索流量分布情况进行分析,哪来的蓝海流量,我们会走到哪里,而不仅仅限于某一问题,某一产业
乃至知乎好物,完全有可能建立在蓝海流量
思维基础上,永远牢记我们只有一个目的,即挣钱
的同时,这就是我在【TACE】、(TrafficACE,流量高手)公众号上写作的主旨,只是以后折腾工程了,几乎没有发过文章,咳...
之前说过很多,这就是因为我要明确道”的层次,也就是为什么要这样做;而且法”已经消亡,规则也随之改变,方法立即失效
举例说明:特斯拉在诞生之初,电池成本较当时市场上便宜10倍,CEO马斯克为什么能做到?
那是因为他的路是物理学思维”,将事物分解为最小单元,以找到解决方案(TED有演讲)
然而,80%的人喜欢直接拿到方法why?
父亲说,他是听祖父的爷爷讲的,数十万年以前,当人类仍处于狩猎阶段时,为求得生存,才有脑的诞生
脑的演化要经历几百万年,人类诞生的历史只有二十万年左右,换句话说,我们现在仍然使用旧脑子”
而旧脑子”的显着特征之一就是最小作用力原理,人类生来就默许做一些消耗脑力较少的动作,即可以不用大脑,而且道理的研究用脑程度很高
其中就有本人,每次我都懒得动脑子,我只是讥讽我是原始人,咳咳...
那么下面,就让我们一步步的进入战场”
5、建立百万级词库
词库是用户搜索词和词属性的集合
我们尽可能地收集N个频道的关键词,因为每一个渠道或者第三方平台,在流量高手看来,都有着自己的局限
词库中躺着的并非一个个关键词,而是一个RMB
从搜索流量角度,多数时候,加词相当于加流量
可以发现别人无法发现的词语,您可以获得其他人无法获得的流量,这样就能挣到其他人挣不到的钱
关于数据的存储格式,个人推荐直接用csv的格式,使用逗号作为分隔符来存储本地文件,与mysql类数据库比较,使用Bashshell进行查询与分析时,不要过于便捷
拿词渠道:
5118、爱站,站长之家
下面我用5118举例
5.1母词获取
1)5118
分别下载百度PC关键词和移动关键词,分开处理
没有会员的朋友自行淘宝,有企业版的朋友建议全量导出
接下来的步骤,我们将开始接触到一些编程知识:
Bashshell(Linux)+Python
因为此次数据计算的需求常规工具已经不能满足,所以我们要动用神秘”的编程力量
我自己已经全部开发完毕,一些简单Bashshell命令行在文中直接给出了
和
但相信仅此一点,80%的人都能知道,但包括我在内,没有人是小白一步步来的?
编程真的没那么难,trustme!如果能的话,就告诉自己去做这20%
此外还请大家切记,我们并不打算做职业程序员,编程能力可以满足我们现在需要就好
2)初始处理
转码(GBK>;UTF-8),由于5118所给数据编码为GBK,而且Linux中需要UTF-8
才能输出关键词,没有采用其他资料,由于第三方数据在准确度上确实不尽如人意,5118这样一个数量级一天更新量少言也得一亿,代价就放在这里了
由于数据准度较低,所以获得前100名的第一名,之后我们需要亲自去核实一下数据二之前说到的动态排名&;百度提权是指您获得数据与验证数据之间的一个时间差,时间差中的名次也许已改变
bashshell:
cat输入文件名|iconv-c-fGB18030-tutf-8|grep-Ev整域百度PC关键词排名列表|百度指数|100以外”|awk-F,‘{print$1}’>;输出文件名
3)关键词清理
特殊符号
[s+.!?/_,$%^*()+”‘]+|[+——!,::。√?、~@#¥%......&;*()”《》~]
极易被忽视的步骤,许多人自然会相信来自不同来源输出的关键词数据(包括百度),但是流量高手,”与流量高手”的搜索量数据差了十万八千里
网址
www|com|cn|cc|top|net|org|net|cn|rog|cn|tv|info|wang|biz|club|top|vip
年份替换,如2010年改为2022年
中文长度>;如果在这个时候进行关键词抽取会有什么影响呢?=2(可选)
4)去敏感词
非法词汇你懂得,我们在此采用的是DFA算法,平均处理一个关键词不到0.1s
5)去重
去重是非常重要的一步,但是对于内存的需求相对较大,这意味着你要去重的文件大小不能超过可用内存大小
目前的解决方案是使用sort+uniq,首先,使用split对目标文件进行划分,再利用sort对其进行逐一排序,那么sort+uniq合并去重
虽然不会大大减少内存使用的大小,但是提高计算效率
bashshell简版
:
cat输入文件名|sort|uniq>;在输入文件名称后再判断是否为已打开过的文件夹,如果否就直接删除它。输入文件名称
bashshell大数据版:
#!在实际工作中,经常需要进行大量的文本过滤和分类。/bin/bash#命令行的参数:#$1输入文件#$2输出文件basepath=$(cd`dirname$0`;pwd)echo`date`[wordsUniq.shDEBUGINFO]开始文件分割...”split-l300000$1${basepath}/words_split/split_#文件分割echo`date`[wordsUniq.shDEBUGINFO]开始单个排序...”forfin`ls${basepath}/words_split/`dosort${basepath}/words_split/${f}>;这就是一个典型的基于数据库表结构的查询优化问题,在这个问题中,当用户输入了一个关键字之后,如果该关键字不是频繁出现的,则需要将它从表中删掉。${basepath}/words_split/${f}.sort#单个排序doneecho`date`[wordsUniq.shDEBUGINFO]开始合并去重...”sort-sm${basepath}/words_split/*.sort|uniq>;...的处理方法,在对用户请求进行缓存时采用了分页技术来减少访问次数和提高响应速度,但由于页面之间存在着大量重叠部分,导致缓存命中率较低。$2echo`date`[wordsUniq.shDEBUGINFO]删除缓存数据...”rm${basepath}/words_split/*
用法:
储存为filename.sh文件,建立当前目录下的words_split文件夹,再用下面的命令行,输入和输出文件都可以指定路径
sh脚本名称。当用户输入一个关键字时,系统会根据用户输入的关键字自动选择其中一条进行查询,如果没有结果就返回给用户,从而使用户能够快速地得到自己需要的信息。sh输入文件输出文件
OK,处理结束,目前,我们已获得两个很干净”母词的数据,即知乎百度PC关键词与移动关键词
5.2词扩展
词扩展即对得到的母词进行扩展,由于一个网页可能会击中几个相关关键词
然后我们就能假定,来自第三方平台的词汇,仅仅是他们能够发现的,目前知乎上能够击中的单词子集
我们需要尽量找到另外一部分单词,从而比较准确的预估一个问题页面的百度流量
假设现在有A和B两个问题,在自己的词库里,A命中50个关键词,总流量1W,B命中10个关键词,当流量是100
时,则您可能会忽略B题,仅处理A
然而,B题其实击中的关键词有100个,流量在10W
时,这就会因为数据不完整而导致信息不佳,进而直接错过了获取这些流量的机会
举个例子:
经过扩展,该网页总共击中了47个关键词,PC+移动总流量为132W,广告太多,知乎被逼风控提醒,下面是展示该部分数据
怎么样,是否已经开始慢慢体会数据带来的神奇?是不是已经不再满足于仅仅用搜索引擎就可以得到所需要的结果了呢?打起精神,Let’skeepgoing!你有没有发现,现在的互联网上,越来越多的搜索引擎都提供了类似于我们传统搜索引擎那样的功能
因为只有百度流量,下面只使用百度来扩展
1)相关搜索+下拉框词抓取
很多人只知道抓这两个渠道,我不知道这两种渠道是什么性质:
有关搜索
有关搜索是横向扩展的,多数是跨关键词主题关联拓展,在这些问题中,会存在着严重的主题漂移问题,以确保相关性,只抓一轮
下拉框
下拉框为纵向延伸,多数关键词末尾附加词缀
来说明渠道性质的重要性,关键词这类文本数据,扩展方向有且仅有上述两种方向,其他扩展渠道方法就是将这两个基本方向进行叠加或变体
因为在不同的端输出的数据可能会有所不同,因此,我们应该在PC端与移动端之间使用母词,分别对同端口进行扩展
即PC母词抓取PC相关搜索加PC下拉框,移动母词抓取移动相关搜索加下拉框
2)百度推广的台词扩展
途径是:注册/登录>;搜索推广-启动搜索引擎。输入搜索推广>;点击关键词=关键词-搜索引擎关键字-广告。促销管理>;搜索营销@@@@@关键字关键词广告@@@@关键词广告推广@@@@搜索引擎优化@@@@检索引擎。策划师>关键字;搜索推广@@@@@在搜索引擎中进行关键词的规划时,要根据自己的需求选择适合自身需要的关键词
免费注册,另外你还可以使用艾奇SEM工具/斗牛SEO工具等
3)词处理
先将各个渠道的词分端口合并
bashshell:
catfile1.txtfile2.txt>;在搜索引擎中找到对应的关键词进行点击后再根据相关规则来过滤掉多余的内容。all.txt
然后重复【5.1母词获取】的关键词清理和去重部分
5.3获取关键词流量
在百度推广后台同样使用关键词策划师,但是采用了流量查询”
的特性,这也是百度官方提供的流量数据,先前数据口径为每日搜索量,目前已成为每月搜索的数量,但这没有什么大碍
有些朋友也许会有问题,不如先抓住排名来甄别数据吧,缓解接下来数据量紧张?如果这样做的话,那么搜索结果会不会出现一些漏掉的关键词呢?
因为关键词策划者可以一次查询1000个!如果要在一个月内更新一个关键词的话。10W的关键词,只要查100遍就可以!如果要在短时间内得到一个完整的关键词信息,那么就必须先从多个端点同时访问服务器
并实测证明得到一次cookie就可以跨天使用,并且维持10+小时有效登录(答应过我的,一定要下手轻一点)
1)流量数据采集
模拟登录post关键词数据
2)数据筛选
每一端仅保留搜索量>;如果需要的话就将查询关键字和其他相关信息全部删除。=N关键词(数值自定义)
您可以一边获取数据一边进行筛选,还可拆开另外进行筛选的步骤,在此个人提出后一种意见,万一指标不合理还有重新筛选的余地
bashshell:
catfile.txt|awk-F,‘{$2>;=100}’>;这两个选项都是非常重要的。file_new.txt
5.4获取关键词排名
分别获取各端的排名信息,只保留
https://www.zhihu.c_m/question/{问题ID}
这个url特征下,关键词前10名,以及存储对应的问题url
5.5可访问流量
关键词流量并不等于知乎问题页面可访问的实际流量
前面已经提到,搜索流量到网页前也有点击步骤,因此要计算出可以得到的流量,其计算公式是:
可获得流量=流量X点击率
根据排名估算点击率,但百度好像一直未公布点击率的数据,咳...
不过,我们发现2022年7月14日Sistrix公布的google点击量,该数据分析了超过8000万的关键字和数十亿的搜索结果
虽然只是移动端的统计,但是,这并不妨碍
的原文(英文):
https://www.sistrix.c_m/blog/why-almost-everything-you-knew-about-google-ctr-is-no-longer-valid/
每个关键词的可获取流量计算完成后,我们词库已经建好了Niceee!
6、知乎数据获取
数据获取的目的,我们可以在这N个维度上进行数据分析,初步确定某一问题的难易程度(对应9.1数据筛选)
资料在精不多,过多的数据只会干扰判断
问题浏览量
问题关注量(知乎站内流量)
问题创建时间
回答数量
第1名赞数量
第1名回答字数
第1名回答时间
目前为止,我们所需基础数据都已经准备就绪,现在应该已经拿到百度加知乎数据、goodjob关键词文件!
如果你坚持到这里,我相信,我会很想遇到像你一样的朋友^_^
7、数据分析
7.1关键词分组
面对大量杂乱的数据,我们要用关键词分组,把有关关键词及其相应问题页面集中在一起
1)jieba分词
使用python-jieba模块,对每一个关键词进行切分,得到N(term)词项,比如流量高手”会被分词为流量”+高手,含有相同词项的单词被认为是一组
2)单词去重
参照【5.1母词获取】去重部分
3)单词数据计算
使用每个单词来匹配关键词,并且计算出匹配结果数(词频)与可以获得流量之和
SEO的人可能会有一种熟悉感,这与搜索引擎倒排索引相似”,我们实际上就是以term为索引,归类了知乎URL
下面随便拿点演示数据:
7.2人工分类
直接按词项分组是单纯从字符串角度上的分组,简单粗暴但缺乏语义关系
比如炒股”和股票”这两个特征应该属于金融类,但按词项分组就会变成两组,所以最后应该人工过一遍
分类完成后,将对应的词频和可获取流量总和相加,得到总数据
然后用思维导图/表格的形式记录,下面用思维导图示例
但是记住,不要为了分组而分组,没有明显相关性的词项不应该被分到一组,否则那是在给自己找麻烦
8、问题筛选
8.1数据筛选
现在我们可以从可获取流量最多的类别中选取一个词项,在我们完成【6-7】后的关键词文件里,使用Bashshell或者在Excel-csv里搜索关键词列”,找出包含这个词项的关键词,然后用指标来筛选,下面给出几个筛选数值仅做参考
问题浏览量(辅助)
问题关注量(辅助)
问题创建时间(辅助)
回答数量<;=50
第1名赞数量<;=100
第一名答案字数<;=800
第1名回答时间(辅助)
可以获得流量>;=100
说一个场景,在对硬性指标进行甄别之后,若问题页面浏览量远远小于可获得流量且关注量较小,问题产生的年代是近期,第一名的答案是最接近的,那么这样的问题就需要着重mark一下
但why?朋友们可以想想自己的
好了,让我来告诉大家,每类人人数都有限制,若反推上述条件,那就极有可能是自己miss了部分流量,因此,我们应该具有抢占先机的自觉性
经过筛选,可以根据【可获取流量】或者【第1回答赞同数量】的条件降序进行排序,蓝海问题一目了然
8.2人工筛选
人工主要解决数据无法判断的内容问题,也就是第一名的答案是否没有达到问题需求,主要找以下2种类型:
1)直接满足,但是用户隐含的需求没有得到满足,存在扩展空间
举例
Q:汽车多久保养一次”
A:我一般一季度保养一次”
A(new):不同品牌的汽车保养时间不同,我下面列出所有品牌xxx,保养项目xxx,机油选择xxx,保养什么坑xxx”
2)间接满足
正好翻到一个,上图
回答说明了按键精灵,但是,我并未给出脚本是如何写作的
,
我相信就在这里,您已发现N类N题,那就立即着手分析问题>;列出大纲>;xxxx.....
Stop!立即制止上头行为,我们还有最后一步
9、交通追踪
万里长征的最后一步,非常重要,非常重要,很重要
我们前面讲了2点:
在百度推广后台-关键词策划,流量以每月为一个数据口径,并且是预估值
SEO的网页排名是动态的
这就可能造成结果的不稳定性,苦心经营数据、写出答案、做出名次,结果反而阅读量不高?
因此,我们需要监测页面浏览量如何增加,以判断该网页是否确实得到流量,你可以得到多少流量,最后的评判是否应该对上述问题作出答复
监测的时间单位可为天空,细致点的可每隔N小时,监控时长,每个人都会自行决定,当然,越长,越精确的是
的实例,假定某题可用流量15W,则日均可获得流量约5000,然后,3天内(不考虑节假日)可获得的流量是1.5W
记录页面浏览量,并进行比较,只要上、下浮动不特别的大,然后你可以把它放在我们回答清单上
10。在这个基础上再结合客户的反馈和分析,可以得出客户对网站的满意度、忠诚度以及他们的购买意向等重要信息,从而帮助企业制定更合理有效的策略以获得最大利润。最后,
我们把视角上升到了整个营销,你会发现,蓝海流量获取是整个营销环节的第一步,还有一部分,比如答案的排序&;客户满意度评估、产品推广策略等等都需要围绕这个思路去进行思考与分析,而这些也正是我们在以后的营销过程中应该着重关注的方向。交通路线&;用户行为分析等等都离不开对蓝海流量的挖掘和运用。变现等等
也有许多方法技巧类可以帮我们更好地使用蓝海流量,例如,数据交叉计算,进阶玩法等等
但要把以上所说的进行,又占了相当大的比重,由于时间与精力的限制,让我们下一次谈谈
和
的由来:卢松松的博客转载,欢迎注明来源!本文为作者个人原创作品