查看主题内容
Oldman 大数据时代不假,但是他是怎么知道你的年龄的?
lee82014312 有人访问百度的时候登陆了百度账户,百度账户里有个人信息并不稀奇,同时百度肯定还会和其他APP互享数据,为用户刻画画像,知道某用户多少年纪并不稀奇
Mikogg 百度帐号的锅呢 就算不实名认证还要写手机号呐 还有这个数据不光我们论坛上的注册会员吧 现在这么多小白说不定也有不少是来这里白漂资源(小白一般应该不大....特别是现在的人注册百度号基本都用真实身 ...
就是大数据啊。。。(现在商家一般说的大数据是大数据+深度学习,离开深度学习,大数据实际应用的人工成本将不可想象,基本是废的)首先说下基本运作原理吧。。。其实就是通过IP和用户特征码来识别用户。。。然后通过记录该IP的所在地区以及用户的浏览(需网站、app开发者使用访客统计脚本并且该统计服务器为百度所有,或有合作关系,虽然基本都有。。。不然百度没权限获取这些)、搜索、购买(购物网站合作共享)等信息,最后通过深度学习来建立用户模型。。。分析总结用户的住址、年龄、喜好、当前需求、消费水平等数据。。。至于更高级的用户关系模型,也就是将每个用户通过生活上的关系串联起来,涉及的安全、法律问题比较多,目前发展缓慢。。。所以即使是淘宝也是通过让用户自己绑定亲情账号来建立这个模型的。。。而且使用上非常小心。。。而用户特征码,一般应该是cookie、token等令牌,是服务器用来辨识当前用户的手段。但这里不是。。。这里一般指设备标识,例如手机的IMEI码,网卡的mac地址等唯一信息。。。而特征码和IP结合起来就可以将不同网站上的不同用户名的同一个用户识别出来进行信息串联。。。而且有效区分同一IP下的不同用户(很少有人是独居吧)。。。而为什么有时候这些信息又不准确:1.你不是公网IP,只有公网IP是全网唯一标识,内网则地址是经常变动的,这样数据自然不会准确。。。2.同一设备,但有两人或者多人皆有比较高的使用频率时。。。数据模型里的数据会被混淆。。。如果别人偶尔使用的情况,则影响不大,行为分析一般取的是大概率行为。。。3.公网IP也是有可能更换的,上一位使用者的信息有可能被分析记录,但是与你本人的不符,所以出现偏差。当然一般如果发现用户行为模式长时间持续与之前的模型数据有太大程度的不同,会重新建立用户模型,而不是继续混淆。。。另外有必要说下,楼上有人说,是通过手机号确认用户信息,这个其实不是的,电话号码可以作为唯一标识来帮助识别用户,但是电话号码相关的用户信息是不可以获取的,至少表面上,没人敢这么玩。。。运营商也是不敢放出的。。。所以理论上互联网商家是无法通过手机号得知用户的详细信息,我们注册时常用的实名认证系统也是国家的,不是商家私架的,所以实名认证也不会泄露个人信息。。。至于自己泄露的,被商家收集以及商家玩阴的(例如招聘这类用户信息全面的网站,不过一般还是安全的。。。),那我没得说。。。不过在大数据面前这个意义也不大,因为不是很多人会这么露底。。。所以大一点的公司一般不会这么玩,收益低风险高,没必要。。。至于搜索完,广告和购物推送则属于正常情况,大数据共享,很多大公司之间都是有合作的。。。至于之前爆出的没搜索,只是在电话里说过甚至没使用电话而是就在附近说,结果也被推送的。。。则一般是两种情况:1.商家没有利用你的通话,而是通过确定与你有关的人员,然后他(她)购买过的物品也有一定可能会给你推送。。。目前还比较少见,用户关系模型还很难完善实施。。。2.商家其实没有截取或者使用你的语音信息,这是违法的,语音权限里没有赋予商家这个权利。他们其实是跳过了语音权限的限制,利用传感器记录下了你说话时的声波震动频率,然后通过软件还原声音来提取语音的(这是窃听的手段,当年好像俄罗斯就被美国这么阴过)。。。而目前这种手段跟窃听器不同,法律定位很模糊。。。举证也非常困难。。。PS:这两年除了安装监控、NAS等原因造成的公网IP使用申请量上升,造成联通等运营商逐渐放宽公网IP的申请通过率以外(联通现在大一点的城市基本都直接给公网IP,都不用申请),国家信息安全的需求也是放宽的重要因素之一。。。因为公网IP唯一性的特性+实名制,可以有效锁定网络使用人。。。而V*P*N等手段,其实除了高匿比较安全以外,其他的通过代理穿透等手段来锁定真实IP并不是很难的事情,而高匿一般比较贵,很多高匿还是假的高匿。。。所以专业的不说,一些以为用了魔法就能随便乱说的小白,怕是有清算的一天啊。。。就看国家心情了。。。嘿嘿。。。顺便F*CK移动,拒绝了我的公网申请。。。
cordless 我为了下1fichier在前三个月估计公网IP都换了几千个了,总数有5000多个,除睡觉放着自由下载.其他时间下完就换IP,连小度都被影响唱歌常跳针,所以公网IP也很难抓准吧.另外这年头监控还要用公网 ...
眠犰 就是大数据啊。。。(现在商家一般说的大数据是大数据+深度学习,离开深度学习,大数据实际应用的人工成本将不可想象,基本是废的)首先说下基本运作原理吧。。。其实就是通过IP和用户特征码来识别用户。。。然后 ...
dhx 请问如何更换公网ip呢,可以教教我们吗
cordless 区域不同,我这儿ISP提供七个浮动IP,其中一个可申请固定IP
方便说的话,能说下你这是什么地方、那个宽带供应商吗?还真没见过这种操作。。。浮动IP目前我只在集群主机里玩过,但是那也是根据主机的使用和停止来切换使用服务商提供的一个或几个固定IP。。。还真没见过提供浮动IP的宽带服务商。。。内地应该没有吧?现在主流供应商都排斥爬虫,不太可能开放这种操作。。。
眠犰 你自己换公网IP?内网确实能随便切,但是公网IP是运营商才能给你切啊。。。你不会跟内网IP搞混了吧。。。三个月换5000个,那宽带维修人员不得砍了你。。。你莫非是内部人士或者真是有特别服务的区域?那当 ...
眠犰 cordless 区域不同,我这儿ISP提供七个浮动IP,其中一个可申请固定IP 方便说的话,能说下你这是什么地方、那个宽带供应商吗?还真没见过这种操作。。。浮 ...
台湾的啊,成都我也待过在201X年以前外网也是可以随便换IP的,如果是固定的我早把伺服器搬过去了,我在家里装的监控都能在外网监控,直到有一年连不到了还打去电信找师傅查,师傅说他去市中心的总局问了,说要我换个电话号试试,所以我一直以为是我被监控了,我的port都给封了,后来有事回成都才看到asus路由器显示无法使用浮动域名因非真实IP.之后我就开始汰换我的监控.
cordless 眠犰 cordless 区域不同,我这儿ISP提供七个浮动IP,其中一个可申请固定IP 方便说的话,能说下你这是什么地方、 ...
原来如此,地区不同,服务商不同个,这个我还真不好说。。。不过如果都是公网IP,这服务商也是挺有魄力的了,我当初刚学爬虫时拿淘宝练手,两个月废了搬瓦工2000+IP,都被淘宝封禁了。。。导致我账号直接被封。。。后来搬瓦工换IP变繁琐了,估计就和用爬虫的人多了有关,不少人直接拿政府网站练手,导致很多IP直接被大陆封禁。。。你的社区里如果有几个我这样玩的,估计半年下来,就是有几十万个IP也都被封完了。。。电信开放公网比联通早,早期服务也好些,但是切换也还是要通过服务商,现在反而不如联通了,估计是用的人更多,而显得号少了。。。公网IP量大了还是有点贵的。。。你应该不是被监控,首先有没有对普通公民的监控都不好说,即使真监控了也不会给你断线的,而是你想断都要想办法给你连上。。。所以不用担心这个问题。。。八成真实的情况是服务商偷偷给你换了内网。。。这种情况前几年倒比较常见。。。电信、联通都没少干,投诉的人不算太少。。。这两年小动作就少多了。。。