社交网站的数据挖掘与分析
2012-2
机械工业出版社
Matthew A. Russell
316
师蓉
无
Facebook、Twitter和LinkedIn产生了大量宝贵的社交数据,但是怎样才能找出谁通过社交媒介正在进行联系?他们在讨论些什么?或者他们在哪儿?本书简洁而且具有可操作性,它将揭示如何回答这些问题甚至更多的问题。你将学到如何组合社交网络数据、分析技术,如何通过可视化帮助你找到你一直在社交世界中寻找的内容,以及你闻所未闻的有用信息。
本书每章都介绍了在社交网络的不同领域挖掘数据的技术,这些领域包括博客和电子邮件。你所需要具备的就是一定的编程经验和学习基本的Python工具的意愿。
通过本书,你将
. 获得对社交网络世界的直观认识
.
使用GitHub上灵活的脚本来获取从诸如Twitter、Facebook和LinkedIn等社交网络API中的数据
. 学习如何应用便捷的Python工具来交叉分析你所收集的数据
. 通过XFN探讨基于微格式的社交联系
. 应用诸如TF-IDF、余弦相似性、搭配分析、文档摘要、派系检测之类的先进挖掘技术
. 通过基于HTML 5和JavaScript工具包的网络技术建立交互式可视化
马修·罗塞尔(Matthew A.Russell),Digital Reasoning
Systems公司的技术副总裁和Zaffra公司的负责人,是热爱数据挖掘、开源和Web应用技术的计算机科学家。他也是《Dojo:
The Dofinitive
Guide》(O'Reilly出版社)的作者。在LinkedIn上联系他或在Twitter上关注@ptwobrussell,可随时关注他的最新动态。
前言
第1章 绪论:Twitter 数据的处理
Python 开发工具的安装
Twitter 数据的收集和处理
小结
第2章 微格式:语义标记和常识碰撞
XFN 和朋友
使用XFN 来探讨社交关系
地理坐标:兴趣爱好的共同主线
(以健康的名义)对菜谱进行交叉分析
对餐厅评论的搜集
小结
第3章 邮箱:虽然老套却很好用
mbox:Unix 的入门级邮箱
mbox+CouchDB= 随意的Email 分析
将对话线程化到一起
使用SIMILE Timeline 将邮件“事件”可视化
分析你自己的邮件数据
小结
第4章 Twitter :朋友、关注者和Setwise 操作
REST 风格的和OAuth-Cladded API
干练而中肯的数据采集器
友谊图的构建
小结
第5章 Twitter:tweet ,所有的tweet ,只有tweet
笔PK 剑:和tweet PK 机枪(?!?)
对tweet 的分析(每次一个实体)
并置潜在的社交网站(或#JustinBieber VS #TeaParty)
对大量tweet 的可视化
小结
第6章 LinkedIn :为了乐趣(和利润?)将职业网络聚类
聚类的动机
按职位将联系人聚类
获取补充个人信息
从地理上聚类网络
小结
第7章 Google Buzz:TF-IDF 、余弦相似性和搭配
Buzz=Twitter+ 博客(???)
使用NLTK 处理数据
文本挖掘的基本原则
查找相似文档
在二元语法中发Buzz
利用Gmail
在中断之前试着创建一个搜索引擎……
小结
第8章 博客及其他:自然语言处理(等)
NLP :帕累托式介绍
使用NLTK 的典型NLP 管线
使用NLTK 检测博客中的句子
对文件的总结
以实体为中心的分析:对数据的深层了解
小结
第9章 Facebook :一体化的奇迹
利用社交网络数据
对Facebook 数据的可视化
小结
第10 章 语义网:简短的讨论
发展中的变革
人不可能只靠事实生活
期望
版权页:插图:这幅图虽然很简单,却非常有趣。它连接了8个人,其中,DionAlmaer是共同的主线。然而,请注意,抓取一层或多层可能会引入图中“与其他所有人都连接”的节点。单看图的话,我们无法根据“同事”和“朋友”之间的关系,判别Dion与BenGalbraith的关系是否更为密切,但是如果他在“被他的超链接标识的目标”中提供了任何信息的话,我们就可以抓取Ben的XFN信息,搜索其他同事标签来构建“谁与谁共事”的社交网络。更多挖掘数据的知识请查看第6章,因为它与同事和工作搭档相关。对广度优先技术的简单分析一般我们不会停顿这么长时间来分析该方法,但是由于这个示例是我们编写的第一个真正的算法,而且我们会在本书中多次见到它,因此值得更仔细地对它进行分析。一般来说,当你检查算法时,必须考虑两个标准:效率和有效性。换一种说法就是:性能和质量。任何算法的标准性能分析通常都包括分析它在最坏情况下的时间复杂度和空间复杂度,即对于一个大型数据集,执行程序所花的时间和需要的内存。我们采用的广度优先方法实质上是广度优先搜索,只是我们并没有真正执行搜索,因为结束条件并没有把图扩展到最大深度或直到我们遍历完所有节点。如果搜索了一些具体的东西,而不只是无限地抓取链接,它就可以被视为真正的广度优先搜索了。
“本书是《Programming Collective Intelligence》一书的深入篇,它介绍通过Python从社交网站中采集数据的一种实践方法。” ——Jeff Hammerbacher.Cloudera首席科学家“对于探索结构化和非结构化数据的一系列工具、技术和理论,本书给出了丰富、紧凑并实用的介绍。 ——Alex Martelli.Google高级主管工程师,《Python in a Nutshell》的作者
《社交网站的数据挖掘与分析》为Jolt生产效率大奖获奖图书。
无
Facebook、Twitter和LinkedIn产生了大量宝贵的社交数据,但是怎样才能找出谁通过社交媒介正在进行联系?他们在讨论些什么?或者他们在哪儿?本书简洁而且具有可操作性,它将揭示如何回答这些问题甚至更多的问题。你将学到如何组合社交网络数据、分析技术,如何通过可视化帮助你找到你一直在社交世界中寻找的内容,以及你闻所未闻的有用信息。 本书每章都介绍了在社交网络的不同领域挖掘数据的技术,这些领域包括博客和电子邮件。你所需要具备的就是一定的编程经验和学习基本的Python工具的意愿。 通过本书,你将 . 获得对社交网络世界的直观认识 .使用GitHub上灵活的脚本来获取从诸如Twitter、Facebook和LinkedIn等社交网络API中的数据 . 学习如何应用便捷的Python工具来交叉分析你所收集的数据 . 通过XFN探讨基于微格式的社交联系 . 应用诸如TF-IDF、余弦相似性、搭配分析、文档摘要、派系检测之类的先进挖掘技术 . 通过基于HTML 5和JavaScript工具包的网络技术建立交互式可视化
SNS大数据分析必读,但是引用了Twitter和Facebook的数据,要通过网络访问需要一点额外的功夫,这个你懂的。Linkedin的数据时而可用时而不可用。
如题,书里代码不少,偏重应用,对社交网络数据挖掘感兴趣的童鞋可以看看~
好书,介绍了很多python工具包和社交网站的api,就是twitter/facebook什么的还得翻墙,太纠结了...
《社交网站的数据挖掘与分析》这本书很不错嘛。
社交网站之间的竞争,归根结底是数据之争。针对社交网站的数据挖掘与分析,无疑能赢得更多的竞争筹码。
感觉翻译的不是很好,再加上个人对python不是很了解,对社交网络的挖掘也是刚刚接触,看着有些吃力。。。。
这个是从事微博等社交网络挖掘者的利器。不足之处是API运行不太稳定
买过来看一下,需要用到社交网络挖掘方面的知识
这本书真是超级好,介绍了大量非常有用的工具,而且有很多我从前没听过的新概念、新方法,读完之后可谓是受益良多。书中内容要借助python来实现,所以要有python基础,但是这点也不是关键,因为python还是比较好学的,现学都不难。虽然讲的是外国的社交网站,而且国内还不能够直接看到,但是移花接木,生活中还是可以用到的。
现在火爆的社交网站,其中的数据的价值更是至高无上的
先前下载一本英文版的,还是看中文的舒服,其中的代码是用python写的,主要是对faceook做数据挖掘与分析。
书不错,使用python的一些工具来数据挖掘
从中也可体味社交网站的细微差别。
主要是分析的国外三大网站的数据!
用来入门不错,实习的时候做大数据,其中实验讲的也不错。
喜欢大数据的仁兄值得一看~~~
比较专业的书 挖掘很好 可惜分析没有
但在中国测试,要翻墙去twitter
Python简单易懂
因为它是用python的,而且又是得奖的
很多案例,主要讲facebook的,很实用。
有技术有内容,有讲解有代码
书还是挺技术的,我承认我买错了
社会计算必备图书
这是目前最热门的方向,好好学习一下,希望能有大的帮助
刚刚到手,正在研读。
书的内容很好,需要消耗很久哦
这本书的内容真的很不错,但是感觉中文的翻译并不是很好。
货刚到,现在开始读
还没读完,读完再补
有点难度,需要有py语言基础
帮助他人买的。
3本书共比**便宜了14元!
就喜欢实践性的,nlltk那本书也如此
感觉是好书,但还没看,使用的语言,之前又不懂。以后有时间再慢慢看了
第一次买,感觉不错,都是经典的书,内容么话说,质量也还好
送给小朋友的,有趣且增加知识量,不错
买了,还没看,看后评价
书不错很新很新鲜里面的各种也不错
没什么太特别的地方
不错的书,很好很强大,只是还没有看
一本理论与实际紧密结合的好书,打开眼界。
书很好,发货也挺及时~
很好,再说也还是这,呵呵
暂无~~
虽然不深 但是可以带着入门
拿到书了,挺满意的。期待阅读有收获~
很有深度不太好理解
没有给发票,书还没看,应该可以吧。。
还灭有看
很好书,专业性要求很强
书品和人品一样
专业,挺好的。
这个书不错哈 这是给同事买来阅读的 非常不错
挺叼的样子
很喜欢,很快
薄薄的,看看再说
发货快 送货也及时
真的是很专业很专业的一本书,好多代码啊。对做数据分析的人来说,确实会很有用,但如果只是想进行消费者行为层面的数据挖掘,就未免太专业了点
很好的数据挖掘概念,尤其在电商企业应用中,会更好把握住用户的“胃口”。
很有用的一本书。不过例子全是国外的社交网站。
入门级别的SNS数据分析,关系网,时间线,联系人等,对网络语义的了解也是不错的选择
但是里面都是facebook、twitter的例子,怎么办呢?只能干瞪眼
不足之处是,作者用到许多国外网站的API,在国内都访问不了。因为我们有伟大的GFW,你懂的。
另外需要读者有点python基础。
这本书很前沿,不过是用Python语言写的。这让学其他语言的还要先学一门语言。
书前面说只要看了书的前几页就没问题,但实际情况不是的,没有一定的Python语言基础或者其他语言的编程基础看本书还是比较吃力的。不是傻瓜式,一说即会的那种教材!
内容还可以,就是facebook这些网站都不能上啊
这个领域比较新的一本书,有一定收获,但也不像传说中的那么好
公司购买,本人没有阅读过
感觉还是蛮有用的
书籍不错,蛮有用的,SNS现在挺热的,值得研究一下!
不错,业界比较早讨论这个的书
这本书的纸质还不错,就是内容可能相对来说不够精华。
这本书的厚度和价钱的关系,体现了热门知识的价值。
书不错,收货也蛮快。可惜是忘记了给我寄发票,客服电话后说再另外寄给我,发票等待中!
译本肯定没有原文的好啦,具体内容还没看
内容丰富,不过书看上去有点旧
内容不错,就是薄了点
书的印刷质量还好。内容很好 。
都是算法,没法看懂,讲的通俗点就好了
最近在看。
翻译得也很及时,主题很时髦,推荐
还要仔细地看
这本书真的很烂,全是讲如何去下载数据的,名不符实啊。关于数据挖掘讲得非常的粗浅,没有任何价值。
原文书其实不错的。评论中对内容有异议的朋友,恐怕是已经入门的高手了。但是就我个人观感来说这些基本的抓取方面的只是是QQ群和Google Group里面常年有人问的话题。有这么一本书来讲解下是件好事情。买之前最好看看样章和目录。关于“分析”的事儿。原书名字中没有讲分析,Mining The Social Web。这书将数据挖掘还是挺专业的,初心入门者至少能从中学到挖掘的技术,这比专门挨个翻博客试验要便捷省力得多。要埋怨就怨国内的无良出版社策划好了,为了销量,楞要扯上分析二字。关于翻译里面有很多句子不知所云,如果看过试读的二章的话。这本书慢慢的翻译会是本长尾好书,英文版的看过之后感觉还是不错,即使经常性业余抓站的Python爱好者也会从中受益的。如果你买了,就直接看代码好了。那是唯一没翻译坏了的好东西。书自身内容4分翻译 -5分书名 -5分
标题起的很新颖,但是看完了,发现大部分内容是“挖掘”,而“分析”的部分讲的很少通篇就是告诉你怎么写代码去抓数据,然后有些什么好用的包之类的但是感觉吧,不是我想象中的内容。因为象这种主题,稍微有变成能力的人都可以做到对数据的抓取主要是想看看有什么新的分析思路,或者想看看作者从数据中能分析出些什么来而不是看作者怎么去抓数据...
这本书2012年编写的,twitter2013年升级了API接口。很多例子用不了,还要跑到网站上自己学习。建议买就买最新的第二版。这版很多知识都过时了
最大的缺陷就是里边的数据用不了。。Twitter,Facebook 是被禁的,要是能有本书讲QQ或者校内的开发平台,那就好了
这本书是用Python和一些外部模块来分析和挖掘邮件、Twitter、LinkedIn、Google Buzz、Facebook中的数据,回答诸如谁是网络中最有影响的人、最热的话题是什么、谁是最话痨的人、谁与你相同朋友最多等等问题,对搞社交网站的人而言非常实用。国内在社交网站的数据挖掘方面做得比较好的,豆瓣算一个。呵呵,不知豆瓣是如何做到的,看这个书能不能有一些启发
一直有人推荐,第一次看,希望不会失望!
适合学习社交网络数据挖掘
书收到了,包装很不错,保护的很好。内容还没看
如果想练习书中的例子,要学会python,还要会翻墙!
书很好,可惜的就是国内上不了那些网站,数据获取是个大麻烦!
换个说法吧,这个东西,对于不是用的主流语言写的,要看,啊,还要学习一门新的语言,最少要先入门。
根本就不是挖掘,也不是什么分析,只是用脚本语言抓网络上的数据,没有挖掘,没有分析,如果你不是用python,根本用不上,还有就是介绍的都是facebook与推特外国网站的抓取,如果你是大陆的,那么比如新浪的接口,根本不是一回事,买次数需谨慎。当然你学的是python的话,可以参考下里面抓数据的思路,代码也可以研究下。... 阅读更多
难~~要实时上机,联网操作
建议改一下分类,跟营销没什么关系
书的整体有严重折痕 从正面到最后一页都有 而且越是后面折痕越明显影响阅读非常不喜欢
专门分析美国的社交网络,还有代码