12月22-24日,CCF举办了第87期学科前沿讲习班,主题是《社交网络与数据挖掘》。感谢公司给我这次学习机会。

12月22日

Broad Learning via Fusion of Social Network Information —— Philip S. Yu

Philip S. Yu 教授认为在大数据时代,要发掘数据的价值,仅有深度学习是不够的。大数据的几个V:Velocity,Volumn,Veracity,Variety。针对Variety特性,Philip S. Yu 教授强调了广度学习的概念。在他看来,广度学习要强调以下三点:

  1. 我们要能获取多种相关的数据。
  2. 这些数据是异构的,使用模型整合数据,建立数据之间的关联。
  3. 根据实际需求,对各数据源分别深度挖掘。

与其它学习任务相比:深度学习强调的是模型有多层,而广度学习强调的是输入的数据和模型的组成部分都很广;集成学习是对同一数据集采用多个分类器学习并集成学习结果,而广度学习是将源自多种数据的知识结合在一起;迁移学习强调不同数据源之间信息的迁移,而广度学习强调不同数据源之间信息的集成。

接下来,Philip S. Yu 教授结合实例,介绍了这种广度学习思想的应用。他举的例子分别是POI预测,多社交网络,Q&A系统中的意图挖掘。POI预测的例子中,引入了更多的数据,带来了更好的结果。多社交网络的例子中,找到不同网络各自的元路径,将不同资料合在一起(也提到了这有助于解决冷启动问题)。Q&A系统的例子中,他们使用了一个二元组进行标注,s代表用户询问的症状,n代表用户真正想了解的领域;标注后再进行学习,得到的模型能很好地理解用户的意图。

Social Network Mining —— 唐杰

唐老师先大体介绍了目前社交网络的数据状况。有两点给我留下了深刻印象:一是今日头条的用户每日使用时长,是70分钟(我有个朋友在头条,吃饭时问起这事,他说这个数据还不是最新的,现在应该不止,当初他决定去头条前,横向比较了一下,腾讯新闻的用户每日使用时长是20多分钟);二是阿里内部做成了“One ID”这个事,对于同一个用户,用同一个ID连接起旺旺/钉钉等小的network。

然后唐老师讲了一下WEB 1.0/2.0/3.0时代的变迁,以及有代表性的算法和产品。而在现在异构的社交网络中,我们一是要挖掘个体的行为模式,二是要挖掘网络的拓扑模式。他给出了一个research roadmap(参见PPT),并针对图中的tie,提到了淘宝正在做基于用户间影响力的可信度推荐。

接下来就是硬广时间,唐老师讲了很久“学堂在线”与“小木”问答机器人的故事。在小木之后,介绍了一下他们在计算模型上的工作——在进行表示学习时考虑关系,对DeepWalk/LINE/PTE/node2vec给出统一的矩阵分解形式。

最后提了一下其它有趣的研究,比如微信红包的流向与传染性,王者荣耀用户间的影响力,微公益中什么样的项目能尽快筹集款项。

面向社交媒体平台的商业知识挖掘 —— 赵鑫

赵老师重点介绍了他们在商品推荐方面做的改进。在他看来,目前电商的推荐系统无法处理用户在社交网站的状态。比如,用户发一条“要换手机,求推荐”的微博,可能是想给父母换,也可能是想给女友换。他们可以通过监测微博及时发现用户的真实购买意图,使用社交信息刻画更准确的用户画像。而针对前面代购行为的例子,他们对每个case都用一个三元组表示,即(user,product,adopter),这样做出了面向受众的产品推荐。用赵老师的话说,就是通过数据+弱知识+模型的结合得到强知识。

Influence Maximization in Social Network —— 宋国杰

宋老师一上来先以Hotmail为例,介绍了病毒营销的概念,作为一个引子。然后介绍了几个影响力模型,重点介绍了离散时间模型中的IC(Independent cascade)模型和LT(Linear threshold)模型,引入了影响力最大化模型,并介绍了有代表性的算法。

Human Computing —— James A. Evans

James是深耕社会学的学者,他的talk听下来主题其实是在讲团队架构对表现的影响。这才明白他PPT以《Human Computing》为标题的含义。他先抛出一个给牛估计体重的例子,以此引出一个问题——个体的独立性会有助于团队的表现吗?他给的答案是:这依赖于网络的结构。他们的研究发现,listening(倾听), turn-taking(轮流发言?),women(女性成员)对团队都有助益。而团队越大,越中心化,就越厌恶风险,越难产生创新。之前在Coursera上修过一门课,《Model Thinking》。里面还重点讲过,在问题解决与创新方面,团队越大越多样,就越可能改变观察问题的视角,并重组出创新方案。感觉和James的结论略有偏差,会后向他请教了下,他说他们这边的工作是三周前刚发的,是最cutting-edge的……

12月23日

Modeling Dynamic Networks —— Wei Wang

王教授介绍了在做矩阵分解时考虑进时间因素的办法——TMF(Temporal Matrix Factorization),并详细介绍了在这些问题上的应用与表现:link prediction,community detection,anomaly detection,network reconstruction(考察增量更新),classification等。

Semantic Representation Analysis (SRA) and Selected Applications —— Xiangen Hu

胡教授先简单介绍了下我们学习的过程,同一个词,在不同语义空间中的含义是不同的。由此提出了要在与应用正确对应的语义空间中进行导学交互。然后介绍了他们做智能导学的成功例子。他还提到了构造语义空间时,他们把关键词扔到Wikipedia中进行“生长”,这里给我留下了比较深的印象。

Heterogeneous Information Network Modeling and Analysis —— Chuan Shi

石教授介绍了异质信息网络的数据挖掘。在纵向回顾历史并横向对比了一些概念后,石教授介绍了三个具体问题上的应用:相似度搜索,推荐,恶意软件检测。讲到第三个例子时,他说抽取的特征是API之间的调用关系,网络刻画了API之间的交互,有种眼前一亮的感觉。

Network Embedding —— Peng Cui

崔老师认为大数据时代的挑战不仅在于数据规模的指数级增长,更在于数据之间的关联,使得我们要处理的实际问题,规模的增长成了指数的指数级。我们表示网络时,用的是节点和边;他抛出一个论断,祸根就出在边(即数据之间的关联)上。他介绍了他们的工作,就是将网络映射到一个向量空间里,并且找到了一些问题在两个空间中的对应表示。据他介绍,他们组里目前支持到了千万级网络,下一个目标是处理十亿级的网络。

在线社交媒体中的信息传播预测 —— 沈华伟

沈老师这个talk和前一天宋老师的talk有相关之处,都牵涉到信息传播和最大化影响力的研究。他也讲了一下经典的模型和算法,并介绍了他们使用微博数据,进行热点事件传播的研究案例。他认为要考虑时序信息,结构信息和用户信息;要用框架将预测精度和可解释性结合起来。

12月24日

语言表示学习与计算社会科学 —— 刘知远

以前在学校里上自然语言处理课时,用的教材就是刘老师的《计算语言学》。刘老师上来先举了“前表示学习时代”的研究实例,再介绍了“分布式表示学习时代”的word2vec,最后强调了,计算社会科学研究比的是“想法”,可能从计算机科学的角度来看,实现的难度未必有多大,重要的是能想到计算机里的某种工具能解决社会科学中的某个问题;而信息的多源异构,难以建立语义关联,是我们面临的挑战,也是我们的机遇。

社交网络中的群体用户行为分析与表示学习 —— 杨洋

杨老师详细介绍了三个合作案例。第一个案例是与中国电信合作,使用电信提供的通话数据,他们研究了一个社会学问题——上海移民群体的行为模式。第二个案例也是电信领域,研究诈骗电话的通话模式。第三个案例是与拍拍贷合作,根据用户通话模式判断是否会逾期。并结合合作案例,介绍了一些学术上的思考。

Multi-Dimensional Analysis of Massive Text Corpora —— Jiawei Han

韩老师是数据挖掘领域的奠基人。也可以说是这次本次讲习班最大的腕了。课间大家都排队找他签名。可能主办方出于某些考虑,就将原本放在最后的panel讨论调到韩老师的talk之前。结果panel严重超时;而很多人要赶高铁或飞机,韩老师在讲PPT时,我时不时听到身后有起身离场的声音,也是尴尬。

韩老师认为,现在数据大部分都是无结构的。我们要从数据中挖掘出知识,就要在挖掘之前先做结构化的工作。结构化有转化为network,也有转化为cube。赋予结构之后,挖掘的表现会更有力。

其它方面一些感慨:

  1. 学术界和工业界关心的重点还是不一样的。有两位听讲的小伙伴都问到了talk中的内容,能否支持亿级的用户规模。当时一听就猜是同事。会后一问,果然是。:)
  2. 感觉到阿里在数据上做的事情比我们要多,希望是本次讲习班样本空间太小,给我造成的错觉。

最后,再次感谢组织给我这次难得的学习机会~