12月22-24日，CCF举办了第87期学科前沿讲习班，主题是《社交网络与数据挖掘》。感谢公司给我这次学习机会。

12月22日

Philip S. Yu 教授认为在大数据时代，要发掘数据的价值，仅有深度学习是不够的。大数据的几个V：Velocity，Volumn，Veracity，Variety。针对Variety特性，Philip S. Yu 教授强调了广度学习的概念。在他看来，广度学习要强调以下三点：

我们要能获取多种相关的数据。
这些数据是异构的，使用模型整合数据，建立数据之间的关联。
根据实际需求，对各数据源分别深度挖掘。

与其它学习任务相比：深度学习强调的是模型有多层，而广度学习强调的是输入的数据和模型的组成部分都很广；集成学习是对同一数据集采用多个分类器学习并集成学习结果，而广度学习是将源自多种数据的知识结合在一起；迁移学习强调不同数据源之间信息的迁移，而广度学习强调不同数据源之间信息的集成。

接下来，Philip S. Yu 教授结合实例，介绍了这种广度学习思想的应用。他举的例子分别是POI预测，多社交网络，Q&A系统中的意图挖掘。POI预测的例子中，引入了更多的数据，带来了更好的结果。多社交网络的例子中，找到不同网络各自的元路径，将不同资料合在一起（也提到了这有助于解决冷启动问题）。Q&A系统的例子中，他们使用了一个二元组进行标注，s代表用户询问的症状，n代表用户真正想了解的领域；标注后再进行学习，得到的模型能很好地理解用户的意图。

唐老师先大体介绍了目前社交网络的数据状况。有两点给我留下了深刻印象：一是今日头条的用户每日使用时长，是70分钟（我有个朋友在头条，吃饭时问起这事，他说这个数据还不是最新的，现在应该不止，当初他决定去头条前，横向比较了一下，腾讯新闻的用户每日使用时长是20多分钟）；二是阿里内部做成了“One ID”这个事，对于同一个用户，用同一个ID连接起旺旺/钉钉等小的network。

然后唐老师讲了一下WEB 1.0/2.0/3.0时代的变迁，以及有代表性的算法和产品。而在现在异构的社交网络中，我们一是要挖掘个体的行为模式，二是要挖掘网络的拓扑模式。他给出了一个research roadmap（参见PPT），并针对图中的tie，提到了淘宝正在做基于用户间影响力的可信度推荐。

接下来就是硬广时间，唐老师讲了很久“学堂在线”与“小木”问答机器人的故事。在小木之后，介绍了一下他们在计算模型上的工作——在进行表示学习时考虑关系，对DeepWalk/LINE/PTE/node2vec给出统一的矩阵分解形式。

最后提了一下其它有趣的研究，比如微信红包的流向与传染性，王者荣耀用户间的影响力，微公益中什么样的项目能尽快筹集款项。

面向社交媒体平台的商业知识挖掘 —— 赵鑫

赵老师重点介绍了他们在商品推荐方面做的改进。在他看来，目前电商的推荐系统无法处理用户在社交网站的状态。比如，用户发一条“要换手机，求推荐”的微博，可能是想给父母换，也可能是想给女友换。他们可以通过监测微博及时发现用户的真实购买意图，使用社交信息刻画更准确的用户画像。而针对前面代购行为的例子，他们对每个case都用一个三元组表示，即(user,product,adopter)，这样做出了面向受众的产品推荐。用赵老师的话说，就是通过数据+弱知识+模型的结合得到强知识。

宋老师一上来先以Hotmail为例，介绍了病毒营销的概念，作为一个引子。然后介绍了几个影响力模型，重点介绍了离散时间模型中的IC（Independent cascade）模型和LT（Linear threshold）模型，引入了影响力最大化模型，并介绍了有代表性的算法。

Human Computing —— James A. Evans

James是深耕社会学的学者，他的talk听下来主题其实是在讲团队架构对表现的影响。这才明白他PPT以《Human Computing》为标题的含义。他先抛出一个给牛估计体重的例子，以此引出一个问题——个体的独立性会有助于团队的表现吗？他给的答案是：这依赖于网络的结构。他们的研究发现，listening（倾听）, turn-taking（轮流发言？），women（女性成员）对团队都有助益。而团队越大，越中心化，就越厌恶风险，越难产生创新。之前在Coursera上修过一门课，《Model Thinking》。里面还重点讲过，在问题解决与创新方面，团队越大越多样，就越可能改变观察问题的视角，并重组出创新方案。感觉和James的结论略有偏差，会后向他请教了下，他说他们这边的工作是三周前刚发的，是最cutting-edge的……

12月23日

Modeling Dynamic Networks —— Wei Wang

王教授介绍了在做矩阵分解时考虑进时间因素的办法——TMF（Temporal Matrix Factorization），并详细介绍了在这些问题上的应用与表现：link prediction，community detection，anomaly detection，network reconstruction（考察增量更新），classification等。

Semantic Representation Analysis (SRA) and Selected Applications —— Xiangen Hu

胡教授先简单介绍了下我们学习的过程，同一个词，在不同语义空间中的含义是不同的。由此提出了要在与应用正确对应的语义空间中进行导学交互。然后介绍了他们做智能导学的成功例子。他还提到了构造语义空间时，他们把关键词扔到Wikipedia中进行“生长”，这里给我留下了比较深的印象。

Heterogeneous Information Network Modeling and Analysis —— Chuan Shi

石教授介绍了异质信息网络的数据挖掘。在纵向回顾历史并横向对比了一些概念后，石教授介绍了三个具体问题上的应用：相似度搜索，推荐，恶意软件检测。讲到第三个例子时，他说抽取的特征是API之间的调用关系，网络刻画了API之间的交互，有种眼前一亮的感觉。

Network Embedding —— Peng Cui

崔老师认为大数据时代的挑战不仅在于数据规模的指数级增长，更在于数据之间的关联，使得我们要处理的实际问题，规模的增长成了指数的指数级。我们表示网络时，用的是节点和边；他抛出一个论断，祸根就出在边（即数据之间的关联）上。他介绍了他们的工作，就是将网络映射到一个向量空间里，并且找到了一些问题在两个空间中的对应表示。据他介绍，他们组里目前支持到了千万级网络，下一个目标是处理十亿级的网络。

在线社交媒体中的信息传播预测 —— 沈华伟

沈老师这个talk和前一天宋老师的talk有相关之处，都牵涉到信息传播和最大化影响力的研究。他也讲了一下经典的模型和算法，并介绍了他们使用微博数据，进行热点事件传播的研究案例。他认为要考虑时序信息，结构信息和用户信息；要用框架将预测精度和可解释性结合起来。

12月24日

语言表示学习与计算社会科学 —— 刘知远

以前在学校里上自然语言处理课时，用的教材就是刘老师的《计算语言学》。刘老师上来先举了“前表示学习时代”的研究实例，再介绍了“分布式表示学习时代”的word2vec，最后强调了，计算社会科学研究比的是“想法”，可能从计算机科学的角度来看，实现的难度未必有多大，重要的是能想到计算机里的某种工具能解决社会科学中的某个问题；而信息的多源异构，难以建立语义关联，是我们面临的挑战，也是我们的机遇。

社交网络中的群体用户行为分析与表示学习 —— 杨洋

杨老师详细介绍了三个合作案例。第一个案例是与中国电信合作，使用电信提供的通话数据，他们研究了一个社会学问题——上海移民群体的行为模式。第二个案例也是电信领域，研究诈骗电话的通话模式。第三个案例是与拍拍贷合作，根据用户通话模式判断是否会逾期。并结合合作案例，介绍了一些学术上的思考。

Multi-Dimensional Analysis of Massive Text Corpora —— Jiawei Han

韩老师是数据挖掘领域的奠基人。也可以说是这次本次讲习班最大的腕了。课间大家都排队找他签名。可能主办方出于某些考虑，就将原本放在最后的panel讨论调到韩老师的talk之前。结果panel严重超时；而很多人要赶高铁或飞机，韩老师在讲PPT时，我时不时听到身后有起身离场的声音，也是尴尬。

韩老师认为，现在数据大部分都是无结构的。我们要从数据中挖掘出知识，就要在挖掘之前先做结构化的工作。结构化有转化为network，也有转化为cube。赋予结构之后，挖掘的表现会更有力。

其它方面一些感慨：

学术界和工业界关心的重点还是不一样的。有两位听讲的小伙伴都问到了talk中的内容，能否支持亿级的用户规模。当时一听就猜是同事。会后一问，果然是。：）
感觉到阿里在数据上做的事情比我们要多，希望是本次讲习班样本空间太小，给我造成的错觉。

最后，再次感谢组织给我这次难得的学习机会～

CCF ADL87回顾

CCF ADL87回顾

12月22日

面向社交媒体平台的商业知识挖掘 —— 赵鑫

Human Computing —— James A. Evans

12月23日

Modeling Dynamic Networks —— Wei Wang

Semantic Representation Analysis (SRA) and Selected Applications —— Xiangen Hu

Heterogeneous Information Network Modeling and Analysis —— Chuan Shi

Network Embedding —— Peng Cui

在线社交媒体中的信息传播预测 —— 沈华伟

12月24日

语言表示学习与计算社会科学 —— 刘知远

社交网络中的群体用户行为分析与表示学习 —— 杨洋

Multi-Dimensional Analysis of Massive Text Corpora —— Jiawei Han

CCF ADL87回顾

CCF ADL87回顾

12月22日

Broad Learning via Fusion of Social Network Information —— Philip S. Yu

Social Network Mining —— 唐杰

面向社交媒体平台的商业知识挖掘 —— 赵鑫

Influence Maximization in Social Network —— 宋国杰

Human Computing —— James A. Evans

12月23日

Modeling Dynamic Networks —— Wei Wang

Semantic Representation Analysis (SRA) and Selected Applications —— Xiangen Hu

Heterogeneous Information Network Modeling and Analysis —— Chuan Shi

Network Embedding —— Peng Cui

在线社交媒体中的信息传播预测 —— 沈华伟

12月24日

语言表示学习与计算社会科学 —— 刘知远

社交网络中的群体用户行为分析与表示学习 —— 杨洋

Multi-Dimensional Analysis of Massive Text Corpora —— Jiawei Han