R会介绍:
“互联网+”的发展,让我们无时无刻不在接触大数据。无论是学界还是企业界,均重视大数据的挖掘与应用,尤其在学界,大数据分析已是必不可少的研究方式。但是,在中国对于R语言在研究中的应用的普及程度尚不足,营销学者对研究中所遇到的数据分析问题、数据可视化问题、数据整理问题还没未得到很好的解决。基于此,我们希望通过本次学术交流(中国R会),提升市场营销学大数据分析领域的研究能力和研究水平,为学术界和实业界的交流与合作提供机会。
以下为本次R会内容分享。
Quda: Natural Language Queries for Visual Data Analytics
讲者:傅四维(之江实验室 研究员)
记录者:张馨艺
面向可视化的自然语言接口(visual-oriented natural language interface, V-NLIs)是近年来的研究热点。V-NLIs面临的一个重要挑战是如何形成有效的设计决策,而这通常需要系统对用户输入查询有深入的理解。基于学习的方法在各种NLP任务中都取得了较好的效果,在V-NLIs中也显示出理解自由形式的用户输入的潜力。然而,由于缺乏足够的训练样本来满足可视数据分析,基于学习的技术很少被用于V-NLIs的开发问题中。因此,将这团队提出了一个名为Quda的新数据集,以帮助V-NLIs理解自由形式的自然语言。数据集包含14,035个不同的用户查询,每个查询标注了对应的10个低级分析任务。
该工作首先从V-NLIs的目标用户,数据分析师那里设计实验收集了920例种子查询;然后因为专业人员的资源非常有限,而深度学习的训练又需要大量的数据集,为了解决这个矛盾,讲者团队采用众包的方法,让众包工人在专家句子的基础上进行同义句复述,并设计了一套机制来过滤质量差的句子;最后,通过一个原型系统来演示Quda在构建V-NLIs中的作用,该原型可以为自由形式的用户查询做出有效的设计决策。此外,还通过分析学术出版物中描述的设计任务,验证了Quda在可视化社区中广泛应用的有效性。
传染病预警中的统计模型
讲者:李舰(九峰医疗首席数据科学家)
记录者:刘尚松
讲者主要从疾控预警机制、传染病预警方法两个方面展开讲述。
关于疾控预警机制,讲者从新冠疫情带来的挑战和当前的监测预警体系进行展开。李舰博士提到疫情期间,在医学、生物学、流行病学、数据科学领域都出现了规则与经验、决策与预测上的两难。目前的监测预警体系包括疾病监测、传染病预警、传染病预测三个阶段。传染病监测预警体系也存在三个问题:1.预警关口相对滞后;2.预警信息来源相对单一;3.预警技术相对落后。讲者提到更科学、更有效的大数据预测方法可能是防范下一次疫情的最好方法。
针对传染病预警方法,讲者先介绍了五种传染病监测类别:病例监测、事件监测、症状监测、影响因素监测和实验室监测。然后给出了多个监测预警系统应用示例,如国家传染病自动预警系统(CIDARS)、国家突发公共卫生事件报告系统、上海世博会浦东症状监测预警系统。讲者还介绍了SIR传染病模型以及如何使用R语言实现,并提到预警模型可从及时性、灵敏度、错误预测率三个方面来评价。此外,讲者还介绍了常用的预警模型,如SARIMA异常检测模型、cox-stuart增长趋势检验、轮廓系数空间聚集模型等。最后讲者介绍了自己团队所做的传染病预警系统。
时空语义数据的可视分析
讲者:孙国道(浙江工业大学 教授)
记录者:陈富秋
讲者从3个方面开展报告的讲述:数据可视分析概述;数据可视分析各领域案例;数据可视分析的挑战与总结。
- (1)数据可视分析概述。阐述了:
- 什么是可视化?(可视化是数据可视分析的构建研究)
- 为什么需要可视化?(讲述数据案例:安斯库姆四重奏的可视化)
- 为什么需要好的可视化?(人的认知能力不足)
- 可视分析的应用有哪些?(可视分析的重要应用之一:大安全)
- (2)数据可视分析各领域案例介绍,提出所述领域数据存在的高度异构、高维度、高动态、冗余与稀疏并存、不确定性、非结构化等特征。各领域案例包括:
- 城市交通数据(GPS数据等)
- 文本语义数据(微博数据等)
- 网络数据(银行交易、人群移动数据等)
- 视频影像数据(监控视频数据等)
- 环境数据(空气质量、城市噪音数据等)
- 经济数据(房价、地区收入数据等)
- (3)数据可视分析的挑战与总结。
- 对于时空语义数据可视化的挑战,讲者从4个方面进行了展开:数据质量欠佳、不同时空和文本数据的可视编码不一、时空可视探索问题、专家需求和可视设计的的结合。
- 其中,讲者认为专家需求和可视设计的的结合是当前最重要的挑战之一。此外,如何解读得到的可视化,以及如何将可视化转化为知识也是当前面临的挑战。
负面奖项是否具有实质作用——基于“金酸梅奖的实证研究”
讲者:孙琦 (上海财经大学商学院 教授)
记录者:朱佳旻
除了常见的正面奖项,也存在所谓的“负面奖项”,例如“搞笑诺贝尔奖”、“金扫帚奖”等,即带有负面意义的奖项。孙老师据此提出了研究问题,即负面奖项是否具有实质作用,如果有的话,影响体现在哪些方面?会持续多久?
报告人首先介绍了相关研究,认为当前研究主要聚焦于传统奖项的影响,如获奖者的生产力变化、公共服务意愿甚至是寿命影响等。同时,现有研究也已经对负面关注、惩罚等行为的影响。接下来,报告人简要介绍了金酸梅奖,金酸梅奖是“讽刺”版的奥斯卡奖,授予年度最差电影、演员等,之所以选择这个奖项研究,是由于其影响力较高,且有着较长的历史。
研究团队为此设计了实验组和对照组。实验组即获得金酸梅奖的演员,对照组则是没有获得金酸梅奖,且与实验组类似的演员。以汤姆·克鲁斯为例,其在1989年获得金酸梅奖,则研究人员分别选取了汤姆在获奖前后拍摄的8部电影,来评估金酸梅奖对汤姆·克鲁斯的影响。
在对照组的选取上,研究人员选取了每一部汤姆·克鲁斯拍摄的电影的演员表中前6位的演员(去除汤姆本人),作为可能的对照组。在评价指标上,研究人员选取了电影票房、观众评分、电影预算和电影分级四个指标来建模电影质量。理想的对照组应该如图1所示,在获奖前表现和实验组非常类似,这样才能体现获奖后实验组和对照组的差异。但是现实中很难找到与实验组演员非常相似的演员,因此研究人员采用了合成控制法(Synthetic Control),如图2所示,即从控制集中选出一组控制组,按照一定的权重将控制组合称为一个虚拟的演员,作为实验组某个演员的对照。用类似的方法,对每个实验组中的演员都合成一个虚拟的对照演员,然后评估负面奖项的影响。
研究结果显示,获得金酸梅奖的演员,在获奖后参演的R级电影比例显著增加了。因此,报告人得出结论,获得金酸梅奖在某种程度上改变了演员在选择拍摄的电影时的偏好,让演员更倾向于拍摄艺术类电影。此外,负面奖项对于演员参演的电影的预算、票房和口碑都有长期负面影响。
价格波动传导路径
讲者:李孟育(南华期货股份有限公司研究所 量化投资组 团队负责人)
记录者:温啸林
针对价格波动传导路径研究,讲者从动机、方法、案例和心得四个方面进行分享。
“众多标的资产中谁启动行情?”、“价格波动传递顺序如何?”等问题是金融行业存在已久的问题。不同的影响事件会导致不同的标的(或板块)涨跌顺序。现有研究中大多是先做出品种图谱/事件图谱后通过人工研判的方式分析价格传导路径。此时,需要算法来理解不同事件冲击下的影响力传导顺序。
方法上,讲者采用向量自回归模型(VAR),结合方差分解和预测误差方差分解(FEVD)来计算具有方向性的净连接值,用于表示价格间的传导。同时,讲者也讲述了此方法先前已经由学界大牛应用到此领域,并且给出了相应的参考文献和R语言代码。接着,讲者首先以玉米、玉米淀粉期货为例,证明了以VAR分析得出的净连接值符合金融分析师的直觉。然后,以黑色系商品期货为例,分析了黑色系品种这一中国特色板块产业链型上下游关系中价格波动的传导顺序。
最后,讲者对研究过程的心得进行总结,表示模型的运用与“校准”及收益率阈值的设定都需要与分析师沟通,了解实际概况;求取所有时间的“平均值”没有太大意义;极小价格波动范围下模型失去意义,所以选取时间区间和时间长度都很重要;算法的优势是既可以多个品种同时计算也可以两两配对逐一计算。另外,此研究还存在一定限制,例如分析出的传导路径不具有因果或逻辑关系,还需要人为结合宏观、供需、地缘政治、情绪等多方面进行研判。