2018年春季学期视觉计算实验室第3周论文研读预告

论文题目
Make your travel smarter: Summarizing urban tourism information from massive blog data[1]
Where to go and what to play: Towards summarizing popular information from massive tourism blogs[2]
分享者:梁晶
时 间:2018年3月22日 上午9:30 基础教学楼B座视觉计算实验室

论文简介

  1. 论文一:Make your travel smarter: Summarizing urban tourism information from massive blog data
    本篇文章认为规划旅行行程中比较重要的两点是“where to go”与“how to play”,因此作者旨在提供一个高效的方法帮助人们从大量游记中提取有价值的信息,从而更好地规划行程。因此作者通过爬虫获取了大量游记信息并从中提取热门地点构建网络,最后使用max-confidence将网络划分为不同的旅游区域,从而推断网络中的旅行路线,帮助人们规划行程。下图为文章研究流程图,主要包括数据收集及处理,词网络构建以及旅游区域划分和路线生成。
    1

之后作者利用北京旅游游记进行实验,如下图所示,可以较好的得出不同地点之间的关联关系。
3
4

并且与已有的TF,LDA等方法进行对比,说明本方法的优势及有效性。
5
2. 论文二:Where to go and what to play: Towards summarizing popular information from massive tourism blogs

本篇文章与上一篇文章相似,提出了一种用于从大量游记数据中提取与地点相关的实用信息的新方法,如下图所示,其主要从地理词汇向量集中发现热门旅游地点(例如下图中Mykonos,Little Venice),每一个热门地点包含其地点特征,并使用最大置信度识别与每一个地点相关的Things of Interest(Tol,例如下图中与Mykonos,Little Venice连接的标签)。
6

研究流程图如下图所示,主要包括三部分:博客提取与分词(BEWS),频繁旅行路线挖掘(FTRM)与兴趣物检测(ITD)。
7

  • BEWS:进行游记爬虫工作,提取游记中的语义词汇及必要标点符号,并将其转换为词向量;

  • FTRM:根据地点词汇表从词向量中筛选出地理词汇,利用频繁模式挖掘获得提及次数最多的地点,并据此进行关联分析产生与该地点相关的景点,由此获得旅行路线。例如如下图所示,从频繁模式挖掘中“香港”被提及次数最多,因此选取“香港”为中心点进行关联分析产生其热门景点及路线,并用直线连接。
    9

  • ITD:提出一种向量子分割法用于从热门地点相关的景点中获得景点的兴趣点Tol。如下图所示,选取“迪士尼公园”进行Tol提取。
    10

  1. 总结

    两篇文章具有以下三个方面的优势:

  • 想法:提出了一个新方法帮助旅游者从大量的游记文本数据中提取有效信息,便于旅游者规划行程,并且其有效性高于已有研究方法;
  • 验证:在实验阶段,因为不存在ground-truth(标注数据),所以作者采用“旅游领域专家+调查问卷”的方式进行验证,将调查结果与作者所提出的方法进行精确率对比,从而验证其方法的有效性;
  • 文章结构:作者采用“公式+实例”进行其方法的解释,简洁清晰易懂。

参考文献
[1] Yuan H, Xu H, Qian Y, et al. Make your travel smarter: Summarizing urban tourism information from massive blog data[J]. International Journal of Information Management, 2016, 36(6):1306-1319.
[2] Xu H, Yuan H, Ma B, et al. Where to go and what to play: Towards summarizing popular information from massive tourism blogs[J]. Journal of Information Science, 2015, 41(6):830-854.

123