CCF_2014年第11期_面向大数据的存储与处理

在大数据时代,信息科学研究将遇到前所未有的挑战。首先,大数据将对传统的计算机体系结构产生自底向上的冲击。针对大数据如何进行高效的组织管理和存储、便捷的数据访问和快速的计算,成为当前亟待解决的一个重要问题。其次,大数据为数据挖掘和学习算法带来了新的考验,即如何从浩如烟海的数据中快速地寻找出有价值的信息。本期专题“面向大数据的存储与处理”中的文章从不同角度剖析了当前的存储与处理技术在大数据时代下所面临的挑战及相关研究工作,希望能够给大家新的认识和启发。 专题文章: 1. ●《大数据存储与处理关键技术》 大数据发展给当前的计算机体系架构带来了冲击。如何针对大数据构建高效的数据存储平台成了首要问题。与此同时,大数据的类型构成复杂,也给大数据环境下如何进行快速查询和处理带来了前所未有的挑战。本文针对这些问题,介绍了针对大数据的存储(包括重复数据删除和编码)和处理( »

DALHOUSIE的Philip T.Cox教授来实验室进行学术交流

10月22日,来自DALHOUSIE UNIVERSITY的Philip T.Cox教授来访我院进行国际项目合作洽谈,并在上午与实验室的小伙伴一起进行了学术交流。Cox首先向我们介绍了DALHOUSE UNIVERSITY所在城市哈利法克斯以及学校内部的环境,接着介绍了DALHOUSIE里学生基本情况,以及在计算机领域各个老师的研究点,与其他学校合作的学生培养方案(3+2,3+1+1)等。交流进行到后半程,实验室的苏亚博与华勇攀学长,分别介绍了各自目前所做研究,与Cox进行了分享与探讨。 在交流会的最后,我们向Cox送上了一份比较特别的礼物,是我们实验室自己设计的“室服”,并且与Cox合影留念。 »

转:机器学习相关——协同过滤

在现今的推荐技术和算法中,最被大家广泛认可和采用的就是基于协同过滤的推荐方法。本文将带你深入了解协同过滤的秘密。下面直接进入正题 1 什么是协同过滤 协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤 (Collaborative Filtering, 简称 CF),首先想一个简单的问题,如果你现在想看个电影,但你不知道具体看哪部,你会怎么做?大部分的人会问问周围的朋友,看看最近有什么好看的电影推荐, 而我们一般更倾向于从口味比较类似的朋友那里得到推荐。这就是协同过滤的核心思想。 换句话说,就是借鉴和你相关人群的观点来进行推荐,很好理解。 2 协同过滤的实现 要实现协同过滤的推荐算法, »

转:对Python中文分词模块结巴分词算法过程的理解和分析

结巴分词是国内程序员用python开发的一个中文分词模块, 源码已托管在github, 地址在: https://github.com/fxsjy/jieba 作者的文档写的不是很全, 只写了怎么用, 有一些细节的文档没有写. 以下是作者说明文件中提到的结巴分词用到的算法: 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法 因为最近有点兴趣想了解中文分词, 所以看了大量的资料, 对上面的三条有了一点点理解, 不再是两眼一抹黑了.转载请注明: 本文来自Django梦之队, »

基于物品的协同过滤推荐算法——读“Item-Based Collaborative Filtering Recommendation Algorithms”

最近参加KDD Cup 2012比赛,选了track1,做微博推荐的,找了推荐相关的论文学习。“Item-Based Collaborative Filtering Recommendation Algorithms”这篇是推荐领域比较经典的论文,现在很多流行的推荐算法都是在这篇论文提出的算法的基础上进行改进的。 一、协同过滤算法描述 推荐系统应用数据分析技术,找出用户最可能喜欢的东西推荐给用户,现在很多电子商务网站都有这个应用。目前用的比较多、比较成熟的推荐算法是协同过滤(Collaborative Filtering,简称CF)推荐算法,CF的基本思想是根据用户之前的喜好以及其他兴趣相近的用户的选择来给用户推荐物品。 如图1所示, »

CCF_2014年第9期_智能体和多智能体系统研究

智能体,又称主体,是指通过传感器感知环境、效应器作用于环境,并主动执行动作的实体。在近年来的AAAI人工智能会议(AAAI)和国际人工智能联合会议(IJCAI)上,录用数量最多的也是这方面的文章。为了交流智能体和多智能体系统的最新研究成果,更好地推动其在我国的研究发展,今年3月,中国科学院计算技术研究所在北京召开了智能体和多智能体系统研讨会,与会专家围绕这一主题,进行了深入探讨。大家认为,智能体和多智能体系统当前的研究热点、面临的挑战和发展趋势值得让更多的人了解,于是, 我们组织了本期专题“智能体和多智能体系统研究”。 专题文章: 1. ●《多智能体系统研究的历史、 »

CCF_2014年第8期_计算机系统互连网络

内存计算、大数据和E级计算等新型应用的快速发展离不开计算机系统(高性能计算机和数据中心等)的支持。在计算机系统中,负责数据搬运的互连网络是关键部件,它的重要性不言而喻。不同层次的互连网络之间具有错综复杂的联系,同时具有不同的显著特征。从系统角度出发,对不同层次的互连网络进行介绍和分析,使读者能够对不同类型的互连网络有一个初步的认识,这是本期组织“计算机系统互连网络”专题的主要目的。本期专题文章对不同领域的热点问题和未来发展趋势分别进行了阐述。 专题文章: 1. ●《跨层次优化片上网络设计》 本文以通信为核心,探讨了众核处理器在高效并行编程模式设计、应用程序服务质量保障、低功耗/高可靠电路实现等方面的问题及面临的挑战。 2. ●《超大规模互连网络的通信模型及接口》 »

CCF_2014年第7期_从多媒体到跨媒体

当前,互联网的发展和普及达到空前的规模。从不同渠道获取的文本、图像和视频等不同类型媒体及与之相关的社会属性信息混合在一起,形成了跨媒体形式。为了有效表达、分析和处理跨平台、跨模态网络媒体数据,需要研究这些数据的关联性语义结构一致性描述、属性获取、传播机制、时空推演等一系列关键问题。本期专题“从多媒体到跨媒体”围绕上述问题组织了相应的文章,在跨媒体时代的知识表达、跨媒体检索和排序、面向跨媒体数据的因果推理等方面进行了探讨;介绍了其中所面临的关键研究问题和一些最新的研究进展,并对未来发展面临的挑战和机遇进行了介绍。 专题文章: 1. ●《跨媒体时代的知识表达——感知、关联及一致性表示》 本文以跨媒体时代如何从形态多变、 »