假日聚会,戏说云物人海—唐老师的博客

假日中朋友圈办了一次双自聚会(自带&自助),朋友们带上自己的拿手菜品,在客厅共享共赏,共品共评;当菜品刚上齐,朋友们都拿出手机拍照,通过微博、微信发到社交圈子,与未出席的和在路上的亲友共享。

看到此情此景,我说了一句:年年聚会有新事,去年聚会,进门就问WiFi(参见博文 《带个WiFi去串门》),今年各位都在为大数据增砖添瓦。殊不知,这一句引出了新话题,朋友们要求在餐桌旁科普大数据。

扫描客厅,听众年龄8-83岁,来自士农工商,背景颇杂。要科普到深者见深,浅者见浅,还真不容易。看来,必须两多两少:多用图、多用比喻(易懂)、少讲,少展开,只讲四个热字–云、物、人、海(易记)。

打开手机上的OneNote(Office软件之一),作了一次“云办公”, 浏览了存在微软云服务器SkyDrive上的几张图,选示了如下的普适计算学术会议会场外景(2012):

传看这幅对联后,对“云、物、人、海“这四个热字作了解释:

云 —云计算 (云中心,云服务,云终端,云存储…),其基本思想是“你有事,我们(云)帮你做”, 发端与明朝万历二年的镖局业,宗旨是”你的货物,我们帮你运“,这是最早的云企业:稍后一点的钱庄银行,把云企业思想发挥的更加淋漓尽致:

如今,“你有数据,我们(云)帮你存”,就是云存储,“你有事务,我们(云)帮你处理”,就是云计算,在场多数朋友看过笔者三年前写的两篇博文(云计算漫谈《 网上流行云计算》, 《天边飘来几朵计算的云》 )点头表示理解。

物—物联网 (传感网.车联网,智慧城市,…),在场朋友较熟悉的传感器可能是鼠标和触摸屏(感知意图 )、摄像头(视觉),耳机麦克(听觉),以及空调冰箱中的温度传感器。如今,世界上有数以百亿计的传感器、射频标识(RFID),以及智能卡等传感器件。当“大量传感器 + 无线网 + 每物有IP”,就构成了物联网,奠定了普适计算的基础。

物联网给用户一种新的感觉—冥冥中有计算之神相助。

西游记中描述了传感器部署的两种方式:(1)定点部署,如各方“土地”(也是一类小菩萨),源源不断把唐僧师徒四众和妖魔鬼怪的信息反馈给观音菩萨;(2) 移动部署(如四值功曹、五方揭谛、六丁六甲、护教伽蓝),其中四值功曹、五方揭谛像今天的无人侦察机,而六丁六甲、护教伽蓝像攻击性无人机。当唐僧的凡马被小白龙吃掉,孙悟空和小白龙打斗时候,他们临时主担了唐僧的保镖的任务.

而悟空头上的紧箍中,不但有张力传感器,还有语音传感 ,有能对紧箍咒作深度理解的嵌入式器件。

原来,法力无边的如来佛和观音菩萨也有一个物联网。

看来,在想象力和思路层面,物联网的知识产权,也有西游记作者吴承恩的那一份。

人 — 社交网络(人人网、微博, 微信,学术界的LinkedIn,…),社会计算,舆情分析等。各位朋友餐桌上照相发微信微博,就是参与社交,参与社交网络;网上有一说法,目前,世界上70亿人,移动设备至少20亿台(其中安卓设备10亿台), 参与着社会网络,社交网络是大数据处理的重要对象。

海— 海量数据,大数据,大数据挖掘。“云”为大数据准备了的支撑,“物”和“人”既是大数据的生产者,也是大数据的消费者。当“物”和“人”都用数字方式制造和贡献数据,为大数据增砖添瓦时,大数据时代就到来了。

行内常说大数据有四大特点,即:一大(数据量大)、 二多(数据类型多)、 三快(要求处理快)、 四值(价值大而密度低)。这些都容易顾名思义,了解大致概念。

笔者想再加第五条,五宏(宏观),规范的大数据研究旨在宏观规律,一般不针对个人,不侵犯隐私。

认识规律是为了世界更美好  央视和百度联合的“数据说春节”,在社交网络软件(微博、微信、地图、旅行软件)收集的数据集合上进行挖掘, 展示了春运中人流的宏观趋势或统计规律。宏观知识很有用,管理者知道了,可以更好调度春运资源,个人知道了,可以趋疏避密,出行方便。

**大数据是相对概念  **小时候觉得好高好的山, 现在去看,不过一个小山坡;小时候觉得好大好宽的礼堂,现在去看,原来是个小建筑。小孩比划一个大西瓜时,会十分夸张,是因为小孩的力量小,见识少。

N年前,好多朋友在第一次买1G的硬盘后,以为,1G相当于5亿汉字,用于存储个人数据,一辈子都够了。殊不知。才过几年,观念大变,如今。谁的照相机不装上2G、4G,甚至16G的卡? 多数朋友手机、平板电脑扩展卡都是16G,32G,甚至64G。

哈工大李建中教授是关于海量数据的973项目首席科学家,他给大数据下过一个很好的定义 ,大意是,数据量大到当前资源(计算机、时间,算法)不能有效处理时,那个数据就是(相对于当前资源的)大数据。

**大数据长葆青春 ** 城市汽车的增长有个现象,路有多宽,就会挤满多少车,汽车一直增长到道路拥挤得开不动。据说,若干年内,城市交通都会保持这个现象;同理,数据增长会随着处理( 存储、分析挖掘)的增长而增长,有更多的处理能力,就会有更多的数据,一直增加到处理不了。

以社会网络为例,世界上70亿人,目前,由人的社交活动而大规模产生的数据还只是“小荷才露尖尖角”,随着物资水平、技术水平和文化水平的提高,社交数据会加加速地增长。相当长的时间内,其增长速度会超过处理能力的增长。

结合李建中教授的定义,得到一个推论:大数据来到了人间,就不想走了,大数据研究也会长葆青春。这对研究大数据,处理大数据,应用大数据的人都是好消息。

123