国家“十三五”信息化规划明确指出:“信息化代表新的生产力和新的发展方向”。从上世纪八十年代末,我国信息化经历了快速发展的三十年。三十年中,信息化建设从无到有,从个人电脑,到办公自动化;从互联网,到企业ERP等大型专业信息系统。这些设备与系统积累的海量数据仍在以几何级数增长。这些数据具有容量大、类型多、增速快、价值高的特点。国务院在2015年发布《促进大数据发展行动纲要》,将数据定位为国家基础性战略资源。当前,信息化发展已进入第二个“三十年”,坚持计算机软硬件基础研究创新,布局发展共性关键分析技术研究(例如,自然语言处理、语义理解等),是在“三个面向”指导下将国家大数据战略落地的重要支撑。
坚持计算机基础研究,提升核心竞争力
硬件是计算基础,硬件性能随着制造工艺提升已经发生飞跃式改变。其重要的组成部位与核心构件、处理器内存等硬件设备的性能都在变得越来越强。也是我国目前对外技术依赖性较强的方向。
后摩尔时代的到来使集成电路的发展遇到了瓶颈,芯片无法再依赖于传统半导体技术的构造来支撑人工智能时代对算力的需求,未来的智能芯片也在逐步向模仿人类大脑结构的芯片,以及量子芯片发展。类脑芯片采用人脑神经元结构设计芯片来提升计算能力,以完全拟人化为目标,追求在芯片架构上不断逼近人脑,模拟人脑的神经突触传递结构,其众多的处理器类似于神经元,通讯系统类似于神经纤维,每个神经元的计算都是在本地进行的,从整体上看神经元们是分布式进行工作的,也就是说整体任务进行了分工,每个神经元只负责一部分计算。相比当前延用传统冯诺依曼架构的GPU、FPGA、ASIC三种芯片来讲,类脑芯片在处理海量数据方面优势明显,并且功耗比传统芯片更低。量子芯片就是将量子线路集成在基片上,进而承载量子信息处理的功能。量子至上是量子计算能力发展的重要里程碑,如果量子芯片可以以足够低的错误率运行,那么它可以在明确定义的计算机科学问题上胜过传统的超级计算机,快速解决传统计算机无法处理的问题。这两种芯片不仅能提高计算机的计算速度、降低功耗,其在国防领域也将发挥重要作用,对研发高度自主性的智能机器人以及提高其他设备的智能水平有重要意义。
大数据分析与处理的核心算法研究是国际学科前沿。随着大数据逐渐成为国际科学技术新前沿和产业界的聚焦点,大数据分析与处理技术日益受到研究者的广泛关注。大数据问题对传统的科学研究方法、决策逻辑体系、统计分析理论和方法带来了巨大冲击,发展新的科学研究方法、构建新的决策分析逻辑体系、创立新的大数据分析理论和方法以应对日新月异、层出不穷的大数据问题已成为国际科学技术研究的新前沿和新热点。2012年,英国政府注资建立了世界上第一个大数据研究所,在《英国数据能力战略》大数据技术研发做出专项部署;2013年开始,IEEE每年举办一次IEEE BigData国际学术会议;同年,日本推出“新ICT 战略研究计划”,大数据应用是关注重点之一;2014年,美国NSF发布了“大数据科学与工程中的关键方法与技术”项目申请指南,旨在促进“从大量、多样、分散、异构的数据集中提取有用信息的核心技术”“深入整合算法、机器和人,以解决大数据的研究挑战”“开发一种以统一的理论框架为原则的统计方法,可伸缩的网络模型算法,形成一个独特的新兴学科,该学科包括统计基础、数学和计算机算法”等一批项目群。
聚焦大数据共性关键技术,以点带面助力信息化发展
大数据分析算法需要理工(如,计算机技术与数学研究)紧密结合。
例如,梅林调研表明,超过80%的有效信息隐藏在非结构化数据中。以自然语言处理技术为基础,理解人类语言的细微差别,帮助计算机有效理解人类语言是人工智能的核心问题,是解决大数据挑战的重要技术。自然语言处理技术包括识别、操作和分析技术。目前,识别技术在不同规模的企业中都有广泛应用。如科大讯飞的语音识别系统在某些识别特定语言上实现了较高的精度。其应用本质为帮助计算机听见人的语言。然而从“听见”到“听懂”还有很长的路要走。例如,“可乐”和“可口可乐”在人看来是一种东西,而在计算机听上去却是截然不同的两种东西。这一问题被称做“归一”问题,目前通过语义的相关方法,得到了较好地解决。然而,人类语言的复杂性远远超出了分辨“可口可乐”别名的难度。如何让计算机既能听见、又能听懂,是目前自然语言处理与语义学相结合的研究热点。
再如,图像分析目前也已经向让计算机“看见”到让计算机“看懂”的方向发展。近年来,图像语义提取图像搜索也取得了一定进展。但是仍然没有一个有效支持异构数据(例如包含图像的数据)的全面搜索技术与方法。在下一时期或更长时间内,更完善形式的系列算法如变形表面分割、基于亮度的分割、包括偏磁场改进,信息理论化的(如互信息驱动的)或者是基于亮度图像配准、基于鲁棒点图像配准等会在越来越多的软件中找到自己的位置,包括部分商业化的图像设备和独立的图像分析工作站。
在接下来的30年里,我们处理巨量的动态数据的能力将会逐渐提高。自动人工智能软件将会可以从散乱的数据中识别并提取有关联的信息。而这种数据分析的能力将会从商业应用扩散到普通人手里。大数据研究不再局限在理工类学科中,关于数据所有权、数据隐私以及与新产业相对应的法制法规、管理政策都将是支撑国家大数据战略发展的重要因素。
坚持三个面向,大数据支撑大需求
应用落地支撑重大需求,从而推动产业发展的革命性突破是大数据技术发展的根本目标。在大数据国家战略的推动下,当今大数据技术研究呈现“基础、技术、产业”伴生发展的形态特征,其在国家安全、公共管理、医疗服务、零售业、制造业、互联网金融等领域已得到了广泛应用,正在产生巨大的社会与经济价值和产业机遇。
作为与国民生活结合最为紧密的领域之一,大数据将在医疗行业发挥越来越突出的作用。随着大数据处理与分析技术的成熟和普及,医疗行业将步入智能技术驱动的轨道,从基于经验医学和循证医学的阶段,进化到基于海量数据的智能融合与推理的个性化诊疗阶段,医疗健康行业将发生全面性的变革。在国外,信息行业巨头纷纷在智能医疗健康领域投入巨大资源。2011年,IBM公司将“沃森”智能系统应用到医疗健康领域,“学习”海量医疗数据,建立了具备强大多媒体知识库的智能系统,并且开始针对糖尿病和肺癌进行辅助诊断。2016年3月,谷歌旗下的人工智能研究部门DeepMind宣布与英国国民医疗服务系统(NHS)展开新一轮的研究合作,其首个合作领域是实时健康预测,识别患者病情恶化、死亡和再度入院的风险等。在国内,大数据分析技术也在医疗和健康领域逐步推进。国务院办公厅《关于促进和规范健康医疗大数据应用发展的指导意见》提出,要全面深化健康医疗大数据应用,而数据分析和人工智能技术将是实现这一目标的重要技术手段。
当前,教育数据分析技术也越来越受到学术界和业界的重视。随着大规模在线开放课程(MOOC)平台的大规模应用,可以处理的教育数据规模越来越庞大,教育大数据的分析与处理技术成为研究者和工业届的工程师关注的焦点。互联网教育存在的主要问题是“有效的教育资源供给与适应性服务能力不足”,即实现了教育互联网化,仅仅是将线下教育模式照搬到互联网上,未实现“因材施教、因人而异”的智能化和个性化网络学习环境。基于大数据分析与处理技术的知识建模和学习分析技术将是支撑互联网教育未来发展的核心技术。2012年美国政府财政拨款2亿美元用于教育、医疗等领域的大数据研发。同时美国加州大学、卡内基梅隆大学、斯坦福大学等国际知名大学结合学习分析(LA)技术和教育数据挖掘(EDM)研究实际教学中的大量数据。典型教育数据分析系统有普渡大学的“课程信号系统”、美国加州大学圣巴巴拉分校以阿拉巴马大学使用的Moodog、以美国西部州际高等教育委员会教育技术合作部的教育大数据分析项目的预测分析报告系统。
所有这些挑战说明,在相当长的一段时间内,现有的大数据分析和处理技术,难以满足行业领域对大规模分析和处理的需求,成为大数据技术发展急需突破的瓶颈。信息学科人才必须坚持软硬件基础研究创新,布局发展共性关键分析技术研究,在三个面向指导下实施执行国家大数据战略。
作者简介:李辰,西安交通大学电信学院教授、博士生导师。英国剑桥大学博士,美国麻省理工学院博士后、研究科学家,剑桥大学海外Fellowship获得者,欧洲分子生物实验室Fellowship获得者。主持多项国家及省部级项目。其主持研发的BioModels生物通路知识图谱与系统被评为系统生物学领域最重要资源。《自然》杂志也曾经就BioModels进行专访。迄今为止,包括《自然》在内的多家顶级国际学术出版机构的200余个期刊支持该标准。2014年,欧盟将BioModels作为成功案例写入欧洲生物信息架构计划(ISBE)的详细方案书中。2016年,李辰所带领的团队在剑桥大学、墨尔本大学、麻省理工学院等国际顶级研究机构参与的数据挖掘大赛BioNLP上取得SeeDev任务第一名。其研究成果已发表在众多国际知名期刊,并被大量引用。其中,发表在《BMC系统生物学》上的第一作者论文是该刊创刊以来所有论文中被引用次数第四高的论文。