大数据结构的基本概念.docx
- 文档编号:9322673
- 上传时间:2023-02-04
- 格式:DOCX
- 页数:24
- 大小:90.75KB
大数据结构的基本概念.docx
《大数据结构的基本概念.docx》由会员分享,可在线阅读,更多相关《大数据结构的基本概念.docx(24页珍藏版)》请在冰豆网上搜索。
大数据结构的基本概念
第1章数据结构基础
结构之美无处不在:
说到结构,任何一件事物都有自己的结构,就如可以看得见且触摸得到的课桌、椅子,还有看不见却也存在的化学中的分子、原子。
可见,一件事物只要存在,就一定会有自己的结构。
一幅画的生成,作家在挥毫泼墨之前,首先要在数尺素绢之上做结构上的统筹规划、谋篇布局。
一件衣服的制作,如果在制作之前没有对衣服的袖、领、肩、襟、身等各个部位周密筹划,形成一个合理的结构系统,便无法缝制出合体的衣服。
还有教育管理系统的结构、通用技术的学科结构和课堂教学结构等。
试想一下,管理大量数据是否也需要用到数据结构呢?
本章知识要点:
&数据结构的基本概念
&数据类型和抽象数据类型
&算法和算法分析
1.1数据结构的基本概念
计算机科学是一门研究数据表示和数据处理的科学。
数据是计算机化的信息,它是计算机可以直接处理的最基本和最重要的对象。
无论是进行科学计算,还是数据处理、过程控制、对文件的存储和检索以及数据库技术等计算机应用,都是对数据进行加工处理的过程。
因此,要设计出一个结构良好而且效率较高的程序,必须研究数据的特性、数据间的相互关系及其对应的存储表示,并利用这些特性和关系设计出相应的算法和程序。
计算机在发展的初期,其应用围是数值计算,所处理的数据都是整型、实型和布尔型等简单数据,以此为加工、处理对象的程序设计称为数值型程序设计。
随着计算技术的发展,计算机逐渐进入到商业、制造业等其他领域,广泛地应用于数据处理和过程控制中。
与此相对应,计算机所处理的数据也不再是简单的数值,而是字符串、图形、图像、语音和视频等复杂的数据。
这些复杂的数据不仅量大,而且具有一定的结构。
例如,一幅图像是一个由简单数值组成的矩阵,一个图形中的几何坐标可以组成表。
此外,语言编译过程中所使用的栈、符号表和语法树,操作系统中用到的队列、磁盘目录树等,都是有结构的数据。
数据结构所研究的就是这些有结构的数据,因此,数据结构知识无论是对研制系统软件还是对开发应用软件来说,都非常重要,是学习软件知识和提高软件设计水平的重要基础。
1.1.1数据结构的研究容
在计算机发展的初期,人们使用计算机的目的主要是处理数值计算问题。
当使用计算机来解决一个具体问题时,一般需要经过如下几个步骤:
首先要从该具体问题中抽象出一个适当的数学模型,然后设计或选择一个求解此数学模型的算法,最后编出程序进行调试、测试,得到最终的解答。
例如,用计算机进行全球天气预报时,可以通过求解一组球面坐标系下的二阶椭圆偏微分方程来实现。
随着计算机应用领域的扩大和软、硬件的发展,非数值计算问题变得越来越重要。
据统计,目前非数值计算问题的处理占用了90%以上的机器时间。
这类问题涉及的数据结构更为复杂,数据元素之间的相互关系一般无法用数学方程式来描述。
因此,解决这类问题的关键不再是数学分析和计算方法,而是要设计出合适的数据结构。
数据结构主要研究非数值计算问题,下面通过具体实例加以说明。
例1-1学生信息检索系统。
当系统需要查找某个学生的有关情况,或需要查询某个专业或年级的学生的有关情况时,只要建立了相关的数据结构,按照某种算法编写了相关程序,就可以实现计算机自动检索。
为此,可以在学生信息检索系统中建立一按学号顺序排列的学生信息表和若干分别按、专业和年级顺序排列的索引表,如表1-1~表1-4所示。
由这4表构成的文件便是学生信息检索系统的数学模型。
表1-1学生基本信息表
学号
姓名
性别
专业
年级
2011010001
志永
男
计算机科学与技术
2011级
2011030005
淑芳
女
软件工程
2011级
2012040010
陆丽
女
数学与应用数学
2012级
2012030012
志强
男
软件工程
2012级
2012010012
淑芳
女
计算机科学与技术
2012级
2013040001
王宝国
男
数学与应用数学
2013级
2013010001
石国利
男
计算机科学与技术
2013级
2013030001
文茜
女
软件工程
2013级
表1-2索引表
姓名
索引号
姓名
索引号
姓名
索引号
志永
1
志强
4
石国利
7
淑芳
2,5
王宝国
6
文茜
8
陆丽
3
表1-3专业索引表
专业
索引号
计算机科学与技术
1,5,7
软件工程
2,4,8
数学与应用数学
3,6
表1-4年级检索表
年级
索引号
年级
索引号
2011级
1,2
2013级
6,7,8
2012级
3,4,5
诸如此类的还有查询问题、考试成绩查询问题和企业进销存管理系统等。
在这类文档管理系统的数学模型中,计算机处理的对象之间通常存在着一种简单的线性关系,因此,这类数学模型可称为线性的数据结构。
例1-2计算机系统组成结构,如图1-1所示。
图1-1计算机系统组成结构图
计算机系统由硬件系统和软件系统组成,硬件系统由CPU、存储器、输入/输出设备和外设组成,软件系统由系统软件和应用软件组成。
如果把它们视为数据元素,则这些元素之间呈现的是一种层次关系,从上到下按层进行展开,可形成一棵倒立的“树”,最上层是“树根”,依层向下射出“结点”和“树叶”。
同样是树结构的还有某个单位的组织机构、国家行政区域规划、书籍目录等。
在这类问题中,计算机处理的对象是树结构,元素之间是一对多的层次关系,这类数学模型被称为树的数据结构。
例1-3最短路径问题。
从城市A到城市B有多条线路可达,但每条线路的交通成本不同,那么,应怎样选择一条线路,使得从城市A出发到达城市B所花费的费用最低呢?
可以将这类问题抽象为图的最短路径问题。
如图1-2所示,图中的顶点代表城市,有向边代表两个城市之间的通路,边上的权值代表两个城市之间的交通费。
求解A到B的最低费用,就是要在有向图从A点到B点的多条路径中,寻找到一条各边权值之和最小的路径,即求该图的最短路径。
同样是图结构的还有网络工程图、教学计划编排问题和比赛编排问题等。
在这类问题中,元素之间是多对多的网状关系,这类数学模型被称为图的数据结构。
由以上3个例子可见,描述这类非数值计算问题的数学模型不再是数学方程,而是诸如表、树、图之类的数据结构。
因此,可以说“数据结构”课程主要是在研究非数值计算的程序设计问题中所出现的计算机操作对象以及它们之间的关系和操作的学科。
1968年,“数据结构”第一次在美国被确定为一门独立的课程。
同年,著名的美国计算机科学家D.E.Knuth教授编著了《计算机程序设计技巧》的第一卷《基本算法》,这是第一本系统地阐述数据的逻辑结构以及运算的著作。
20世纪60年代末到70年代初,出现了大型程序,程序与数据相对独立,结构化程序设计成为程序设计方法学的主要容,人们越来越感到数据结构的重要,认为程序设计的实质就是为所处理的问题选择一种好的数据结构,并加之一种好的算法。
数据结构在计算机科学中是一门综合性较强的专业基础课,是操作系统、数据库、人工智能等课程的基础。
同时,数据结构技术也广泛地应用于信息科学、系统工程、应用数学以及各种工程技术领域。
数据结构涉及的知识面十分广,可以认为它是介于数学、计算机硬件和软件之间的一门核心课程。
数据结构与其他课程间的关系如图1-3所示。
图1-2最短路径问题图1-3数据结构与其他课程的关系
学习数据结构的目的是为了了解计算机处理对象的特性,将实际问题中所涉及的处理对象在计算机中表示出来,并对它们进行处理。
对于计算机专业的学生,不学习数据结构,几乎无法继续前行,因为几乎所有的程序和软件都要用到某种或某些数据结构。
例如,在面向对象程序设计中,一个对象在严格意义上来说就是一个数据结构,而哪个程序不使用对象呢?
可以这样说,不懂数据结构,就编不出什么像样的程序和软件。
此外,数据结构在软件工程和计算机学科的其他领域也发挥着非常重要甚至是极为关键的作用。
例如,对大型数据库的管理、为互联网提供索引服务、云计算和云存储等都需要广泛使用数据结构。
在软件工程领域,数据结构被单独提取出来,作为软件设计与实现过程的一个阶段。
1.1.2基本概念和术语
在系统地学习数据结构知识之前,先来学习一下数据、数据元素、数据项等基本概念和术语的确切含义。
数据(Data)是信息的载体,能够被计算机识别、存储和加工处理。
它是计算机程序加工的原料,应用程序处理各种各样的数据。
计算机科学中,数据就是计算机加工处理的对象,它可以是数值数据,也可以是非数值数据。
数值数据是一些整数、实数或复数,主要用于工程计算、科学计算和商务处理等;非数值数据包括字符、文字、图形、图像和语音等。
数据元素(DataElement)是数据的基本单位。
在不同的条件下,数据元素又可称为元素、结点、顶点和记录等。
例如,学生信息检索系统里学生信息表中的一个记录、计算机系统组成结构中状态树的一个状态以及最短路径问题中的一个顶点等,都被称为一个数据元素。
有时,一个数据元素可由若干个数据项组成。
例如,学生信息检索系统中学生信息表的每一个数据元素都是一个学生记录,它包括学生的学号、、性别、专业和年级数据项。
这些数据项可以分为两种:
一种叫做初等数据项,如学生的性别、年级等,这些数据项是数据处理时不能再分割的最小单位;另一种叫做组合数据项,如学生的成绩,它可以再划分为由多门不同课程成绩组成的更小项。
数据项(Data Item)是组成数据元素的有独立含义且不可分割的最小单位,如表1-1中的学号、和年级等都是数据项。
数据项有名和值之分,数据项名是一个数据项的标识,用变量定义,而数据项值是它的一个可能取值。
例如,表1-1中的2011010001是数据项“学号”的一个取值。
数据项具有一定的类型,依数据项的取值类型而定。
数据对象(Data Object)是相同性质的数据元素的集合,是数据集合的一个子集。
在某个具体问题中,数据元素具有相同的性质(但元素值不一定相等),属于同一个数据对象,数据元素是数据元素类的一个实例。
例如,在最短路径问题中,所有的顶点都是一个数据元素类,顶点A和顶点B各自代表一个城市,是该数据元素类中的两个实例,其数据元素的值分别为A和B。
数据结构(Data Structure)是指互相之间存在着一种或多种特定关系的数据元素的集合。
在计算机中,数据元素不是孤立的,它们之间存在着这样或那样的关系,这种数据元素之间的关系称为结构。
一个数据结构包含两个要素:
一个是数据元素的集合;另一个是关系的集合。
在形式上,数据结构通常可以采用一个二元组来表示。
数据结构的形式定义为一个二元组:
Data_Structure=(D,R)
其中,D是数据元素的有限集,R是D上关系的有限集。
数据结构包括数据的逻辑结构和数据的存储结构。
1.逻辑结构
数据的逻辑结构可以看作是从具体问题抽象出来的数学模型,与数据的存储形式无关。
根据数据元素间关系的不同特性,通常有下列4类基本的逻辑结构,如图1-4所示。
(a)集合结构(b)线性结构 (c)树结构 (d)图结构或网状结构
图1-44类基本逻辑结构示意图
(1)集合结构。
结构中数据元素间的关系是“属于同一个集合”。
集合是元素关系极为松散的一种结构。
(2)线性结构。
结构中数据元素之间存在着一对一的线性关系。
(3)树结构。
结构中数据元素之间存在着一对多的层次关系。
(4)图结构或网状结构。
结构中数据元素之间存在着多对多的任意关系。
例1-4有一数据结构采用二元组描述为D_S=(D,R),其中:
D={a,b,c,d,e,f,g}
R={
根据已知条件,对应的图形如图1-5所示。
图1-5对应D_S的逻辑结构示意图
从例1-4可以看出,一个数据元素有且只有一个前驱(除第1个结点外),有且仅有一个后继(除最后一个结点外)。
数据元素之间为一对一的关系,即线性关系。
这种数据结构就是线性结构。
由于集合是数据元素之间关系极为松散的一种结构,因此也可用其他结构来表示。
故数据的4类基本逻辑结构可概括如下:
线性结构——线性表、栈、队、串、数组、广义表
非线性结构——集合结构、树、图
2.存储结构
研究数据结构的目的是为了在计算机中实现对它的操作,为此还需要研究如何在计算机中表示一个数据结构。
数据结构在计算机中的表示(又称为映像)称为数据的存储结构(或称物理结构)。
它所研究的是数据结构在计算机中的实现方法,包括数据结构中元素的表示及元素间关系的表示。
数据的存储结构可采用顺序存储或链式存储的方法。
(1)顺序存储结构。
是把逻辑上相邻的元素存储在物理位置相邻的存储单元中,由此得到的存储表示称为顺序存储结构。
顺序存储结构是一种最基本的存储表示方法,通常借助于程序设计语言中的数组来实现。
(2)链式存储结构。
对逻辑上相邻的元素不要求其物理位置相邻,元素间的逻辑关系通过附设的指针字段来表示,由此得到的存储表示称为链式存储结构。
链式存储结构通常借助于程序设计语言中的指针来实现。
如图1-6所示为复数5.0-5.3i的两种存储结构示意图。
除了通常采用的顺序存储方法和链式存储方法外,有时为了查找的方便,还会采用索引存储方法和散列存储方法。
3.数据运算
讨论数据结构的目的是为了在计算机中实现操作运算。
为了能有效地处理数据,提高数据运算的执行效率,应按一定的逻辑结构把数据组织起来,并选择适当的存储方法将数据存储到计算机,然后对其进行运算。
图1-6复数5.0-5.3i的两种存储结构示意图
数据的运算是定义在数据的逻辑结构之上的,每一种逻辑结构都有一个运算的集合,如插入、删除和修改等。
这些运算实际上是在数据元素上施加一系列抽象的操作(只考虑这些操作要做什么,而无须考虑如何做),只有在确定了存储结构后,才能具体实现这些运算。
数据的运算主要有修改、插入、删除、查找和排序等。
其中,查找运算是一个很重要的运算过程,修改、插入、删除和排序中都包含着查找运算。
排序本身就是元素之间通过查找相互比较的过程,修改、插入和删除则要通过查找来确定其操作的位置。
1.1.3数据结构课程的容
数据结构与数学、计算机硬件和软件有十分密切的关系。
数据结构技术也广泛应用于信息科学、系统工程、应用数学及各种工程技术领域。
数据结构课程集中讨论软件开发过程中的设计阶段,同时涉及编码和分析阶段的若干基本问题。
此外,为了构造出好的数据结构及其实现,还需要考虑数据结构及其实现的评价与选择。
因此,数据结构的容可归纳为3个部分:
逻辑结构、存储结构和数据运算。
简而言之,按某种逻辑关系组织起来的一批数据,按一定的存储方式将其存入计算机的存储器中,并在这些数据上定义一个运算集,是数据结构课程的基本容,如表1-5所示。
表1-5数据结构课程的基本容
容
层次
数据表示
数据处理
抽象
逻辑结构
基本运算
实现
存储结构
算法
评价
不同数据结构的比较及算法分析
数据结构主要研究怎样合理地组织数据,建立合适的结构,提高执行程序所用的时空效率。
数据结构的核心技术是分解与抽象。
通过对问题的抽象,舍弃数据元素的具体容,从而得到逻辑结构;同样,通过分解,将数据处理划分成各种功能实现,再通过抽象舍弃实现细节,就得到数据运算的定义。
由此可将许多具体问题转换为数据结构,这是一个从具体(即具体问题)到抽象(即数据结构)的过程。
然后,通过增加对实现细节的考虑,进一步得到存储结构和实现运算,从而完成设计任务,这是一个从抽象(即数据结构)到具体(即具体实现)的过程。
熟练地掌握这两个过程,是数据结构课程在专业技能培养方面的基本目标。
数据结构课程不仅讲授数据信息在计算机中的组织和表示方法,同时也重在培养高效解决复杂问题的能力。
不同的数据结构适用于不同的应用,例如,B树就特别适用于数据库和文件系统,而哈希表则常常在编译器里面使用等。
1.2数据类型和抽象数据类型
运用抽象数据类型来描述数据结构,则在设计一个软件系统时,不必首先考虑其中包含的数据对象以及操作在不同处理器中的表示和实现细节,而可以在构成软件系统的每个相对独立的模块上定义一组数据和相应的操作(把这些数据的表示和操作细节留在模块部解决),在更高的层次上进行软件的分析和设计,从而提高软件的整体性能和利用率。
数据结构是一种抽象,它将数据的个体属性去除,只考虑数据元素之间的关系。
通过步步抽象,可不断地突出“做什么”,而将“怎么做”隐藏起来,即将一切用户不必了解的细节封装起来,从而简化了问题。
所以,抽象是程序设计中最基本的思想方法。
1.2.1数据类型
数据类型(DataType)是一个值的集合和定义在这个值集上的一组操作的总称。
数据类型中定义了两个集合,即该类型的取值围及该类型中可允许使用的一组运算。
数据类型是和数据结构密切相关的一个概念。
在用高级语言编写的程序中,每个变量、常量或表达式都有一个它所属的确定的数据类型。
数据类型显式或隐含地规定了在程序执行期间变量或表达式所有可能的取值围,以及在这些值上允许进行的操作。
在高级程序设计语言中,数据类型可分为两类:
一类是原子类型,另一类则是结构类型。
原子类型的值是不可分解的,例如,C语言中的整型、字符型、浮点型和双精度型等基本类型,分别用关键字int、char、float和double表示。
而结构类型的值是由若干成分按某种结构组成的,因此是可分解的,并且它的成分可以是原子的,也可以是结构的。
例如,数组的值由若干分量组成,每个分量可以是整数,也可以是数组等。
在某种意义上,数据结构可以看成是一种数据类型,而数据类型则可以看成是由一种数据结构和定义在其上的一组操作所组成的。
1.2.2抽象数据类型
抽象就是抽取出实际问题的本质,将无限多的关系种类里面的非关键属性去除,只取其中的共性来设计数据结构。
例如,对于数据元素A、B、C而言,它们之间的关系可以是A在B的前面,B在C的前面;或者C在B的前面,B在A的前面。
显然,对于个体的数据元素而言,这是两种不同的结构。
但抛开个体数据元素就会发现,这两种结构实际上是一种数据结构类型——线性结构。
抽象数据类型(AbstractDataType,ADT)是指一个数学模型及定义在该模型上的一组操作。
抽象数据类型的定义取决于它的一组逻辑特性,而与其在计算机部如何表示和实现无关,即不论其部结构如何变化,只要它的数学特性不变,就不会影响到其外部的使用。
抽象数据类型和数据类型实质上是一个概念。
例如,各种计算机都拥有的整数类型就是一个抽象数据类型,尽管在不同处理器上的实现方法可能不同,但由于其定义的数学特性相同,在用户看来都是相同的。
因此,“抽象”的意义在于数据类型的数学抽象特性。
但在另一方面,抽象数据类型的畴更广,它不再局限于前述各处理器中已定义并实现的数据类型,还包括用户在设计软件系统时自己定义的数据类型。
为了提高软件的重用性,在近代程序设计方法学中,要求在构成软件系统的每个相对独立的模块上,定义一组数据和应用于这些数据上的一组操作,并在模块的部给出这些数据的表示及其操作的细节,而在模块的外部使用的只是抽象的数据及抽象的操作。
这也就是面向对象的程序设计方法。
抽象数据类型的定义可以由一种数据结构和定义在其上的一组操作所组成,而数据结构又包括数据元素及元素间的关系,因此,抽象数据类型一般可以由数据对象、数据对象上关系的集合以及对数据对象的基本操作的集合来定义。
抽象数据类型的特征是使用与实现相分离,实行封装和信息隐蔽。
也就是说,在设计抽象数据类型时,要把类型的定义与其实现分离开来。
和数据结构的形式定义相对应,抽象数据类型可用以下三元组表示:
ADT=(D,S,P)
其中,D是数据元素的有限集;S是D上的关系集;P是对D的基本操作集。
抽象数据类型的定义格式如下:
ADT抽象数据类型名{
数据对象:
<数据对象的定义>
结构关系:
<结构关系的定义>
基本操作:
<基本操作的定义>
}ADT抽象数据类型名
例1-5给出线性表的抽象数据类型的定义。
ADTList{
数据元素:
所有ai属于同一数据对象,i=1,2,…,n,n≥0;
结构关系:
所有数据元素ai(i=1,2,…,n-1)存在次序关系
基本操作:
设L为List,则有
InitList(L):
初始化线性表;
ListLength(L):
求线性表的表长;
GetData(L,i):
取线性表的第i个元素;
InsList(L,i,b):
在线性表的第i个位置插入元素b;
DelList(L,i):
删除线性表的第i个数据元素;
}ADTList;
1.3算法和算法分析
著名的计算机科学家N.Wirth教授给出了一个对计算机科学的发展影响深远的公式:
算法+数据结构=程序,足以说明算法和数据结构关系紧密,是程序设计的两大要素,二者相辅相成,缺一不可。
在进行算法设计时,先要确定相应的数据结构;而在讨论某一种数据结构时,也必然要涉及相应的算法。
下面就从算法特性、算法描述和算法性能分析3个方面对算法进行介绍。
1.3.1算法特性
算法(Algorithm)是为解决特定问题而规定的一系列操作。
一个算法应该具有下列5个重要特性:
(1)有穷性。
一个算法必须在执行有穷步之后结束,即必须在有限时间完成。
(2)确定性。
算法的每一步必须有确切的定义,无二义性。
算法的执行对应着的相同的输入仅有唯一路径。
(3)可行性。
算法中的每一步都可以通过已经实现的基本运算执行有限次得以实现。
(4)输入。
一个算法具有零个或多个输入,这些输入取自特定的数据对象集合。
(5)输出。
一个算法具有一个或多个输出,这些输出同输入之间存在某种特定的关系。
算法的含义与程序十分相似,但又有区别。
一个程序不一定满足有穷性,例如操作系统,只要整个系统不遭破坏,它将永远不会停止,即使没有作业需要处理,它仍处于动态等待中。
因此,操作系统不是一个算法。
另一方面,程序中的指令必须是机器可执行的,而算法中的指令则无此限制。
算法代表了对问题的解,而程序则是算法在计算机上的特定实现。
一个算法若用程序设计语言来描述,则它就是一个程序。
例1-6不符合有穷性。
voidtest(void){
intn=8;
while(n%8==0)
n+=8;
printf("%d\n",n);
}
例1-7无输出的算法没有任何意义。
GetSum(intnum){
intsum=0;
for(i=1;i<=num;i++)
sum+=i;
}
当用算法解决某一特定类型问题时,可以选择不同的数据结构,而选择的恰当与否会直接影响到算法的效率。
反之,一种数据结构的优劣可由不同算法的执行效果来体现。
一个算法的优劣应从以下几个方面来评价:
(1)正确性。
在合理的数据输入下,能够在有限的运行时间得到正确的结果。
(2)可读性。
一个算法应当思路清晰、层次分明、简单明了和易读易懂。
可读性强的算法有助于人们对算法的理解,而难懂的算法易于隐藏错误,且难以调试和修改。
(3)健壮性。
当输入不合法数据时,应能做出正确反应或适当处理,不致引起严重后果。
(4)高效性。
高效性包括时间和空间两个方面。
时间高效是指算法设计合理,执行效率高,可以用时间复杂度来度量;空间高效是指算法占用的存储容量合理,可以用空间复杂度来度量。
1.3.2算法描述
算法可以使用各种不同的方法来描述。
最
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据结构 基本概念