大数据数据库设计方案

欧之科技 0 2024-12-06 13:21

一、大数据数据库设计方案

大数据数据库设计方案

随着大数据技术的不断发展和普及，大数据数据库设计方案变得愈发重要。在构建大数据系统时，一个合理的数据库设计方案可以决定系统的稳定性、性能以及扩展性。本文将探讨大数据数据库设计方案的关键考虑因素，以及一些建议和最佳实践。

关键考虑因素

在制定大数据数据库设计方案时，需要考虑以下几个关键因素：

数据模型：数据模型是大数据系统的基石，它需要能够支撑系统的需求，并且具有良好的扩展性。选择合适的数据模型对系统性能至关重要。
数据存储：大数据系统通常需要处理海量数据，因此数据存储方案的选择至关重要。传统的关系型数据库可能无法满足需求，因此需要考虑使用分布式存储系统。
数据ETL流程：数据的提取、转换和加载（ETL）过程对于数据质量和系统性能至关重要。设计高效的ETL流程可以提高系统的整体效率。
数据安全：在处理大数据时，数据安全是一个不容忽视的问题。必须采取适当的安全措施，保护数据的机密性和完整性。
系统性能：大数据系统通常需要处理高并发和大规模数据，因此系统性能是至关重要的考虑因素。合理的数据库设计方案可以提升系统性能。

设计建议和最佳实践

根据以上关键考虑因素，以下是一些设计建议和最佳实践，帮助您制定合理的大数据数据库设计方案：

选择合适的数据模型：根据系统需求和数据特点选择合适的数据模型，例如关系型数据模型、文档型数据模型或者图形数据模型。
考虑分布式存储：对于大规模数据，考虑使用分布式存储系统，例如Hadoop HDFS、Amazon S3等，以支持海量数据的存储和处理。
优化ETL流程：设计简洁高效的ETL流程，包括数据提取、清洗、转换和加载，确保数据的准确性和完整性。
实施数据安全措施：采取数据加密、访问控制、审计日志等安全措施，保护大数据系统的数据安全。
性能调优：通过合理的索引设计、查询优化等手段，提升系统的性能和响应速度。

总的来说，大数据数据库设计方案的制定需要综合考虑数据模型、存储、ETL流程、安全和性能等多个方面。只有在这些方面都得到充分考虑的情况下，才能设计出稳定、可靠且高效的大数据系统。

希望本文提供的设计建议和最佳实践能够帮助您制定优秀的大数据数据库设计方案，提升系统的整体表现和性能。

二、什么是图数据库大图数据原生数据库？

`图数据库(Graph database)`` 并非指存储图片的数据库，而是以图这种数据结构存储和查询数据。

图形数据库是一种在线数据库管理系统，具有处理图形数据模型的创建，读取，更新和删除（CRUD）操作。

与其他数据库不同，关系在图数据库中占首要地位。这意味着应用程序不必使用外键或带外处理（如MapReduce）来推断数据连接。

与关系数据库或其他NoSQL数据库相比，图数据库的数据模型也更加简单，更具表现力。

图形数据库是为与事务（OLTP）系统一起使用而构建的，并且在设计时考虑了事务完整性和操作可用性。

三、6大基础数据库？

1.Oracle数据库

是甲骨文公司的一款关系数据库管理系统。Oracle数据库系统是目前世界上流行的关系数据库管理系统，系统可移植性好、使用方便、功能强，适用于各类大、中、小、微机环境。它是一种高效率、可靠性好的适应高吞吐量的数据库解决方案。

2、MySQL数据库

MySQL是一种开放源代码的关系型数据库管理系统（RDBMS），MySQL数据库系统使用最常用的数据库管理语言--结构化查询语言（SQL）进行数据库管理。MySQL数据库也是可以跨平台使用的（如linux和Windows），通常被中小企业所青睐。

3、SQL server数据库（Windows上最好的数据库）

SQL Server是一个可扩展的、高性能的、为分布式客户机/服务器计算所设计的数据库管理系统，实现了与WindowsNT的有机结合，提供了基于事务的企业级信息管理系统方案。

4、PostgreSQL（功能最强大的开源数据库）

PostgreSQL是一种特性非常齐全的自由软件的对象-关系型数据库管理系统（ORDBMS），POSTGRES的许多领先概念只是在比较迟的时候才出现在商业网站数据库中。PostgreSQL支持大部分的SQL标准并且提供了很多其他现代特性，如复杂查询、外键、触发器、视图、事务完整性、多版本并发控制等。

5、MongoDB（最好的文档型数据库）

MongoDB是可以配置各种规模的企业，各个行业以及各类应用程序的开源数据库。

6、 Redis（最好的缓存数据库）

Redis 是完全开源免费的，遵守BSD协议，是一个高性能的key-value数据库。

四、数据库四大特性？

四大特性：原子性、一致性、隔离性、持久性。

1.原子性是指事务是一个不可分割的工作单位，事务中的操作要么全部成功，要么全部失败

2.一致性是指事务必须使数据库从一个一致性状态变换到另外一个一致性状态。

3.事务的隔离性是多个用户并发访问数据库时，数据库为每一个用户开启的事务，不能被其他事务的操作数据所干扰，多个并发事务之间要相互隔离。

4.持久性是指一个事务一旦被提交，它对数据库中数据的改变就是永久性的，接下来即使数据库发生故障也不应该对其有任何影响。

五、如何建立数据库，利用什么软件建立数据库？

啥叫数据库？excel也可以算，access也可以算，mysql也可以算，hbase也可以算，你要数据库干啥，决定了你怎么搭建数据库。

六、数据库设计?

本文档明确数据库设计原则和规范，规范数据库对象命名方式，见名知意，强化分工，保证数据库高效稳定运行

1 数据库设计原则

1) 充分考虑业务逻辑和数据分离，数据库只作为一个保证ACID特性的关系数据的持久化存储系统，尽量减少使用自定义函数、存储过程和视图，不用触发器。

2) 充分考虑数据库整体安全设计，数据库管理和使用人员权限分离。

3) 充分考虑具体数据对象的访问频度及性能需求，结合主机、存储等需求，做好数据库性能设计。

4) 充分考虑数据增长模型，决策是否采用“分布式（水平拆分或者垂直拆分）”模式。

5) 充分考虑业务数据安全等级，设计合适的备份和恢复策略。

2 设计规范

2.1 约定

1) 一般情况下设计遵守数据的设计规范3NF，尽量减少非标准范式或者反模式使用。

3NF规定：

Ø 表内的每一个值都只能被表达一次。

Ø 表内的每一行都应该被唯一的标识（有唯一键）。

Ø 表内不应该存储依赖于其他键的非键信息。

常见关键字（不得直接作为相关命名）：range、match、delayed、select、and、from、where、not、in、out、add、as、user、name、key、index、type、group、order、max、min、count、concat、by、desc、asc、null等等，更多请参考 MySQL 官方保留字。

2) 数据库和表的字符集统一：字符集（utf8mb4），排序规则（utf8mb4_general_ci）

2.2 表设计规范

1) 应该根据系统架构中的组件划分，针对每个组件所处理的业务进行组件单元的数据库设计；不同组件间所对应的数据库表之间的关联应尽可能减少，确保组件对应的表之间的独立性，为系统或表结构的重构提供可能性。

2) 采用领域模型驱动的方式和自顶向下的思路进行数据库设计，首先分析系统业务，根据职责定义对象。对象要符合封装的特性，确保与职责相关的数据项被定义在一个对象之内，不会出现职责描述缺失或多余。

3) 应针对所有表的主键和外键建立索引，有针对性地建立组合属性的索引。

4) 尽量少采用存储过程。

5) 设计出的表要具有较好的使用性。

6) 设计出的表要尽可能减少数据冗余，确保数据的准确性。

2.3 字段规范

1) 一行记录必须表内唯一，表必须有主键。

2) 如果数据库类型为MYSQL ，应尽量以自增INT类型为主键。如果数据库类型为ORACLE，建议使用UUID为主键。

3) 日期字段，如需要按照时间进行KEY分区或者子分区，则使用VARCHAR2类型存储，存储格式为：YYYYMMDD 。如若不需要以KEY形式作为分区列，则使用DATE或者DATETIME类型存储。不建议使用时间戳存储时间。

4) 字段名称和字段数据类型对应，如DATE命名字段，则存储时间精确到日，如TIME命名字段，则存储时间精确到时分秒，甚至毫秒。

2.4 命名规范类

2.4.1 约定

1) 数据库对象命名清晰，尽量做到见名知意，在进行数据库建模时备注对象，便于他人理解。

2) 数据库类型为MYSQL,采用全小写英文单词

3) 数据库类型为ORACLE，则使用驼峰式命名规范

4) 数据库对象命名长度不能超过30个字符

3 管理范围

管理数据库中所有对象，包括库，表，视图，索引，过程，自定义函数，包，序列，触发器等

3.1 建库

1) 数据库名：采用小写英文单词简拼或汉字小写拼音,多个单词或拼音采用下划线"_"连接

2) 数据库编码规则及排序规则：字符集（utf8mb4），排序规则（utf8mb4_general_ci）

3) 建库其他要求：库名与应用名称尽量一致

3.2 建表

表名应使用名词性质小写英文单词。如果需要单词词组来进行概括，单词与单词之间使用英文半角输入状态下_连接。如果超长，则从前面单词开始截取，保留单词前三位，保留完整的最后一个单词，如果依然超长，则保留前面单词首字母，直接和最后一个单词连接；临时表命名以TMP开头，命名格式为TMP_模块/用途名称_名字拼音首字母；表名不能直接采用关键字命名

1) 表命名：采用“业务名称_表的作用”格式命名（例如：alipay_task / force_project / trade_config）

2) 建表其他要求：表名长度不能超过30个字符；一定要指定一个主键字段；必须要根据业务对表注释；如果修改字段含义或对字段表示的状态追加时，需要及时更新字段注释；

3) 表必备字段：

`is_delete` tinyint(1) unsigned NOT NULL DEFAULT '0' COMMENT '状态（1删除、0未删除）',

`is_enabled` tinyint(1) unsigned NOT NULL DEFAULT '1' COMMENT '状态（1启用、0作废）',

`op_first` varchar(50) DEFAULT NULL COMMENT '创建人',

`op_first_time` datetime DEFAULT NULL COMMENT '创建时间',

`op_last` varchar(50) DEFAULT NULL COMMENT '更新人',

`op_last_time` datetime DEFAULT NULL COMMENT '更新时间',

3.3 建字段

1) 字段命名：

表中标识唯一性字段必须以标识性简称+id命名。其余字段根据存储信息，使用名词性质英文单词表示，如需要单词词组来进行概括，单词与单词之间使用英文半角输入状态下_连接。外键引用字段使用外键表_id的形式命名；字段名必须使用小写字母或数字，禁止出现数字开头，禁止两个下划线中间只出现数字；表达是与否概念的字段，必须使用 is_xxx 的方式命名，数据类型是 unsigned tinyint；表达逻辑删除的字段名 is_deleted，1 表示删除，0 表示未删除

2) 字段类型、长度

如果存储的字符串长度几乎相等，使用 char 定长字符串类型；小数类型为 decimal；id 必为主键，类型为 bigint unsigned；应尽量以自增INT类型为主键；优先选择符合存储需要的最小的数据类型；将字符串转化为数字类型存储；对于非负数据采用无符号整形进行存储signed int -2147483648-2147483648，unsigned int 0-2147483648，有符号比无符号多出一倍的存储空间；varchar(n) n代表字符数，不是字节数，varchar(255)=765个字节，过大的长度会消耗更多的内存；避免使用text\BLOB数据类型，建议text\BLOB列分离到单独的扩展表中，text\BLOB类型只能使用前缀索引；避免使用enum数据类型，修改enum需要使用alter语句，enum类型的order by操作效率低，需要额外操作，禁止使用数值作为enum的枚举值；尽可能把所有列定义为not null，索引null列需要额外的空间来保存，所以要占用更多的空间，进行比较和计算时要对null值做特别的处理；禁止字符串存储日期型的数据，缺点1：无法用日期函数进行计算和比较，缺点2：用字符串存储日期要占用更多的空间；使用timestamp或datetime类型存储时间，timestamp存储空间更小；财务的相关金额使用decimal类型，decimal类型为精准浮点数，在计算时不会丢失精度，float、double非精准浮点数

3) 字段其他要求

字段名称长度不能超过30个字符、尽量减少或者不使用联合主键、字段尽可能不允许为null(为null时设定默认值)、文本类型字段，属性字符集（utf8mb4），排序规则（utf8mb4_general_ci）、字段必须根据业务进行注释。

3.4 建索引

主键索引名为 pk_字段名；唯一索引名为 uk_字段名；普通索引名则为 idx_字段名。

说明：pk_ 即 primary key；uk_ 即 unique key；idx_ 即 index 的简称。

3.5 创建数据库表视图

1) 视图命名：以"v_项目名/模块名_用途"格式命名

2) 视图其他要求：视图名称长度不能超过30个字符

3.6 建存储过程及自定义数据库函数

1) 存储过程命名：以"sp_用途"格式命名

2) 自定义数据库函数：以“fn_用途”格式命名

3) 存储过程或自定义数据库函数：参数命名以“p_”开头命名；内部变量命名以“v_”开头命名；游标命名以“cur_loop_”开头命名；循环变量命名以“i_found_”开头命名。

3.7 建数据库用户

用户命名：采用授权用户姓名全拼小写命名

3.8 其他要求

1) 查询大数据表，参数字段需建索引；

2) 数据库表、字段删除或变更操作（a-不需要的表或字段，一般备注“作废”即可;b-需要修改的表或字段，先备注作废原表或原字段，再创建新表或新字段，且备注好作废原因。）；

七、什么是数据，数据库，数据库管理系统，数据库管理员，数据库系统？

数据是数据库存储的对象。种类很多，文本、图形、图像、音频、视频等都是数据。数据库是指长期存储在计算机内的，有组织的，可共享的数据集合。数据库管理系统是一类重要的的系统软件，有一组程序构成，其主要功能是完成对数据库中数据的定义，数据操纵，提供给用户一个简明的应用接口，实现事务处理等。数据库系统是由数据库及其管理软件组成的系统。它是为适应数据处理的需要而发展起来的一种较为理想的数据处理的核心机构。它是一个实际可运行的存储、维护和应用系统提供数据的软件系统，是存储介质、处理对象和管理系统的集合体。

八、数据库类型有哪些，目前主流数据库是哪种？

关系型数据库，非关系型数据库（NoSQL），键值（Key-value）数据库。主流的数据库那就是关系型数据库了，特别是关系型数据库中的分布式数据库。墨天轮最新排名（2022.11）数据库前十榜单中关系型数据库占了1-9名，前二十榜单中也仅有两个非关系型数据库。关系型数据库之所以占了绝大部分数据库份额，是因为关系型数据库作为成熟的数据库技术理念，其精髓的范式设计，严谨的一致性，原子性，完整性等优势是无法被取代的。

AntDB在运营商深耕了十几年，覆盖了OLTP与OLAP场景，是非常典型的HTAP类型的关系型数据库，业务覆盖计费、CRM等核心交易，同时覆盖清算分析等分析型业务。比如AntDB数据库服务于中国电信某省计费系统上云，包含数据层、批价和出账流程等大规模业务。在系统设计上，将资源、资产等交易热数据迁移到AntDB数据库，极大地提高了业务关键数据的访问效率，整体提高了话单事务的处理性能。AntDB数据库支撑10亿用户的通信交易场景，进行在线交易与数据分析处理的HTAP混合负载，帮助客户解决核心系统解决海量数据管理难题，基于分布式的架构设计，实现了在线弹性伸缩、强一致性事务、跨机房高可用等能力。

九、实时数据库和历史数据库哪个占用内存大？

不一定。

取决于在库上的用户数、做的操作。通常，实时数据库并发用户多、单个操作简单；历史数据库则单个操作复杂（经常用于统计）。

十、数据库，数据库应用系统，数据，数据库管理系统之间的关系？

数据库：容纳数据的仓库。数据库系统：数据库、数据库管理系统、硬件、操作人员的合在一起的总称。数据库管理系统：用来管理数据及数据库的系统。数据库系统包含数据库管理系统、数据库及数据库开发工具所开发的软件（数据库应用系统）。

大数据的特点主要包括哪些？

500 2024-04-26

大数据数据库设计方案

一、大数据数据库设计方案