通过写代码学习AWS DynamoDB （2）_aws ddb-程序员宅基地

技术标签：学习分布式系统设计 aws AWS 云计算

简介

在上一篇文章里，我们实现了DDB的基本API。上一篇文章请见《通过写代码学习AWS DynamoDB（1）》。在本文中，我们将进一步增强该DDB的模拟实现，给DDB加入Partition。

Partition是Shard的一种。关于Shard的介绍可以参看这篇文章。我们简单介绍一下Shard和Parition的概念。然后我们会在DDB的实现中加上一个简单的Parition的实现。

Shard介绍

区别于传统的基于集中式环境实现数据存储，分布式系统是将数据分散的存储在多个地方，可能是不同的host，或者是server，或者是cluster，等等。每一个这样的节点就是一个shard。使用shard带来的好处有以下几点：

scale更加容易实现和管理：假如数据存储在一个集中的节点上，我们就要预先估计我们要使用的数据存储容量。过大会浪费很多存储，过小又会需要经常调整，非常麻烦。而且单一存储节点的容量调整本身也很麻烦，一般需要具有一定的专业知识，通过复杂的操作和指令来实现存储容量的扩容。但是有了shard这一切就变得简单和灵活很多。在需要调整数据存储容量时，我们仅仅需要增加和减少shard。
系统的robust会得到加强。传统的集中存储方式，一旦存储的服务器出现问题，整个系统就会瘫痪。但是基于shard的实现，如果一个shard出现问题，系统仅仅是部分数据无法访问，整体功能仍然可以部分得到保障。如果我们将shard和replica配合使用，则可以保障整体系统的robust会更好。
系统的响应时间会得到改善。不同于传统的集中式存储，数据可以根据需要存储在多个shard里。首先，多个存储本身就很有利于并行的处理数据操作，从而使得响应时间得到改善。其次，shard可以根据需要部署到和client更近的地方，从而改善响应时间。例如，如果数据是和城市有关的，那么我们可以将数据按照城市分别存到不同的shard里，并将每个城市的shard部署到该城市。

Shard的方法：

Range-based sharding：通过对某一条或者几条attribute进行区间划分来决定shard。比如对于人口的数据按照年龄的分布，0到10岁存储到一个shard，10岁到20岁存储到一个shard，等。
Hashed sharding：通过对key进行hash来决定该一条记录所对应的shard。
Directory sharding：通过某种形式的对应来决定一条记录所对应的shard。比如存储文章，我们可以将历史类的存储在一个shard，文学类的存储在一个shard，等。
Geo sharding：通过地理位置来决定shard。比如上面例子中通过城市来决定。

Partition介绍

数据库的Partition是将数据分成多个小组进行处理的一种技术。所以partition和shard基本一样的设计理念，但是不完全一样。Parition分为两种：

横向partition：将数据表的行进行分组。
纵向partition：将数据表的列进行分组。

事实上，两种partition都可以认为是shard在数据库中的具体实现。

在DynamoDB的模拟实现中加入Partition

首先我们先实现一个Parition类。这个Partition类可以实现CRUD的功能（也就是create，read，update，delete），同时它还提供了一个接口可以返回该partition的统计信息。具体代码如下：

class Partition:
    def __init__(self):
        self.storage = {}

    def put_item(self, key, value):
        self.storage.update({key: value})

    def get_item(self, key):
        return self.storage[key]
    
    def delete_item(self, key):
        self.storage.pop(key)

    def get_item_count(self):
        return len(self.storage.items())

我们将给DDB的table添加Parition List。在这里我们使用Hash partition。针对每一个key，我们首先计算该key的hash value，然后对partition的个数取模来确定该key应该存在在哪个partition里。并且现在Table将不再保存数据的统计信息（例如有多少条数据），因为数据已经分布到多个partition里，所以Table将通过轮询Paritition的方式来汇总Table级别的统计信息（参见Table.describe()的实现）。代码的实现如下：

import functools
from partition import Partition

# class to provide DDB public APIs
# - support partitions based on hash value of key;
class DDB:
    def __init__(self):
        self.tables = {}

    def create_table(self, table_name):
        self.tables[table_name] = self.Table(table_name)

    def list_table(self):
        for table in self.tables.values():
            table.describe()

    def delete_table(self, table_name):
        self.tables.pop(table_name)

    def get_table(self, table_name):
        return self.tables[table_name]
    
    class Table:
        def __init__(self, name, partition_count=3):
            self.name = name
            self.partitions = [Partition() for _ in range(partition_count)]
            self.partition_count = partition_count

        def put_item(self, key, value):
            print("save {} to partition {}".format(key, self.get_partition_id(key)))
            self.partitions[self.get_partition_id(key)].put_item(key, value)

        def update_item(self, key, value):
            self.partitions[self.get_partition_id(key)].put_item(key, value)

        def get_item(self, key):
            print("get {} from partition {}".format(key, self.get_partition_id(key)))
            return self.partitions[self.get_partition_id(key)].get_item(key)
        
        def delete_item(self, key):
            print("delete {} from partition {}".format(key, self.get_partition_id(key)))
            self.partitions[self.get_partition_id(key)].delete_item(key)

        def describe(self):
            item_count = functools.reduce(lambda x, y : x + y.get_item_count(), self.partitions, 0)
            print("Table name: {}, item size: {}".format(self.name, item_count))

        def get_partition_id(self, key):
            return self.my_hash(key) % self.partition_count
        
        def my_hash(self, text:str):
            hash=0
            for ch in text:
                hash = ( hash*281  ^ ord(ch)*997) & 0xFFFFFFFF
            return hash

现在我们DDB的class diagram看起来是这个样子：

显示我们修改一下我们之前的测试代码，并且看一下partition是否工作正常：

from ddb import DDB

ddb = DDB()

table_name = "test_table"
key = "test_key"
value = "test_value"

ddb.create_table(table_name)
ddb.list_table()
ddb_table = ddb.get_table(table_name)
ddb_table.put_item("1", value)
ddb_table.put_item("2", value)
ddb_table.put_item("3", value)

print(ddb_table.get_item("1"))
print(ddb_table.get_item("2"))
print(ddb_table.get_item("3"))

ddb_table.delete_item("1")

ddb_table.describe()

代码的运行结果：

Table name: test_table, item size: 0
save 1 to partition 1
save 2 to partition 2
save 3 to partition 0
get 1 from partition 1
test_value
get 2 from partition 2
test_value
get 3 from partition 0
test_value
delete 1 from partition 1
Table name: test_table, item size: 2

我们看到每条记录被正确的存储到各个partition里，并且可以正常的访问。关于整张表的统计信息，也就是表里有多少条记录也是正确的。

小结

我们的DDB已经可以将数据灵活的存储在多个partition里了。现在我们可以很容易scale out或者scale in我们的DDB。但是我们注意到如下问题：

如果partition增加，根据hash value模partition的数量来确定partition的方式就不正确了，因为一条数据对应的partition会发生改变。
我们仅仅是在存储上实现了partition，但是并没有真正实现并行的数据处理。
我们的数据库没有replica来保障数据和服务availability。

这些问题我们将在后面的文章中继续解决。

本文链接：https://blog.csdn.net/weixin_42325834/article/details/135877562

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

leetcode 172. 阶乘后的零-程序员宅基地

文章浏览阅读63次。题目给定一个整数 n，返回 n! 结果尾数中零的数量。解题思路每个0都是由2 * 5得来的，相当于要求n!分解成质因子后2 * 5的数目，由于n中2的数目肯定是要大于5的数目，所以我们只需要求出n!中5的数目。C++代码class Solution {public: int trailingZeroes(int n) { ...

Day15-【Java SE进阶】IO流（一）：File、IO流概述、File文件对象的创建、字节输入输出流FileInputStream FileoutputStream、释放资源。_outputstream释放-程序员宅基地

文章浏览阅读992次，点赞27次，收藏15次。UTF-8是Unicode字符集的一种编码方案，采取可变长编码方案，共分四个长度区:1个字节，2个字节，3个字节，4个字节。文件字节输入流：每次读取多个字节到字节数组中去，返回读取的字节数量，读取完毕会返回-1。注意1:字符编码时使用的字符集，和解码时使用的字符集必须一致，否则会出现乱码。定义一个与文件一样大的字节数组，一次性读取完文件的全部字节。UTF-8字符集:汉字占3个字节，英文、数字占1个字节。GBK字符集:汉字占2个字节，英文、数字占1个字节。GBK规定:汉字的第一个字节的第一位必须是1。_outputstream释放

jeecgboot重新登录_jeecg 登录自动退出-程序员宅基地

文章浏览阅读1.8k次，点赞3次，收藏3次。解决jeecgboot每次登录进去都会弹出请重新登录问题，在utils文件下找到request.js文件注释这段代码即可_jeecg 登录自动退出

数据中心供配电系统负荷计算实例分析-程序员宅基地

文章浏览阅读3.4k次。我国目前普遍采用需要系数法和二项式系数法确定用电设备的负荷，其中需要系数法是国际上普遍采用的确定计算负荷的方法，最为简便;而二项式系数法在确定设备台数较少且各台设备容量差..._数据中心用电负荷统计变压器

HTML5期末大作业：网页制作代码网站设计——人电影网站(5页) HTML+CSS+JavaScript 学生DW网页设计作业成品 dreamweaver作业静态HTML网页设计模板_网页设计成品百度网盘-程序员宅基地

文章浏览阅读7k次，点赞4次，收藏46次。HTML5期末大作业：网页制作代码网站设计——人电影网站(5页) HTML+CSS+JavaScript 学生DW网页设计作业成品 dreamweaver作业静态HTML网页设计模板常见网页设计作业题材有个人、美食、公司、学校、旅游、电商、宠物、电器、茶叶、家居、酒店、舞蹈、动漫、明星、服装、体育、化妆品、物流、环保、书籍、婚纱、军事、游戏、节日、戒烟、电影、摄影、文化、家乡、鲜花、礼品、汽车、其他等网页设计题目, A+水平作业_网页设计成品百度网盘

【Jailhouse 文章】Look Mum, no VM Exits_jailhouse sr-iov-程序员宅基地

文章浏览阅读392次。jailhouse 文章翻译，Look Mum, no VM Exits!_jailhouse sr-iov

随便推点

chatgpt赋能python：Python怎么删除文件中的某一行_python 删除文件特定几行-程序员宅基地

文章浏览阅读751次。本文由chatgpt生成，文章没有在chatgpt生成的基础上进行任何的修改。以上只是chatgpt能力的冰山一角。作为通用的Aigc大模型，只是展现它原本的实力。对于颠覆工作方式的ChatGPT，应该选择拥抱而不是抗拒，未来属于“会用”AI的人。AI职场汇报智能办公文案写作效率提升教程专注于AI+职场+办公方向。下图是课程的整体大纲下图是AI职场汇报智能办公文案写作效率提升教程中用到的ai工具。_python 删除文件特定几行

Java过滤特殊字符的正则表达式_java正则表达式过滤特殊字符-程序员宅基地

文章浏览阅读2.1k次。【代码】Java过滤特殊字符的正则表达式。_java正则表达式过滤特殊字符

CSS中设置背景的7个属性及简写background注意点_background设置背景图片-程序员宅基地

文章浏览阅读5.7k次，点赞4次，收藏17次。css中背景的设置至关重要，也是一个难点，因为属性众多，对应的属性值也比较多，这里详细的列举了背景相关的7个属性及对应的属性值，并附上演示代码，后期要用的话，可以随时查看，那我们坐稳开车了······1: background-color 设置背景颜色2:background-image来设置背景图片- 语法：background-image:url(相对路径);-可以同时为一个元素指定背景颜色和背景图片，这样背景颜色将会作为背景图片的底色，一般情况下设置背景..._background设置背景图片

Win10 安装系统跳过创建用户，直接启用 Administrator_windows10msoobe进程-程序员宅基地

文章浏览阅读2.6k次，点赞2次，收藏8次。Win10 安装系统跳过创建用户，直接启用 Administrator_windows10msoobe进程

PyCharm2021安装教程-程序员宅基地

文章浏览阅读10w+次，点赞653次，收藏3k次。Windows安装pycharm教程新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入下载安装PyCharm1、进入官网PyCharm的下载地址：http://www.jetbrains.com/pycharm/downl_pycharm2021

《跨境电商——速卖通搜索排名规则解析与SEO技术》一一1.1　初识速卖通的搜索引擎...-程序员宅基地

文章浏览阅读835次。本节书摘来自异步社区出版社《跨境电商——速卖通搜索排名规则解析与SEO技术》一书中的第1章，第1.1节，作者：冯晓宁，更多章节内容可以访问云栖社区“异步社区”公众号查看。1.1　初识速卖通的搜索引擎1.1.1　初识速卖通搜索作为速卖通卖家都应该知道，速卖通经常被视为“国际版的淘宝”。那么请想一下，普通消费者在淘宝网上购买商品的时候，他的行为应该..._跨境电商速卖通搜索排名规则解析与seo技术 pdf