【大数据&AI人工智能】HBase 高可用、高性能原理讲解:LSM Tree / 数据压缩 Minor Compaction和Major Compaction / Bloom Filter/Cache
禅与计算机程序设计艺术 2024-06-18 11:01:01 阅读 77
【大数据&AI人工智能】HBase 高可用、高性能原理讲解:LSM Tree / 数据压缩 Minor Compaction和Major Compaction / Bloom Filter/Cache
文章目录
【大数据&AI人工智能】HBase 高可用、高性能原理讲解:LSM Tree / 数据压缩 Minor Compaction和Major Compaction / Bloom Filter/Cache HBase 简介 关键特性 LSM树结构 简介 核心思想 LSM 树的结构 LSM 树原理 memtable immutable memtable SSTable 写入操作 删除操作 更新操作 查询操作 布隆过滤器 合并操作 使用 HBase 代码实例 HBase中的Compaction 操作是什么? 为什么要做 Compaction 操作? Minor Compaction和Major Compaction的区别 ? HBase 支持高吞吐量、低延迟的读写操作背后的原理? Bloom Filter 算法原理 和 Java 代码实现? Bloom Filter 算法原理 Java 代码实现 Block Cache 的数据结构和数据读写算法? 简化的实现 BlockCahe.java 接口定义 LruBlockCahe.java
HBase 简介
HBase是一个开源的分布式非关系型(NoSQL)数据库,专为处理大规模数据存储和实时查询而设计。它参考了Google的BigTable模型,并作为Apache Hadoop项目的一部分,实现语言为Java。HBase运行在Hadoop Distributed File System(HDFS)之上,为Hadoop提供类BigTable的服务。以下是HBase的一些关键特性:
关键特性
分布式存储:HBase利用Hadoop的分布式文件系统HDFS,将数据分布在多个节点上,提供水平扩展的能力。 列式存储:与关系型数据库的行式存储不同,HBase的数据模型是面向列的。这允许更高效地压缩和访问同一列族的数据,从而减少磁盘I/O,并提供大规模数据下的查询性能。 自动分区和负载均衡:HBase根据行键对数据进行自动分区,每个分区被称为Region,由Region服务器进行管理。系统会根据负载自动对Region进行分割、合并和迁移,从而实现负载均衡。 强一致性:对于单行操作,HBase提供上一篇: 【AI大模型应用开发】【LangChain系列】2. 一文全览LangChain数据连接模块:从文档加载到向量检索RAG,理论+实战+细节
下一篇: Git Bash 上传本地文件到Gitee(AI助力解决问题)
本文标签
【大数据&AI人工智能】HBase 高可用、高性能原理讲解:LSM Tree / 数据压缩 Minor Compaction和Major Compaction / Bloom Filter/Cache
声明
本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。