Java布隆过滤器的原理和实现分析

2023-05-21 原文

前言

数组、链表、树等数据结构会存储元素的内容，一旦数据量过大，消耗的内存也会呈现线性增长

所以布隆过滤器是为了解决数据量大的一种数据结构

讲述布隆过滤器的时候需要了解一些预备的知识点：比如哈希函数

1. 预备知识

1.1 哈希函数

哈希函数指将哈希表中元素的关键键值映射为元素存储位置的函数

一般的线性表，树中，记录在结构中的相对位置是随机的，即和记录的关键字之间不存在确定的关系，因此，在结构中查找记录时需进行一系列和关键字的比较。这一类查找方法建立在“比较“的基础上，查找的效率依赖于查找过程中所进行的比较次数。理想的情况是能直接找到需要的记录，因此必须在记录的存储位置和它的关键字之间建立一个确定的对应关系f，使每个关键字和结构中一个唯一的存储位置相对应

具体其构造器的方法有：

直接定址法、数字分析法、平方取中法、折叠法、除留余数法等

解决其冲突的方法有：

拉链法、多哈希法、开放地址法、建域法等

2. 布隆过滤器

2.1 概念

它实际上是一个很长的二进制向量和一系列随机映射函数。（位数组和哈希函数）

布隆过滤器可以用于检索一个元素是否在一个集合中。

它的优点是空间效率和查询时间都比一般的算法要好的多（更加高效，存储空间小）

缺点是有一定的误识别率和删除困难

2.2 实现原理

之所以要用布隆过滤器，是因为HashMap 的实现也有缺点，例如存储容量占比高，考虑到负载因子的存在，通常空间是不能被用满的，而且数据大了之后不可能一次性

比如存储码农研究僧这个值，通过三个哈希函数，算得三个哈希值，存放在3个位置中（位数组）

之后判定查询码农博士僧的时候，发现这三个值只要有1个没有为1，就是没存储到，也就是没在集合中

但是如果存储的值很多，再去查找的时候，可能会出现一定的误判率，导致本身没在集合中，但位数组却都是1的情况

具体如何选择上面所说的位数组长度和哈希函数的个数呢

布隆器如果过小，导致很多位置都很快是1，误判率就很很高，如果布隆器过长，误判率会越小

哈希函数的个数如果过少，其速度慢，误判率也高，如果哈希函数的个数过多，其位1的速度加快，导致布隆过滤器的效率越低

2.3 步骤

添加元素的具体的步骤是

将添加的元素给k个哈希函数算出对应位数组上的k个位置，将这k个位置设为1

查询元素的具体步骤是

将要查询的元素给k个哈希函数算出对应于位数组上的k个位置，如果k个位置有一个为0，则肯定不在集合中。如果k个位置全部为1，则可能在集合中

在计数布隆过滤器中，进行删除的前提是必须保证，值一定存在。因此单通过布隆过滤器无法保证值一定存在。如果通过其他的方法确认值存在后进行删除，则不能保证该值在后续布隆过滤器查询时一定返回不存在，因为该值相对应的位置并不一定为零。但确实可以一定概率上优化查询的效率。因此不能说计数布隆过滤器支持删除，应该说计数布隆过滤器提供了实现删除的可能

2.4 实现

public class MyBloomFilter {
 
    /**
     * 一个长度为10 亿的比特位
     */
    private static final int DEFAULT_SIZE = 256 << 22;
 
    /**
     * 为了降低错误率，使用加法hash算法，所以定义一个8个元素的质数数组
     */
    private static final int[] seeds = {3, 5, 7, 11, 13, 31, 37, 61};
 
    /**
     * 相当于构建 8 个不同的hash算法
     */
    private static HashFunction[] functions = new HashFunction[seeds.length];
 
    /**
     * 初始化布隆过滤器的 bitmap
     */
    private static BitSet bitset = new BitSet(DEFAULT_SIZE);
 
    /**
     * 添加数据
     *
     * @param value 需要加入的值
     */
    public static void add(String value) {
        if (value != null) {
            for (HashFunction f : functions) {
                //计算 hash 值并修改 bitmap 中相应位置为 true
                bitset.set(f.hash(value), true);
            }
        }
    }
 
    /**
     * 判断相应元素是否存在
     * @param value 需要判断的元素
     * @return 结果
     */
    public static boolean contains(String value) {
        if (value == null) {
            return false;
        }
        boolean ret = true;
        for (HashFunction f : functions) {
            ret = bitset.get(f.hash(value));
            //一个 hash 函数返回 false 则跳出循环
            if (!ret) {
                break;
            }
        }
        return ret;
    }
 
    /**
     * 测试。。。
     */
    public static void main(String[] args) {
 
        for (int i = 0; i < seeds.length; i  ) {
            functions[i] = new HashFunction(DEFAULT_SIZE, seeds[i]);
        }
 
        // 添加1亿数据
        for (int i = 0; i < 100000000; i  ) {
            add(String.valueOf(i));
        }
        String id = "123456789";
        add(id);
 
        System.out.println(contains(id));   // true
        System.out.println(""   contains("234567890"));  //false
    }
}
 
class HashFunction {
 
    private int size;
    private int seed;
 
    public HashFunction(int size, int seed) {
        this.size = size;
        this.seed = seed;
    }
 
    public int hash(String value) {
        int result = 0;
        int len = value.length();
        for (int i = 0; i < len; i  ) {
            result = seed * result   value.charAt(i);
        }
        int r = (size - 1) & result;
        return (size - 1) & result;
    }
}

到此这篇关于Java布隆过滤器的原理和实现分析的文章就介绍到这了,更多相关Java布隆过滤器内容请搜索Devmax以前的文章或继续浏览下面的相关文章希望大家以后多多支持Devmax！

Java布隆过滤器的原理和实现分析的更多相关文章

Java利用POI实现导入导出Excel表格

这篇文章主要为大家详细介绍了Java利用POI实现导入导出Excel表格，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
Java 阻塞队列BlockingQueue详解

本文详细介绍了BlockingQueue家庭中的所有成员，包括他们各自的功能以及常见使用场景,通过实例代码介绍了Java 阻塞队列BlockingQueue的相关知识，需要的朋友可以参考下
Java Bean 作用域及它的几种类型介绍

这篇文章主要介绍了Java Bean作用域及它的几种类型介绍，Spring框架作为一个管理Bean的IoC容器，那么Bean自然是Spring中的重要资源了，那Bean的作用域又是什么，接下来我们一起进入文章详细学习吧
布隆过滤器(bloom filter)及php和redis实现布隆过滤器的方法

这篇文章主要介绍了布隆过滤器(bloom filter)介绍以及php和redis实现布隆过滤器实现方法,非常不错，具有一定的参考借鉴价值，需要的朋友可以参考下
Java实现世界上最快的排序算法Timsort的示例代码

Timsort 是一个混合、稳定的排序算法，简单来说就是归并排序和二分插入排序算法的混合体，号称世界上最好的排序算法。本文将详解Timsort算法是定义与实现，需要的可以参考一下
Java日期工具类的封装详解

在日常的开发中，我们难免会对日期格式化，对日期进行计算，对日期进行校验，为了避免重复写这些琐碎的逻辑，我这里封装了一个日期工具类，方便以后使用，直接复制代码到项目中即可使用，需要的可以参考一下
Java设计模式之模板方法模式Template Method Pattern详解

在我们实际开发中，如果一个方法极其复杂时，如果我们将所有的逻辑写在一个方法中，那维护起来就很困难，要替换某些步骤时都要重新写，这样代码的扩展性就很差，当遇到这种情况就要考虑今天的主角——模板方法模式
Java 中 Class Path 和 Package的使用详解

这篇文章主要介绍了Java 中 Class Path和Package的使用详解，文章围绕主题展开详细的内容介绍，具有一定的参考价值，需要的朋友可以参考一下
java SpringBoot 分布式事务的解决方案(JTA+Atomic+多数据源)

这篇文章主要介绍了java SpringBoot 分布式事务的解决方案(JTA+Atomic+多数据源),文章围绕主题展开详细的内容介绍，具有一定的参考价值，感兴趣的小伙伴可以参考一下
Java一维数组和二维数组元素默认初始化值的判断方式

这篇文章主要介绍了Java一维数组和二维数组元素默认初始化值的判断方式，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教

随机推荐

基于EJB技术的商务预订系统的开发

用EJB结构开发的应用程序是可伸缩的、事务型的、多用户安全的。总的来说，EJB是一个组件事务监控的标准服务器端的组件模型。基于EJB技术的系统结构模型EJB结构是一个服务端组件结构，是一个层次性结构，其结构模型如图1所示。图2：商务预订系统的构架EntityBean是为了现实世界的对象建造的模型，这些对象通常是数据库的一些持久记录。
Java利用POI实现导入导出Excel表格

这篇文章主要为大家详细介绍了Java利用POI实现导入导出Excel表格，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
Mybatis分页插件PageHelper手写实现示例

这篇文章主要为大家介绍了Mybatis分页插件PageHelper手写实现示例，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
(jsp/html)网页上嵌入播放器(常用播放器代码整理)

网页上嵌入播放器，只要在HTML上添加以上代码就OK了，下面整理了一些常用的播放器代码，总有一款适合你，感兴趣的朋友可以参考下哈，希望对你有所帮助
Java 阻塞队列BlockingQueue详解

本文详细介绍了BlockingQueue家庭中的所有成员，包括他们各自的功能以及常见使用场景,通过实例代码介绍了Java 阻塞队列BlockingQueue的相关知识，需要的朋友可以参考下
Java异常Exception详细讲解

异常就是不正常，比如当我们身体出现了异常我们会根据身体情况选择喝开水、吃药、看病、等异常处理方法。 java异常处理机制是我们java语言使用异常处理机制为程序提供了错误处理的能力，程序出现的错误，程序可以安全的退出，以保证程序正常的运行等
Java Bean 作用域及它的几种类型介绍

这篇文章主要介绍了Java Bean作用域及它的几种类型介绍，Spring框架作为一个管理Bean的IoC容器，那么Bean自然是Spring中的重要资源了，那Bean的作用域又是什么，接下来我们一起进入文章详细学习吧
面试突击之跨域问题的解决方案详解

跨域问题本质是浏览器的一种保护机制，它的初衷是为了保证用户的安全，防止恶意网站窃取数据。那怎么解决这个问题呢？接下来我们一起来看
Mybatis-Plus接口BaseMapper与Services使用详解

这篇文章主要为大家介绍了Mybatis-Plus接口BaseMapper与Services使用详解，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
mybatis-plus雪花算法增强idworker的实现

今天聊聊在mybatis-plus中引入分布式ID生成框架idworker，进一步增强实现生成分布式唯一ID,具有一定的参考价值，感兴趣的小伙伴们可以参考一下