legs+ 发表于 2023-10-18 14:41:26

布隆过滤器:

布隆过滤器使用场景
[*]原本有10亿个号码,现在又来了10万个号码,要快速准确判断这10万个号码是否在10亿个号码库中?
[*]接触过爬虫的,应该有这么一个需求,需要爬虫的网站千千万万,对于一个新的网站url,我们如何判断这个url我们是否已经爬过了?
[*]垃圾邮箱的过滤。

孤星3 发表于 2023-10-18 16:13:42

原本有10亿个号码,现在又来了10万个号码,要快速准确判断这10万个号码是否在10亿个号码库中?

用Hash来区分吗?

很有趣的应用场景。

孤星3 发表于 2023-10-18 17:54:27

孤星3 发表于 2023-10-18 16:13
用Hash来区分吗?

很有趣的应用场景。

不过如果只是纯号码,可以按照排序来搜寻,不必像字符串那样对比的复杂。

legs+ 发表于 2023-10-18 18:49:05

孤星3 发表于 2023-10-18 17:54
不过如果只是纯号码,可以按照排序来搜寻,不必像字符串那样对比的复杂。 ...

不是说了,布隆过滤器
其实,是一种模块,说白了就是一个库

legs+ 发表于 2023-10-18 18:50:37

hashmap也是一种方法,key与value分离
但是,它只适合小范围的过滤
大数据还得布隆过滤器

legs+ 发表于 2023-10-18 18:51:31

HashMap是Java中常用的集合类之一,它实现了Map接口并继承自AbstractMap类。HashMap使用哈希表来存储键值对,通过将键映射为哈希码来进行高效的插入、查找和删除操作。

以下是HashMap的常见用法和特点:

键值对:HashMap允许存储任意类型的键和值。可以通过键来查找对应的值,从而实现高效的数据查询操作。

哈希表:HashMap内部使用哈希表来组织数据。对于每个键,HashMap会先将其哈希为一个整数值,然后根据该值来快速查找对应的值。对于哈希冲突的情况,HashMap使用链表或红黑树来解决。

空键和空值:HashMap允许使用null作为键和值。当存储null时,哈希表会特殊处理以确保正确的存储和检索。

线程不安全:HashMap不是线程安全的,如果多个线程同时修改HashMap,可能会导致不一致的结果。如果需要在多线程环境下使用HashMap,可以考虑使用ConcurrentHashMap。

遍历:可以使用迭代器或者Java 8引入的Stream API来遍历HashMap的键值对。常见的遍历方式包括使用Iterator迭代器遍历或者使用forEach方法结合Lambda表达式进行遍历。

legs+ 发表于 2023-10-18 18:52:47

如果搞懂了hashmap,Java编程也就搞懂了一半
因为,hashmap太强大了

孤星3 发表于 2023-10-18 19:05:48

legs+ 发表于 2023-10-18 18:49
不是说了,布隆过滤器
其实,是一种模块,说白了就是一个库
哦哦,漏了这点。

布隆过滤器比线性搜索和二进制搜索更优越了,以前我掌握最好的只不过是二进制搜索。

从Linear Search和Binary Search翻译过来,不知道对不对?

legs+ 发表于 2023-10-18 19:09:20

嗯,
它实际上是一个很长的二进制向量和一系列随机映射函数。

注意函数,编程语法最简单的就是函数

legs+ 发表于 2023-10-18 20:07:59

这里我举一个布隆过滤器的例子:
缓存穿透

缓存穿透是指查询一个根本不存在的数据,这样就会导致请求不会命中缓存而是去查询数据库,导致后端存储压力增大,缓存失去了保护后端存储的功能。

导致缓存穿透的原因有两个,一个是自身代码和数据有问题。还有可能就是恶意攻击者导致大量空命中。

解决缓存穿透的方法有两种:

1、缓存空对象

将空对象缓存到Redis中。这样再次收到同样查询不存在的数据时就可以保护后端存储了。

但是这种方法会占用大量的内存(键),可以对这些键设置过期时间。

2、布隆过滤器

在缓存层之前加上布隆过滤器作为第一层进行过滤。布隆过滤器可以判断出该数据是否一定不存在。

如果布隆过滤器认为该数据一定不存在,那么直接返回,不需要访问缓存和后端存储。
页: [1] 2
查看完整版本: 布隆过滤器: