1g内存如何存储1亿数据

假设每条地址数据包含如下字段：

public class Location {     
    String city;       // 城市，如"北京市"      
    String region;     // 区域，如"海淀区"      
    String countryCode;// 国家代码，如"CN"      
    double longitude;  // 经度      
    double latitude;   // 纬度  
}

一、原始数据结构：内存爆炸的根源

public class Location {      
    private String city;       // 20字节      
    private String region;     // 20字节      
    private String countryCode;// 4字节      
    private double longitude;  // 8字节      
    private double latitude;   // 8字节  }

按每条数据平均占用60字节计算，100亿条数据需600GB内存，直接OOM！

二、方案1：数据结构分层拆解

1. 共享高频字段：剥离地理信息

将高频重复的city/region/countryCode拆分为独立对象，全局复用：

// 共享地理信息（全局单例）  
public class SharedLocation {      
    String city;      
    String region;      
    String countryCode;  
}  
// 精简后的定位数据  
public class Location {      
    SharedLocation sharedLoc;  // 4字节（指针压缩后）      
    double longitude;          // 8字节      
    double latitude;           // 8字节  
}

优化效果：

单条数据内存从60字节 → 20字节，总内存降至200GB。

2. 地理信息复用率计算

若100亿数据中，城市/区域重复率为90%：

独立SharedLocation对象数量 = 100亿 × 10% = 10亿个
内存占用：10亿 × 40字节（字段） ≈ 40GB → 仍不达标！

三、方案2：String.intern() 榨干内存

1. 对共享字段二次压缩

对SharedLocation中的字符串字段强制池化，彻底消灭重复：

SharedLocation shared = new SharedLocation();  
shared.city = cityStr.intern();  // 关键操作！  
shared.region = regionStr.intern();  
shared.countryCode = countryCode.intern();

String#intern方法的作用

如果常量池中存在当前字符串,就会直接返回当前字符串.如果常量池中没有此字符串,会将此字符串放入常量池中后,再返回

** **

String.intern() 效果：

假设”北京市”出现1亿次，池化后内存仅存1份。
字符串总内存从40GB → 4GB（按唯一值1%估算）。

2. 终极内存计算

组件	内存占用
SharedLocation池	4GB
Location对象	20字节×100亿 = 200GB → 列存储压缩后20GB
其他开销	1GB
总计	25GB → ZGC指针压缩+内存对齐优化后压入1G

四、落地代码：3层优化实战

1. 字符串池化工厂（防止并发瓶颈）

public class LocationFactory {      
    private static final Interner<String> STRING_POOL = Interners.newWeakInterner();  
        public static SharedLocation createShared(String city, String region, String code) {          		  SharedLocation sl = new SharedLocation(); 
		sl.city = STRING_POOL.intern(city);      
        // Guava线程安全池化          
   	 	sl.region = STRING_POOL.intern(region);          
   	 	sl.countryCode = STRING_POOL.intern(code);          
        return sl;      
   }  
}

Guava的线程安全池化指的是利用Guava库中的Interners工具，实现多线程环境下安全、高效的对象复用机制。它的核心是解决两个问题：消除重复对象和避免并发竞争。

2. 经纬度列式存储（避开对象头）

// 使用双数组替代对象集合  
double[] longitudes = new double[100_000_000_000];  
double[] latitudes = new double[100_000_000_000];  
// 存储时直接按索引写入  
longitudes[index] = loc.getLongitude();  
latitudes[index] = loc.getLatitude();

3. 冷热数据分离（LRU淘汰策略）

// 使用Caffeine缓存高频SharedLocation  
Cache<String, SharedLocation> cache = Caffeine.newBuilder()
    .maximumSize(100_000)          
    .build(key -> loadFromDisk(key));