开发者

Java+AI驱动实现PDF文件数据提取与解析

开发者 https://www.devze.com 2025-08-19 10:31 出处:网络 作者: AAA专业写后端刘哥
目录一、核心流程:从上传到评估的完整链路二、第一步:解析 PDF,提取体检报告内容1. 引入依赖2. 封装 PDF 工具类3. 测试验证三、第二步:集成百度千帆大模型,让 AI 做专业解读1. 准备工作:注册与认证2. 引入 SDK
目录
  • 一、核心流程:从上传到评估的完整链路
  • 二、第一步:解析 PDF,提取体检报告内容
    • 1. 引入依赖
    • 2. 封装 PDF 工具类
    • 3. 测试验证
  • 三、第二步:集成百度千帆大模型,让 AI 做专业解读
    • 1. 准备工作:注册与认证
    • 2. 引入 SDK 依赖
    • 3. 封装 AI 调用工具
    • 4. 关键:设计提示词(Prompt)
  • 四、API 接口开发:从上传到存储的完整实现
    • 1. 数据库设计
    • 2. 上传体检报告接口
    • 3. 生成评估结果接口
  • 五、总结与优化

    体检结束后,面对报告中繁多的指标和专业术语,许多人常会感到困惑:这些数据代表什么含义?是否存在健康风险?需要采取哪些应对措施?人工解读不仅依赖专业知识,效率也相对低下。本文将分享一套基于 AI 的体检报告智能评估方案,详细介绍从 PDF 上传、内容提取到 AI 分析、数据存储的全流程自动化实现方法。

    Java+AI驱动实现PDF文件数据提取与解析

    一、核心流程:从上传到评估的完整链路

    本系统的核心目标是:用户上传体检报告 PDF 后,系统自动解析内容,调用 AI 生成结构化评估结果,最终存储到数据库供前端展示。整体流程分为两大步骤:

    • 上传体检报告:用户上传 PDF 文件 → 存储至阿里云 OSS → 提取 PDF 文本内容 → 临时缓存到 Redis → 向前端返回上传结果。
    • 生成评估结果:用户确认解析 → 从 Redis 读取文本内容 → 调用 AI 大模型生成 jsON 格式评估结果 → 存储到数据库 → 完成智能评估。

    技术栈选择:采用 Apache PDFBox 解析 PDF 文本,百度千帆大模型进行智能分析,Redis 用于临时缓存,mysql 存储最终结果,阿里云 OSS 存储原始文件。

    Java+AI驱动实现PDF文件数据提取与解析

    二、第一步:解析 PDF,提取体检报告内容

    PDF 是体检报告常见的格式,但直接读取其中的文本存在一定难度。我们选择 Apache PDFBox 这一成熟的开源 PDF 处理库来提取文本内容。

    1. 引入依赖

    在项目的 common 模块中添加 PDFBox 依赖(以 Maven 为例):

    <dependency>
        <groupId>org.apache.pdfbox</groupId>
        <artifactId>pdfbox</artifactId>
        <version>2.0.24</version>
    </dependency>
    

    2. 封装 PDF 工具类

    为方便调用,封装PDFUtil工具类,其核心方法pdfToString接收文件输入流,返回提取的文本:

    public class PDFUtil {
        public static String pdfToString(InputStream inputStream) {
            PDDocument document = null;
            try {
                // 加载PDF文档
                document = PDDocument.load(inputStream);
                // 创建文本提取器
                PDFTextStripper pdfStripper = new PDFTextStripper();
                // 提取文本并返回
                return pdfStripper.getText(document);
            } catch (IOException e) {
                e.printStackTrace();
            } finally {
                // 关闭资源
                if (document != null) {
                    try {
                        document.close();
                        inputStream.close();
                    } catch (IOException e) {
                        e.printStackTrace();
                    }
                }
            }
            return null;
        }
    }
    

    3. 测试验证

    找一份体检报告 PDF,编写简单的测试类验证文本提取功能:

    public class PDFUtilTest {
        public static void main(String[] args) throws FileNotFoundException {
            FileInputStream fileInputStream = new FileInputStream("C:\tmp\体检报告-刘爱国-男-69岁.pdf");
            String result = PDFUtil.pdfToString(fileInputStream);
            System.out.println(result); // 打印提取的文本内容
        }
    }
    

    若控制台能输出 PDF 中的文字,则表明解析成功。

    三、第二步:集成百度千帆大模型,让 AI 做专业解读

    提取文本后,需借助 AI 基于内容生成结构化评估。我们选择百度千帆大模型(ERNIE-4.0-8K-Preview),它在医疗领域的理解能力较强,且支持 JSON 格式输出,便于后续解析。

    1. 准备工作:注册与认证

    注册百度智能云账号,完成个人实名认证(需在手机端 APP 操作)。

    创建 AccessKey:在控制台的 “安全认证” 中生成,用于 API 调用时的身份验证。

    注意:新用户有 20 元代金券,足够测试使用;调用前需确保已开通目标模型的付费权限。

    2. 引入 SDK 依赖

    在 common 模块中添加百度千帆 SDK:

    <dependency>
        <groupId>com.baidubce</groupId>
        <artifactId>qianfan</artifactId>
        <version>0.1.6</version>
    </dependency>
    

    3. 封装 AI 调用工具

    为便于复用,封装AIModelInvoker类,统一处理大模型调用逻辑:

    @Component
    @Slf4j
    public class AIModelInvoker {
        @Autowired
        private BaiduAIProperties baiduAIProperties; // 配置类,读取accessKey等参数
        public String qianfanInvoker(String prompt) {
            // 初始化千帆客户端
            Qianfan qianfan = new Qianfan(baiduAIProperties.getAccessKey(), baiduAIProperties.getSecretKey());
            // 调用模型
            ChatResponse response = qianfan.chatCompletion()
                    .model(baiduAIProperties.getQianfanModel()) // 模型名称,如ERNIE-4.0-8K-Preview
                    .addMessage("user", prompt) // 传入提示词
                    .temperature(0.7) // 控制输出随机性(0-1之间,值越小越稳定)
                    .maxOutputTokens(2000) // 最大输出长度
                    .responseFormat("json_object") // 指定返回JSON格式
                    .execute();
            return response.getResult(); // 返回AI生成的结果
        }
    }
    

    其中BaiduAIProperties用于读取配置文件中的参数(accessKey、secretKey、模型名等),避免硬编码:

    @Data
    @Configuration
    @ConfigurationProperties(prefix = "baidu")
    public class BaiduAIProperties {
        private String accessKey;
        private String secretKey;
        private String qianfanModel;
    }
    

    在application.yml中配置参数:

    baidu:
      accessKey: 你的accessKey
      secretKey: 你的secretKey
      qianfanModel: ERNIE-4.0-8K-Preview
    

    4. 关键:设计提示词(Prompt)

    要让 AI 生成符合要求的结构化结果,提示词的设计至关重要。一个优质的提示词需明确:AI 的角色、任务要求、输入内容、输出格式。

    针对体检报告解析,设计的提示词如下(核心部分):

    请以专业医生的视角分析以下体检报告,完成以下任务:

    1. 提取总检日期;

    2. 给出风险等级(健康/提示/风险/危险/严重危险)和健康指数(0-100分);

    3. 计算各风险等级的占比(保留两位小数);

    4. 列出异常数据(结论、项目名、结果、参考值、单位、解读、建议);

    5. 给8大系统(呼吸、消化等)打分(0-100分);

    6. 总结报告核心结论。

    输出要求:仅返回JSON,格式如下:

    {
      "totalCheckDate": "YYYY-MM-DD",
      "healthAssessment": {
        "riskLevel": "healthy/caution/risk/danger/severeDanger",
        "healthIndex": XX.XX
      },
      "riskDistribution": { ... },
      "abnormalDataandroid": [ ... ],
      "systemScore": { ... },
      "summarize": "总结内容"
    }
    

    提示词中明确了 AI 的 “医生” 角色,列出了具体任务,并严格规定了 JSON 格式,确保后续能直接解析。

    四、API 接口开发:从上传到存储的完整实现

    具备 PDF 解析和 AI 调用的基础后,开发实际的业务接口,实现 “上传报告→AI 评估→存储结果” 的全流程。

    1. 数据库设计

    首先创建health_assessment表,存储评估结果,核心字段包括:

    老人基本信息(姓名、身份证号、年龄、性别等);

    体检信息(体检机构、报告 URL、总检日期等);

    AI 评估结果(健康指数、风险等级、异常数据、系统评分等,以 JSON 格式存储)。

    2. 上传体检报告接口

    用户上传 PDF 时,需将文件存储到阿里云 OSS,并提取文本缓存到 Redis(供后续 AI 调用)。

    核心代码(Controller 层):

    @ApiOperation("健康文档上传")
    @PostMapping("/upload")
    pwww.devze.comublic AJAXResult uploadFile(MultipartFile file, String idCardNo) throws Exception {
        try {
            // 上传到OSS,获取文件URL
            String url = aliyunOSSOperator.upload(file.getBytes(), file.getOriginalFilename());
            // 提取PDF文本
            String content = PDFUtil.pdfToString(file.getInputStream());
            // 缓存到Redis(key:idCardNo,便于后续关联)
            redisTemplate.opsForHash().put("healthReport", idCardNo, content);
            // 返回上传结果
            return AjaxResult.success().put("url", url).put("originalFilenjavascriptame", file.getOriginalFilename());
        } catch (Exception e) {
            return AjaxResult.error(e.getMessage());
        }
    }
    

    3. 生成评估结果接口

    用户确认后,从 Redis 读取文本,调用 AI 生成结果,解析后存储到数据库。

    核心代码(Service 层):

    @Override
    public Long insertHealthAssessment(HealthAssessmentDto dto) {
        // 1. 从Redis获取PDF文本
        String content = (String) redisTemplate.opsForHash().get("healthReport", dto.getIdCard());
        if (StringUtils.isEmpty(content)) {
            throw new BaseException("请先上传体检报告");
        }
        // 2. 组装提示词(结合dto信息和PDF文本)
        String prompt = buildPrompt(content, dto);
        // 3. 调用AI生成评估结果
        String aiResult = 编程客栈aIModelInvoker.qianfanInvoker(prompt);
        if (StringUtils.isEmpty(aiResult)) {
            throw new BaseException("AI分析失败");
        }
        // 4. 解析AI返回的JSON
        HealthReportVo reportVo = JSONUtil.toBean(aiResult, HealthReportVo.class);
        // 5. 保存到数据库
        HealthAssessment assessment = convertToEntity(reportVo, dto);
        save(assessment);
        return assessment.getId();
    }
    

    其中convertToEntity方法将 AI 生成的HealthReportVo转换为数据库实体HealthAssessmentandroid,并补充用户基本信息(如通过身份证号解析年龄、性别等)。

    五、总结与优化

    通过上述步骤,我们实现了从 PDF 体检报告上传到 AI 智能评估、结果存储的完整系统。其核心亮点包括:

    利用 PDFBox 高效提取文本,解决 PDF 解析难题;

    借助百度千帆大模型,将非结构化文本转化为结构化 JSON;

    采用 Redis 临时缓存、OSS 存储文件,保证流程流畅。

    后续可优化的方向:

    增加 PDF 表格识别功能(部分报告用表格展示指标,需特殊处理);

    优化提示词,提高 AI 对罕见指标的解读准确性;

    增加异步处理机制(AI 调用可能耗时,用异步任务避免前端超时)。

    以上就是Java+AI驱动实现PDF文件数据提取与解析的详细内容,更多关于Java PDF数据提取的资料请关注编程客栈(www.devze.com)其它相关文章!

    0

    精彩评论

    暂无评论...
    验证码 换一张
    取 消

    关注公众号