前两天整理2025年在基金会中心网(CFC)的工作总结时,领导问了我一个问题:“清林,过去这一年,你觉得自己最有成就感的工作是什么?”
我脑子里像过电影一样闪过了很多画面,最后选了三件事:AI年报采集、基金会项目AI智能分类打标签、以及2025基金会论坛年会的现场投票系统。
很有意思的是,这三件事都离不开程序开发。得益于AI技术的爆发,我才得以在短时间内完成开发和迭代,把想法变成了实实在在的生产力。
今天,我想聊聊其中最让我“挠头”也最有成就感的:项目AI智能打标签系统。
45万个项目背后的“深渊”
在公益行业,数据有时候是“乱”的。目前基金会中心网采集的存量项目约有45万个。如果你翻看过各个基金会的年报就会发现,有些填写非常“随性”:有的项目介绍长达几千字,恨不得把故事全讲完;有的短到只有几个字,让人看得云里雾里。
这种海量且非标准的数据,靠人工分类几乎是不可能完成的任务。也正因为如此,行业内一直缺乏一个精准的项目议题检索功能。面对这45万个“谜团”,我决定找AI帮帮忙。
从“人工智能”到“自动驾驶”的三次迭代
很多朋友问我,既然 AI 这么强大,直接把数据丢给它不就行了吗?其实在实际的业务场景中,要让 AI 乖乖听话且高效工作,需要经历不断的“调教”。以下是我在开发过程中尝试过的三种路径,希望能给同样在探索“技术向善”的朋友一点参考。
初级智能体扣子(coze)方案
我最先想到的是目前很火的智能体工具。我把 19 个一级标签和上百个二级标签的定义做成知识库,传到了“扣子(Coze)”上,然后写了一段提示词(Prompt),指望它能直接帮我输出结果。
- 实现逻辑: 利用平台现成的 RAG(检索增强生成)能力,让AI对照知识库打标。
- 遇到的坑: 准确率非常不理想。AI经常出现“幻觉”,它会觉得自己比规则更聪明,跳出知识库的范围去自创标签。比如我们定义的是“助弱济困”,它可能会自作聪明地打上一个“扶贫救助”。在处理45万条数据时,这种哪怕10%的偏差都是灾难性的。
本地知识库(Cherry Studio+豆包方案)
既然现成的智能体“心太野”,我就尝试把控制权收回来。我使用了CherryStudio作为客户端,调用了火山方舟的向量模型(Embedding)和豆包大模型。
Cherry Studio + 本地知识库
- 实现逻辑:通过向量模型将标签定义转为本地索引,再调用大模型进行匹配。
- 遇到的坑:准确率大幅提升,AI不再乱说话了。但新问题是——效率瓶颈。这依然是一种“对话式”的思维,如果你想处理海量项目,安排一个人每天坐在电脑前手动复制粘贴项目内容,然后等待打标签结果,接着把标签结果对应保存起来,这样重复45万次,显然不是一个产品经理该给出的方案。
API+多线程自动化(Python方案)
最后,我回归到了程序员的终极武器:代码自动化。我在火山方舟后台直接建立了云端知识库,并利用它提供的“知识问答”API接口,用Python写了一个小系统。
实现逻辑:
- 数据分批:将45万条项目数据分成若干个小批次。
- API调用:程序自动读取每一条项目描述,发送给AI知识库接口,要求它只从定义的19个标签中选出最合适的。
- 多线程加速:为了提高速度,我开启了10个线程并行工作。
- 实时监控:系统会自动记录日志,如果有哪条数据打标失败,程序会自动重试并记录原因。
使用AI开发的《公益项目AI智能打标签系统》
这套系统像是一个勤恳的流水线工人,我开启了10个线程同时工作,仅仅用了一天时间,就把我们一整年采集的基金会项目全部分类打标完成。
给45万条数据“分个家”
为什么要费这么大力气做分类?因为只有分了类,数据才会“说话”。我们参考行业标准,设定了19个一级标签,115个二级分类。现在,这45万个项目终于找到了各自的归宿:
19个行业议题分类:教育发展、医疗健康、生态环境、文化艺术、体育、助弱济困、社会优抚、乡村振兴、社区治理、应急管理、法律支持、科学技术、国际合作与发展、公益行业支持、青少年服务、女性发展、残障、养老支持与服务、以及“其他”。
为什么要多走这一步?
很多人可能会问:清林,作为一个技术人员,你把标签打准不就完成任务了吗?为什么要强调它的意义?
因为我深知,对于公益行业来说,“看不见”往往是误解的开始。有了这些分类,这套系统就不再只是代码,而是一个服务于大家的工具:
- 对于捐赠者:你不再需要从茫茫大海里找项目。如果你关注“残障”或“女性发展”,只需一键筛选,就能看到全国有哪些基金会在深耕这个领域,他们的项目做得怎么样。
- 对于求职者:如果你是一个热衷于“生态环境”的年轻人,通过这些标签,你可以迅速锁定这个赛道里所有的基金会,看清他们的项目分布和关联,找到真正志同道合的机构。
- 对于行业研究者:你可以一眼看出哪些领域是“热点”,哪些领域如“法律支持”或“公益行业支持”还需要更多的资源倾斜。
让每一份善意都能被精准检索,让每一个求职的理想都能找到对应的坐标,这就是这套系统的价值所在。
写在最后的话
现在,如果你打开基金会中心网的官网,已经可以按议题领域去查询项目了。那些曾经沉睡在年报里的文字,终于变成了可以被看见、被分析的活数据。
记录这个过程,不仅是想给有类似需求的朋友提供一个技术思路,更是想分享一点小小的感悟:
在AI时代,我们这些公益从业者,其实不必被技术的高墙挡住。我开发的这套系统,代码其实也是在AI的辅助下完成的。技术并不冷冰冰,关键在于你用它去温暖哪一个角落。
所谓“技术向善”,大概就是:当面对45万份繁杂的数据时,我们能通过不断的探索,让公益的价值变得更清晰、更透明一点。
如果您想要了解更多的基金会行业数据,您可以点击链接,申请基金会中心网的火花计划:申请链接
朱清林 • Blog



评论(0)
暂无