
goodbye 2025——年度报告
自 2024/07/01 进组以来,再过几小时就算是刚刚好好进组一年半了!(🥰🥰🥰)不过会想起这一年,过的真挺快的,或许是在公司待了半年的缘故?或许是习惯了现在的生活?或许是我真的上了年纪了吗?😂
直到现在,我也总觉得昨天还是 3 月份刚宣布需要去公司的那一天。算下来,真的是从进组到现在,几乎每天都在干活(天选狂奔牛马体质),刚进组两天就开始正式做大模型开发,暑假两月从实体提取->TextToQuery->TextToSQL 一点点走过来,不知不觉间研究了 DB-GPT 和 Chat2DB?(忘了名字了…)两个开源项目的代码,对 ES、Milvus 等等向量数据库也有了点理解。还记得刚进组的时候,就只知道些前后端开发知识,大模型 token、思维链、智能体这些初见时完全是大脑空白的 🙃。后面接触的多了,慢慢就觉得这些都是些基础概念,一切理解都建立在使用之上,先知道它能干什么,再去想它不能干什么,最后想办法改进。
在此向 2024/07/01~2024/08/31 暑期提前进组这段生活致以怀念 🖖!非常怀念那段时间实验室的科研氛围,开例会讨论的时候都能感受思维碰撞,8 月份甚至还有幸能和 Google Brain 的专家交流。(pps:最感谢的是何导帮我报销租房费用 🥰,8 月中旬身上就剩 500 块了,来自杭漂的狠狠感同身受…)
比起去年各种惊喜接连不断,2025 年整体算是比较平稳的一年。这一年最大的收获我觉得是对工作以及独自生活的感受。刚去公司的时候我觉得优秀的技术人员就应该是无所不能的,什么项目都能很快很好的完成,像去年大模型应用面临的瓶颈我以为一定都能解决,甚至突破。但实际去公司之后发现,很多事情其实别人也做不到。那既然做不到,我们就完全不做了?非也。如果尽力尝试之后发现真的做不出来,就得和领导和甲方及时沟通,尽力找到能大致替代原功能的新的实现手段。

Q:甲方和乙方的关系是什么?
My Answer:甲方不断降低预期,乙方不断寻找性价比更高的方式提高预期,双方的预期线来到同一水平线的时候,项目就可以交工了(笑)。
另一方面,我起初觉得干技术嘛,应该话少一点,手麻利点。不过在干了几个月之后我还是觉得,学会表达和沟通是很重要的,干技术这行,光会打代码还不够(当然我代码打的也不怎么样),还是得活跃一点。以在公司的半年经历为例,我发现很多人说话的时候是没有逻辑的,或者注意力紊乱,能截图解决的要说一大堆,本身就是小问题又要大吵大闹,完全不听劝。这种情况,表达的重要性比写代码高得多,对于胡言乱语的就应该马上制止,是对方的问题也要马上说明,否则就得一直单方面受制于人了。

对于生活方面,我现在想想,在公司的时候是早 9 晚 6,几乎是白天时间都要待在工位上。虽说公司还是不错的,但是这样的生活过久了,也不免让人觉得枯燥。仔细想来,早上起床之后就要到公司,晚上回去吃个饭刷会视频散个步也就要睡觉了,周而复始不断循环,我想,终究会有一天觉得枯燥吧。长辈们往往喜欢成人之美,认为解决枯燥的秘诀在于恋爱,认为只要有了另一半生活就会变得有趣,就连吵架也变成好事情了。
我倒是觉得,生活枯不枯燥跟此并无强相关联系,解决枯燥的秘诀在于开拓。多认识其他人,多去新的地方,多发展新的爱好,远比将希望置于另一人身上有用的多。一个 while true 和两个 while true 都是无限循环的,没有 break 再来几个 while true 也停不下来。(不过如果真有合适的那我就要双标了哈哈哈哈 😁)

这一年平平稳稳,却也发生了很多事情,在此做下记录吧:
2025/01:寒假留校两周,主要是研究 DB-GPT 的源码,知道它内部流程是什么,并且 DB-GPT 原本的智能体是没有历史记录功能的,我自己修改了代码,在源码基础上添加了此功能;
2025/02:过年回家休息,期间和老朋友吃饭聊天,痛痛快快;
2025/03:最忙碌的一月。月初搞智能体,月中做电力预测模型(原数据是一坨史),下旬又去公司。本月技术上升不多,牛马度提升很多。
2025/04:看源码水平进步最快的一集。4月14二进公司,在公司里师兄的带领下修改了dify源码,解决了原本workflow不能打包成工具的问题(耗时一周)。我自己都没想到居然真能改出来;
2025/05:整体比较平稳吧。重点看知识库处理的知识,顺带看了一点代码沙盒的东西(没学过Go,看得不是很深入);
2025/06:最沟槽的一月。本月度经典环节:SQL拼拼乐、报告叠叠乐、数据特征秘境探索奇妙冒险。话不多说,都是纯沟槽的活,搬砖搬到起红疹的一集,数据特征挖掘堪比通过品尝奥利奥逆向推测其配方;
2025/07~2025/08: 中规中矩,后台技术提升较多。这两月重点研究了RagFlow源码,还有mineru,以及知识库的优化手段。实际需求中发现文档聚类比较重要(方便之后的原数据过滤操作),如果按照“最大类别-大类别-小类别-文档名-文档切片内容”这几个类别分别查询再归纳,效果可能会更好。然后针对表数据直接 向量搜索 问题超大,当时是对表格做了额外的处理。
不过后台技术提升倒是挺多的,因为要搬ragflow的代码到后台,期间接触了师兄编写的脚手架,基础查表部分还有拦截器以及登录验证部分看的更多一点,很有收获。然后文件解析会耗费时间,我改成了异步解析。(中间考虑了文件解析后取消或删除,文件上传自动解析,系统关闭时解析进度保存等问题)
2025/09:在公司最后一月。因为广西中烟的需求,又接触了TextToSQL,只能说准确率有限。月底带同门好基友二度华为杯数模,拿了保底国三🤗。
2025/10:本月重回实验室,弄了服装智能体,整体没花多长时间。中间接触了一下comfyUI,草率了解了一下现在实验室用了哪些模型,大概能做什么事情。因为不打算做这个方向,师兄也说要知道原理要花很长很长时间,难度较大,后续就没有深入了解了。后面主要在思考小论文的方向问题。
2025/11~2025/12:在师兄的帮助下明确了研究方向,然后就是找baseline,找创新点,周末偷卡跑实验。我自己的目标就是达到毕业标准就行,所以baseline尽可能找顶会顶刊的开源代码(复现概率高)。然后再找相关的其他论文找创新点,看能不能融合。基本上是12月上旬实验结束,中下旬开始写文章。实验结束摆烂了一周,训练模型确实是很伤神经。
总的来说,今年是 平稳、沟槽、喜悦又饶有收获的一年。当然也是懒惰的一年,今年属实没写多少博客,完事儿这域名还得35块一年,也许这就是对懒狗的神罚吧哈哈。

- 标题: goodbye 2025——年度报告
- 作者: fanz
- 创建于 : 2025-12-31 14:36:14
- 更新于 : 2025-12-31 16:58:53
- 链接: https://redefine.ohevan.com/t84fof/
- 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。