一直很好奇 Mineru 中 pipeline 模式下,跨页的段落是怎么合并的,看了一下代码,简单了解下 相关文件位置: mineru/backend/pipeline/model_json_to_middle_json.py > mineru/backend/pipeline/para_split.py 跨页合并操作是在将model_json转换成middle_json的过程中实...
又是时隔好久的更新,这阵子忙于论文,每天画图写文章实在烧脑…一晃一个月又快要结束了呢…好在今天终于算是勉强完活投稿,希望能中!😁😁😁 好不容易有时间抽空写写博客,打开 Obsidian 的时候差点傻眼,Banners 插件显示封面变小偏左,起初以为是 Banners 插件的原因,去 github 官网发现此插件已经快三年没更新了;又看了一下 Obsidian 的更新日志,果然是最近一周...
自 2024/07/01 进组以来,再过几小时就算是刚刚好好进组一年半了!(🥰🥰🥰)不过会想起这一年,过的真挺快的,或许是在公司待了半年的缘故?或许是习惯了现在的生活?或许是我真的上了年纪了吗?😂 直到现在,我也总觉得昨天还是 3 月份刚宣布需要去公司的那一天。算下来,真的是从进组到现在,几乎每天都在干活(天选狂奔牛马体质),刚进组两天就开始正式做大模型开发,暑假两月从实体提取-&g...
grounding_dino 是 23 年就已经推出的多模态目标检测模型,和过去的 Yolo 系列模型不同的是,YoloV 系列模型只能支持按固定的训练类别进行目标检测(Yolo World 现在也可以支持抽象文本),而 grounding dino 可以支持用户输入抽象文本(比如“the bottle handed by the man who worn white T-shirt”)进行...
今年 Google 在大模型上的进展着实很令人惊叹,去年诸神大战的时候 Gemini 一直不温不火的,但是自从 gemini2.5 以来发生了很大改变,我自己用了一个多月的 gemini-2.5,个人体验觉得非常不错(尤其是 gemini-2.5-flash,个人感觉是真快啊!),在编写代码方面个人感觉略强于 grok3,显著强于 qwen3。 简单介绍 Gemini-cli 是 Goog...
更换起因:今天早上师兄看到服务器上 weaviate 一直占用着大量的 cpu 资源,但是也不清楚它到底在干什么,正好上次探索 RAG 之后项目开始使用 milvus 了,师兄就说要不直接也把 dify 换成 milvus 好了。 查看了一下官方文档:Dify:迁移 Weaviate 向量数据到其他向量数据库,发现步骤并不复杂,其实就是更新一下.env 文件还有 docker-compose...
1. dify的rag流程 dify内置的rag比较简单,主要流程如下所示: 2.Extractor 文件内容提取器 提取文件的内容。对于doc、pdf、excel、csv、markdown等不同格式的文件,使用不同的方式提取文件内容。目前存在两类解析方案: 基于 Unstructured 的文件解析方案,支持接入付费的 Unstructured 服务,部分的格式解析只有付费版本才支...
1.dify工作流运行流程 我发现调用的流程大概是这样的: 1234567891011121314151617181920212223workflowAppRunner.run() -> workflow_entry.run() -> GraphEngine.run() { if 流程类型 is CHAT: 使用AnswerStr...
~~好久没写博客了,自从上月去导师公司体验早九晚五的工作生活之后,每天回来就想开躺,Obsidian都懒得开了(在此为我的懒惰道歉😭)。 不过总体说来,这一个月在项目架构、打包部署方面收获还是挺多,之前干的活基本都是堆屎造梦,当发生改动的时候很可能要修改很多东西,甚至是要重写。这一个月以来主要是对之前项目进行解耦,提前约定好各个模块的输入和输出格式,每个人可以先做自己的模块,然后我再负责整...