百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术分类 > 正文

周六日任务安排表(共16小时)尝试搭建本地知识库

ztj100 2025-03-30 00:18 14 浏览 0 评论


周六(Day 1:8小时)

目标:完成基础环境搭建与数据预处理

时间段

任务

具体步骤

交付物

技术提示

9:00-10:30

环境检查与依赖安装

1. 确认DeepSeek模型可正常加载(python -c "import transformers; print('OK'))
2. 安装必要库:
pip install faiss-cpu sentence-transformers fastapi gradio PyPDF2
3. 创建项目目录结构:
mkdir -p data/{raw,processed} models

环境检查清单
依赖列表

使用virtualenv创建独立环境,避免包冲突

10:30-12:30

样例数据准备与清洗

1. 准备3-5个测试文档(PDF+Markdown)存放到data/raw
2. 编写通用解析脚本:
python
# file_parser.py
def parse_file(path):
if path.endswith('.pdf'):
return extract_text_from_pdf(path) # 复用昨日代码
elif path.endswith('.md'):
return open(path).read()

测试数据集
解析脚本

使用chardet检测文件编码,避免乱码

14:00-16:00

文本分块与向量化

1. 实现动态分块逻辑:
python
from langchain.text_splitter import
RecursiveCharacterTextSplitter
splitter =
RecursiveCharacterTextSplitter(
chunk_size=500,
chunk_overlap=50
)
chunks = splitter.split_text(text)

2. 生成向量并保存:
python
import numpy as np
vectors = model.encode(chunks)
np.save('
data/processed/vectors.npy', vectors)

分块后的文本文件
向量文件

对中文长句优先按标点分块(句号、问号)

16:00-17:30

FAISS索引构建

1. 创建带ID映射的索引:
python
index = faiss.IndexIDMap(faiss.IndexFlatIP(384))
index.add_with_ids(vectors, np.arange(len(vectors)))

2. 实现增量添加接口:
python
def add_to_index(new_vecs):
start_id = index.ntotal
index.add_with_ids(new_vecs, np.arange(start_id, start_id+len(new_vecs)))

FAISS索引文件

使用IndexIDMap为后续增量更新留出扩展空间


周日(Day 2:8小时)

目标:实现问答接口与基础UI

时间段

任务

具体步骤

交付物

技术难点预警

9:00-11:00

DeepSeek问答接口开发

1. 封装RAG核心逻辑:
python
def generate_answer(question):
# 检索逻辑...
# 构造prompt模板
prompt = f"已知:{context}\n问题:{question}\n答案:"
# 模型生成
return model.generate(prompt, max_length=1024)

2. 添加流式输出支持:
python
for token in model.stream_generate(prompt):
print(token, end='', flush=True)

RAG核心模块

注意控制max_length防止内存溢出

11:00-12:30

FastAPI服务封装

1. 创建基础API端点:
python
# main.py
from fastapi import FastAPI
app = FastAPI()
@app.post("/ask")
def ask_endpoint(question: str):
return {"answer": generate_answer(question)}

2. 添加跨域支持:
pip install fastapi.middleware.cors

可运行的API服务

使用uvicorn部署:
uvicorn main:app --reload --port 8000

14:00-15:30

Gradio交互界面开发

1. 实现基础UI:
python
# ui.py
import gradio as gr
with gr.Blocks() as demo:
question = gr.Textbox(label="请输入问题")
answer = gr.Textbox(label="系统回答")
btn = gr.Button("提交")
btn.click(fn=generate_answer, inputs=question, outputs=answer)
demo.launch()

可交互的Web界面

设置queue()处理并发请求

15:30-17:00

端到端测试与优化

1. 验证完整流程:
- 上传新文档 → 解析 → 索引更新 → 问答测试
2. 性能压测:
ab -n 100 -c 10 http://localhost:8000/ask?question=test
3. 内存优化:
- 添加del vectors及时释放内存

测试报告
优化方案

使用memory_profiler监控内存使用

17:00-17:30

文档整理与下周计划

1. 编写操作手册(README.md)
2. 记录未解决问题清单
3. 制定迭代计划

项目文档

使用typora编写Markdown文档


关键风险应对预案

  1. 内存不足导致崩溃
  2. 应急方案:启用交换分区 sudo fallocate -l 4G /swapfile && sudo mkswap /swapfile && sudo swapon /swapfile
  3. 根治措施:限制分块大小(调整为300字符/块)
  4. FAISS索引加载失败
  5. 检查索引版本兼容性:faiss.__version__需与创建时一致
  6. 重建命令:python -c "import faiss; faiss.write_index(index, 'backup.index')"
  7. 中文乱码问题
  8. 统一编码:在解析时强制指定encoding='utf-8'
  9. 异常捕获:
try: text = open(file).read() except UnicodeDecodeError: text = open(file, encoding='gbk').read()

成果验收标准

模块

检查项

验证方法

数据预处理

能正确解析PDF/Markdown并输出干净文本

执行python test_parser.py查看日志

向量检索

输入相似问题能返回相关度TOP3的文档块

人工验证检索结果相关性

问答接口

API响应时间<5秒(无缓存情况下)

使用curl测试并记录响应时间

用户界面

可输入问题并显示带格式的回答

屏幕录制操作过程


按照此计划执行,周末结束时将获得一个可本地运行的知识问答原型系统。建议每完成一个阶段立即commit代码(git commit -m "feat:完成XX模块"),便于问题追溯。

相关推荐

使用 Pinia ORM 管理 Vue 中的状态

转载说明:原创不易,未经授权,谢绝任何形式的转载状态管理是构建任何Web应用程序的重要组成部分。虽然Vue提供了管理简单状态的技术,但随着应用程序复杂性的增加,处理状态可能变得更具挑战性。这就是为什么...

Vue3开发企业级音乐Web App 明星讲师带你学习大厂高质量代码

Vue3开发企业级音乐WebApp明星讲师带你学习大厂高质量代码下栽课》jzit.top/392/...

一篇文章说清 webpack、vite、vue-cli、create-vue 的区别

webpack、vite、vue-cli、create-vue这些都是什么?看着有点晕,不要怕,我们一起来分辨一下。...

超赞 vue2/3 可视化打印设计VuePluginPrint

今天来给大家推荐一款非常不错的Vue可拖拽打印设计器Hiprint。引入使用//main.js中引入安装import{hiPrintPlugin}from'vue-plugin-...

搭建Trae+Vue3的AI开发环境(vue3 ts开发)

从2024年2025年,不断的有各种AI工具会在自媒体中火起来,号称各种效率王炸,而在AI是否会替代打工人的话题中,程序员又首当其冲。...

如何在现有的Vue项目中嵌入 Blazor项目?

...

Vue中mixin怎么理解?(vue的mixins有什么用)

作者:qdmryt转发链接:https://mp.weixin.qq.com/s/JHF3oIGSTnRegpvE6GSZhg前言...

Vue脚手架安装,初始化项目,打包并用Tomcat和Nginx部署

1.创建Vue脚手架#1.在本地文件目录创建my-first-vue文件夹,安装vue-cli脚手架:npminstall-gvue-cli安装过程如下图所示:创建my-first-vue...

新手如何搭建个人网站(小白如何搭建个人网站)

ElementUl是饿了么前端团队推出的桌面端UI框架,具有是简洁、直观、强悍和低学习成本等优势,非常适合初学者使用。因此,本次项目使用ElementUI框架来完成个人博客的主体开发,欢迎大家讨论...

零基础入门vue开发(vue快速入门与实战开发)

上面一节我们已经成功的安装了nodejs,并且配置了npm的全局环境变量,那么这一节我们就来正式的安装vue-cli,然后在webstorm开发者工具里运行我们的vue项目。这一节有两种创建vue项目...

.net core集成vue(.net core集成vue3)

react、angular、vue你更熟悉哪个?下边这个是vue的。要求需要你的计算机安装有o.netcore2.0以上版本onode、webpack、vue-cli、vue(npm...

使用 Vue 脚手架,为什么要学 webpack?(一)

先问大家一个很简单的问题:vueinitwebpackprjectName与vuecreateprojectName有什么区别呢?它们是Vue-cli2和Vue-cli3创建...

vue 构建和部署(vue项目部署服务器)

普通的搭建方式(安装指令)安装Node.js检查node是否已安装,终端输入node-v会使用命令行(安装)npminstallvue-cli-首先安装vue-clivueinitwe...

Vue.js 环境配置(vue的环境搭建)

说明:node.js和vue.js的关系:Node.js是一个基于ChromeV8引擎的JavaScript运行时环境;类比:Java的jvm(虚拟机)...

vue项目完整搭建步骤(vuecli项目搭建)

简介为了让一些不太清楚搭建前端项目的小白,更快上手。今天我将一步一步带领你们进行前端项目的搭建。前端开发中需要用到框架,那vue作为三大框架主流之一,在工作中很常用。所以就以vue为例。...

取消回复欢迎 发表评论: