百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术分类 > 正文

周六日任务安排表(共16小时)尝试搭建本地知识库

ztj100 2025-03-30 00:18 24 浏览 0 评论


周六(Day 1:8小时)

目标:完成基础环境搭建与数据预处理

时间段

任务

具体步骤

交付物

技术提示

9:00-10:30

环境检查与依赖安装

1. 确认DeepSeek模型可正常加载(python -c "import transformers; print('OK'))
2. 安装必要库:
pip install faiss-cpu sentence-transformers fastapi gradio PyPDF2
3. 创建项目目录结构:
mkdir -p data/{raw,processed} models

环境检查清单
依赖列表

使用virtualenv创建独立环境,避免包冲突

10:30-12:30

样例数据准备与清洗

1. 准备3-5个测试文档(PDF+Markdown)存放到data/raw
2. 编写通用解析脚本:
python
# file_parser.py
def parse_file(path):
if path.endswith('.pdf'):
return extract_text_from_pdf(path) # 复用昨日代码
elif path.endswith('.md'):
return open(path).read()

测试数据集
解析脚本

使用chardet检测文件编码,避免乱码

14:00-16:00

文本分块与向量化

1. 实现动态分块逻辑:
python
from langchain.text_splitter import
RecursiveCharacterTextSplitter
splitter =
RecursiveCharacterTextSplitter(
chunk_size=500,
chunk_overlap=50
)
chunks = splitter.split_text(text)

2. 生成向量并保存:
python
import numpy as np
vectors = model.encode(chunks)
np.save('
data/processed/vectors.npy', vectors)

分块后的文本文件
向量文件

对中文长句优先按标点分块(句号、问号)

16:00-17:30

FAISS索引构建

1. 创建带ID映射的索引:
python
index = faiss.IndexIDMap(faiss.IndexFlatIP(384))
index.add_with_ids(vectors, np.arange(len(vectors)))

2. 实现增量添加接口:
python
def add_to_index(new_vecs):
start_id = index.ntotal
index.add_with_ids(new_vecs, np.arange(start_id, start_id+len(new_vecs)))

FAISS索引文件

使用IndexIDMap为后续增量更新留出扩展空间


周日(Day 2:8小时)

目标:实现问答接口与基础UI

时间段

任务

具体步骤

交付物

技术难点预警

9:00-11:00

DeepSeek问答接口开发

1. 封装RAG核心逻辑:
python
def generate_answer(question):
# 检索逻辑...
# 构造prompt模板
prompt = f"已知:{context}\n问题:{question}\n答案:"
# 模型生成
return model.generate(prompt, max_length=1024)

2. 添加流式输出支持:
python
for token in model.stream_generate(prompt):
print(token, end='', flush=True)

RAG核心模块

注意控制max_length防止内存溢出

11:00-12:30

FastAPI服务封装

1. 创建基础API端点:
python
# main.py
from fastapi import FastAPI
app = FastAPI()
@app.post("/ask")
def ask_endpoint(question: str):
return {"answer": generate_answer(question)}

2. 添加跨域支持:
pip install fastapi.middleware.cors

可运行的API服务

使用uvicorn部署:
uvicorn main:app --reload --port 8000

14:00-15:30

Gradio交互界面开发

1. 实现基础UI:
python
# ui.py
import gradio as gr
with gr.Blocks() as demo:
question = gr.Textbox(label="请输入问题")
answer = gr.Textbox(label="系统回答")
btn = gr.Button("提交")
btn.click(fn=generate_answer, inputs=question, outputs=answer)
demo.launch()

可交互的Web界面

设置queue()处理并发请求

15:30-17:00

端到端测试与优化

1. 验证完整流程:
- 上传新文档 → 解析 → 索引更新 → 问答测试
2. 性能压测:
ab -n 100 -c 10 http://localhost:8000/ask?question=test
3. 内存优化:
- 添加del vectors及时释放内存

测试报告
优化方案

使用memory_profiler监控内存使用

17:00-17:30

文档整理与下周计划

1. 编写操作手册(README.md)
2. 记录未解决问题清单
3. 制定迭代计划

项目文档

使用typora编写Markdown文档


关键风险应对预案

  1. 内存不足导致崩溃
  2. 应急方案:启用交换分区 sudo fallocate -l 4G /swapfile && sudo mkswap /swapfile && sudo swapon /swapfile
  3. 根治措施:限制分块大小(调整为300字符/块)
  4. FAISS索引加载失败
  5. 检查索引版本兼容性:faiss.__version__需与创建时一致
  6. 重建命令:python -c "import faiss; faiss.write_index(index, 'backup.index')"
  7. 中文乱码问题
  8. 统一编码:在解析时强制指定encoding='utf-8'
  9. 异常捕获:
try: text = open(file).read() except UnicodeDecodeError: text = open(file, encoding='gbk').read()

成果验收标准

模块

检查项

验证方法

数据预处理

能正确解析PDF/Markdown并输出干净文本

执行python test_parser.py查看日志

向量检索

输入相似问题能返回相关度TOP3的文档块

人工验证检索结果相关性

问答接口

API响应时间<5秒(无缓存情况下)

使用curl测试并记录响应时间

用户界面

可输入问题并显示带格式的回答

屏幕录制操作过程


按照此计划执行,周末结束时将获得一个可本地运行的知识问答原型系统。建议每完成一个阶段立即commit代码(git commit -m "feat:完成XX模块"),便于问题追溯。

相关推荐

30天学会Python编程:16. Python常用标准库使用教程

16.1collections模块16.1.1高级数据结构16.1.2示例...

强烈推荐!Python 这个宝藏库 re 正则匹配

Python的re模块(RegularExpression正则表达式)提供各种正则表达式的匹配操作。...

Python爬虫中正则表达式的用法,只讲如何应用,不讲原理

Python爬虫:正则的用法(非原理)。大家好,这节课给大家讲正则的实际用法,不讲原理,通俗易懂的讲如何用正则抓取内容。·导入re库,这里是需要从html这段字符串中提取出中间的那几个文字。实例一个对...

Python数据分析实战-正则提取文本的URL网址和邮箱(源码和效果)

实现功能:Python数据分析实战-利用正则表达式提取文本中的URL网址和邮箱...

python爬虫教程之爬取当当网 Top 500 本五星好评书籍

我们使用requests和re来写一个爬虫作为一个爱看书的你(说的跟真的似的)怎么能发现好书呢?所以我们爬取当当网的前500本好五星评书籍怎么样?ok接下来就是学习python的正确姿...

深入理解re模块:Python中的正则表达式神器解析

在Python中,"re"是一个强大的模块,用于处理正则表达式(regularexpressions)。正则表达式是一种强大的文本模式匹配工具,用于在字符串中查找、替换或提取特定模式...

如何使用正则表达式和 Python 匹配不以模式开头的字符串

需要在Python中使用正则表达式来匹配不以给定模式开头的字符串吗?如果是这样,你可以使用下面的语法来查找所有的字符串,除了那些不以https开始的字符串。r"^(?!https).*&...

先Mark后用!8分钟读懂 Python 性能优化

从本文总结了Python开发时,遇到的性能优化问题的定位和解决。概述:性能优化的原则——优化需要优化的部分。性能优化的一般步骤:首先,让你的程序跑起来结果一切正常。然后,运行这个结果正常的代码,看看它...

Python“三步”即可爬取,毋庸置疑

声明:本实例仅供学习,切忌遵守robots协议,请不要使用多线程等方式频繁访问网站。#第一步导入模块importreimportrequests#第二步获取你想爬取的网页地址,发送请求,获取网页内...

简单学Python——re库(正则表达式)2(split、findall、和sub)

1、split():分割字符串,返回列表语法:re.split('分隔符','目标字符串')例如:importrere.split(',','...

Lavazza拉瓦萨再度牵手上海大师赛

阅读此文前,麻烦您点击一下“关注”,方便您进行讨论和分享。Lavazza拉瓦萨再度牵手上海大师赛标题:2024上海大师赛:网球与咖啡的浪漫邂逅在2024年的上海劳力士大师赛上,拉瓦萨咖啡再次成为官...

ArkUI-X构建Android平台AAR及使用

本教程主要讲述如何利用ArkUI-XSDK完成AndroidAAR开发,实现基于ArkTS的声明式开发范式在android平台显示。包括:1.跨平台Library工程开发介绍...

Deepseek写歌详细教程(怎样用deepseek写歌功能)

以下为结合DeepSeek及相关工具实现AI写歌的详细教程,涵盖作词、作曲、演唱全流程:一、核心流程三步法1.AI生成歌词-打开DeepSeek(网页/APP/API),使用结构化提示词生成歌词:...

“AI说唱解说影视”走红,“零基础入行”靠谱吗?本报记者实测

“手里翻找冻鱼,精心的布局;老漠却不言语,脸上带笑意……”《狂飙》剧情被写成歌词,再配上“科目三”背景音乐的演唱,这段1分钟30秒的视频受到了无数网友的点赞。最近一段时间随着AI技术的发展,说唱解说影...

AI音乐制作神器揭秘!3款工具让你秒变高手

在音乐创作的领域里,每个人都有一颗想要成为大师的心。但是面对复杂的乐理知识和繁复的制作过程,许多人的热情被一点点消磨。...

取消回复欢迎 发表评论: