使用SGLang推理框架部署DeepSeek-R1-Distill-Qwen-32B大模型,并与vLLM部署同类服务性能对比。

ReadMore »



基于英伟达triton-inference-server部署大模型做推理加速。

ReadMore »



由于用户原始查询可能是措辞不准确或缺少语义信息,LLM 难以理解并生成相关的结果,本文介绍了一些重要的Query 重写技术,如HyDE、Query2Doc等。

ReadMore »



本文介绍了GraphRAG通过引入知识图谱技术,改进了传统RAG的不足。它通过三元组抽取、子图召回和子图上下文生成,提供了更准确的知识检索和生成。

ReadMore »



本文详细介绍了RAPTOR、SELF-RAG和CRAG等优化算法,同时对一些RAG工程实践中的优化方法做了介绍,如文本切割、Query重写、混合检索等。

ReadMore »