【强力推荐】GitCode AI开源搜索,面向开发者的专业AI搜索-程序员宅基地

技术标签: 语言模型  GitCode  人工智能  RAG  开源  gitcode  

一、GitCode AI开源搜索是什么?

GitCode AI开源搜索 是面开发者的 AI 开源搜索工具,目的是为了帮助开发者快速寻找开源项目代码、解决开发问题和快速寻找答案,帮助开发者提升效率的同时利用代码仓托管能力建立自己个人知识库。

二、GitCode AI开源搜索的技术核心原理介绍

说到AI搜索引擎,首先要区分下传统的搜索能力和AI搜索能力。

  • 传统搜索,通常使用基于关键词的算法,如布尔搜索或TF-IDF,这些算法只考虑文档中的关键词出现频率,而不考虑文档的主题或语义。这导致搜索结果可能不是最相关的,而是基于单个关键词的匹配。
  • AI搜索,使用机器学习和自然语言处理技术,可以更好地理解用户意图和查询语句的语义。它可以通过深度学习模型,如BERT和GPT-3,来生成更准确的搜索结果,并提供更具体和个性化的响应。

随着大模型的迅速发展,各个搜索引擎都接入了模型搜索能力,如百度的文心一言和必应的ChatGPT等等,但语言模型不知道训练集之外的知识(例如搜索数据、行业的 knowledge ),因此引入了RAG框架。

1. RAG是什么?

Retrieval Augmented Generation (检索增强生成),能让语言模型使用外部知识( external knowledge )进行生成,我们可以把要让模型理解的新知识通过 prompt 的方式给到模型。

RAG 框架是由 3 个部分组成的:

  • 语言模型,如ChatGPT、Llama、DeepSeek、千问等等
  • 模型所需要的外部知识集合(以 vector 的形式存储,如开发者领域内容)
  • 当前场景下需要的外部知识(以prompt上下文分装传递给模型)

通过下面示例可看到RAG框架的两个效果:

  1. RAG是什么?

文心一言的回答结果
GitCode AI回答结果
显然,在开发者领域通过RAG知识加入后,GitCode的答案是用户想得到的。

2)kafka是什么?
问心一言的回答结果
GitCode AI的回答结果
显然,GitCode AI能够在kafka开源项目的知识内容加持下回答的结果更全面,包括kafka的代码展示等等

3) GitCode是什么?
这类有实效性或者内部知识的案例,在RAG知识外挂的模式下可以让语言模型准确的回答用户。
GitCode Ai的回答结果

上述三个例子和生成效果充分的印证了RAG框架下的大模型问答效果。

2. GitCode是如何构建RAG框架?

  1. GitCode AI搜索 是使用 embedding + 传统的 relation db + Elasticsearch方式构建。
  2. embedding 本质上就是把数据转化为向量,然后通过余弦相似度来找到最匹配的两个或多个向量。即knowledge -> chunks -> vector user query -> vector的过程
  3. GitCode整套知识体系包括:
  • CSDN全部的博文和文档数据
  • GitCode的项目和代码数据

3. 如何评估RAG框架的效果呢?

通常通过以下4个指标来评估效果:

指标 定义
fluency 流畅性,生成的文本是否流畅连贯
perceived utility 实用性,生成的内容是否有用
citation recall 引文召回率,所生成的内容完全得到引文支持的比例
citation precision 引文精度,引文中支持生成内容的比例

三、GitCode AI搜索功能介绍

GitCode AI开源搜面向开发者快速解决问题为初衷设计,因此产品特性中包括:

  • AI问答,能够在开发者和开源领域快速回答问题,包括连续提问场景。
  • 搜索记录,能够帮助用户记录问题和回复,能够快速寻找历史问题
  • 相关问题,能够帮助用户联想和提示出相关知识点和问题,帮助用户更准确的提出问题。
  • 个人知识库,能够帮助用户收藏和保存问题文档,以markdown格式存储在个人的代码仓中,建立个人专属的知识库和个人AI知识模型
  • 开源项目,帮助开发者快速寻找开源项目,下载和体验开源项目

另外,GitCode AI搜索对未登录用户开放,核心目的是为了快速帮助开发者解决问题和提升效率。

AI问答
Ai问答

  • 功能上支持连续问答和重新生成答案,在右侧可快速点击相关项目和技术文章
  • 体验上,渲染流畅性上较之前版本有很大提升,首字母渲染时间可维持在1秒以,渲染答案上未存在卡顿。

搜索记录
在这里插入图片描述
登录用户可以在搜索记录中快速寻找之前搜索的问题和答案

相关问题
在这里插入图片描述
用户提出问题后会生成5个相关问题,可以快速点击后连续提问,帮助用户解决问题。

个人知识库
用户可以通过个人知识库收集、整理和连接自己的知识碎片,并基于开源大模型构建个性化的知识体系,提升工作、学习效率和效果。建立个人知识体系的同时,后续可只在个人知识库内搜索,返回结果更准确。
创建个人知识库
保存知识点
个人知识库代码库
开源项目
开源项目搜索
在这里插入图片描述
开源项目中包括项目快速下载、快速启动命令展示和发行版等信息。

四、GitCode AI搜索后续计划

规划 内容
个人知识库建设 可导入CSDN收藏夹内容和浏览器收藏内容,建立完整个人知识仓库
个人专属AI搜索 在个人知识库中检索,依然是RAG+大模型能,建立个人专属AI搜索能力
开源项目AI能力增强 能够在单项目下检索和建立AI搜索能力

快速体验

GitCode AI开源搜索

意见反馈

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/csdn_codechina/article/details/135443572

智能推荐

AndroidStudio无代码高亮解决办法_android studio 高亮-程序员宅基地

文章浏览阅读2.8k次。AndroidStudio 升级到 4.2.2 版本后,没有代码高亮了,很蛋疼。解决办法是:点开上方的 File,先勾选 Power Save Mode 再取消就可以了。_android studio 高亮

swift4.0 valueForUndefinedKey:]: this class is not key value coding-compliant for the key unity.'_forundefinedkey swift4-程序员宅基地

文章浏览阅读1k次。使用swift4.0整合Unity出现[ valueForUndefinedKey:]: this class is not key value coding-compliant for the key unity.'在对应属性前加@objc 即可。或者调回swift3.2版本_forundefinedkey swift4

Spring Security2的COOKIE的保存时间设置_springsecurity 设置cookie失效时间-程序员宅基地

文章浏览阅读1.3k次。http auto-config="true" access-denied-page="/common/403.htm"> intercept-url pattern="/login.**" access="IS_AUTHENTICATED_ANONYMOUSLY"/> form-login login-page="/login.jsp" defau_springsecurity 设置cookie失效时间

view滑动冲突解决实战篇2(外部拦截法)_viewpage2外部拦截事件-程序员宅基地

文章浏览阅读1.1k次。继上篇内部拦截法需求还是跟上篇一样。只不过这次用外部拦截法来解决;只要在父容器添加如下代码就可以解决了滑动冲突,很简单,套模板就行 // 分别记录上次滑动的坐标(onInterceptTouchEvent) private int mLastXIntercept = 0; private int mLastYIntercept = 0; @Override public bo_viewpage2外部拦截事件

汇编 堆栈 变量存储 指针_汇编语言栈指针-程序员宅基地

文章浏览阅读2.5k次,点赞7次,收藏9次。本文章系作者原创,未经许可,不得转载。汇编 堆栈 变量存储 指针先说栈的概念,栈其实也是一种。。。。。先说内存的概念吧。。。。。额 先说计算机吧,简单来说的话,可以把计算机理解成由CPU,内存,硬盘组成,而CPU内部又包括一种叫做内部寄存器的东西,包括 数据寄存器: AX,BX,CX,DX; 段寄存器: CS,DS,ES,SS; 指针与变址寄存器SP,BP,SI,DI; ..._汇编语言栈指针

架构师之路:从码农到架构师你差了哪些_web架构师-程序员宅基地

文章浏览阅读1w次,点赞14次,收藏56次。转载自 架构师之路:从码农到架构师你差了哪些 Web应用,最常见的研发语言是Java和PHP。 后端服务,最常见的研发语言是Java和C/C++。 大数据,最常见的研发语言是Java和Python。 可以说,Java是现阶段中国互联网公司中,覆盖度最广的研发语言,掌握了Java技术体系,不管在成熟的大公司,快速发展的公司,还是创业阶段的公司,都能有立足之地。有..._web架构师

随便推点

超级简单的Python爬虫入门教程(非常详细),通俗易懂,看一遍就会了_爬虫python入门-程序员宅基地

文章浏览阅读7.3k次,点赞6次,收藏36次。超级简单的Python爬虫入门教程(非常详细),通俗易懂,看一遍就会了_爬虫python入门

python怎么输出logistic回归系数_python - Logistic回归scikit学习系数与统计模型的系数 - SO中文参考 - www.soinside.com...-程序员宅基地

文章浏览阅读1.2k次。您的代码存在一些问题。首先,您在此处显示的两个模型是not等效的:尽管您将scikit-learn LogisticRegression设置为fit_intercept=True(这是默认设置),但您并没有这样做statsmodels一;来自statsmodels docs:默认情况下不包括拦截器,用户应添加。参见statsmodels.tools.add_constant。另一个问题是,尽管您处..._sm fit(method

VS2017、VS2019配置SFML_vsllfqm-程序员宅基地

文章浏览阅读518次。一、sfml官网下载32位的版本 一样的设置,64位的版本我没有成功,用不了。二、三、四以下这些内容拷贝过去:sfml-graphics-d.libsfml-window-d.libsfml-system-d.libsfml-audio-d.lib..._vsllfqm

vc——类似与beyondcompare工具的文本比较算法源代码_byoned compare 字符串比较算法-程序员宅基地

文章浏览阅读2.7k次。由于工作需要,要做一个类似bc2的文本比较工具,用红色字体标明不同的地方,研究了半天,自己写了一个简易版的。文本比较的规则是1.先比较文本的行数,2.再比较对应行的字符串的长度3.再比较每一个字符串是否相同。具体代码如下:其中m_basestr和m_mergestr里面存放是待比较的字符串int basecount=m_basestr.GetLength(); int mergec_byoned compare 字符串比较算法

aetna java_pom.xml-程序员宅基地

文章浏览阅读79次。xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 https://maven.apache.org/maven-v4_0_0.xsd">org.apacheapache174.0.0org.apache.atlasapache-atlas3.0.0-SNAPSHOTMetadata Management and Data Govern..._atlas.pom

生成随机数_<math.h>随机数-程序员宅基地

文章浏览阅读1.5k次。C语言中有可以产生随机数据的函数,需要添加 stdlib. h头文件与time.h头文件。首先在main函数开头加上“ srand(unsigned)time(NULL));",这个语句将生成随机数的种子(不懂也没关系,只要记住这个语句,并且知道 srand是初始化随机种子用的即可)。然后,在需要使用随机数的地方使用 rand()函数。下面是一段生成十个随机数的代码:程序代码:#incl..._随机数