Data Augmentation Kit简介
Data Augmentation Kit(数据增强套件)提供知识库、知识检索、RAG(检索增强生成)、端侧问答模型能力,打造个性化智慧数据平台,实现个性化智慧体验。
能力范围
Data Augmentation Kit提供以下能力:
- RAG(检索增强生成):提供一种结合检索与生成技术的自然语言处理技术,通过动态从外部知识库中检索相关信息,辅助生成更准确、可靠的文本内容。其核心目标是弥补传统生成模型依赖静态知识的不足,实现“知识实时调用”与“内容灵活生成”的融合。
- 智慧化数据检索:基于多路召回和重排序,提供了一套知识检索框架。在提供基于倒排索引的传统文本检索的同时,也提供了基于向量索引的语义检索能力。
- 端侧问答模型:提供接入端侧模型问答的方法,以及使用鸿蒙AI模型管家对接LLM,对用户问题进行处理的过程,实现数据不出端智能问答的效果。
优势/亮点
RAG(检索增强生成)
- 知识实时性:无需重新训练模型即可动态更新知识库,适用于新闻、政策等高频变化领域。
- 可信度增强:生成内容基于检索结果,减少模型“幻觉”(虚构信息),支持答案溯源。
- 灵活适配:同一模型可快速切换不同领域知识库,降低跨场景部署成本。
- 长尾问题覆盖:通过外挂知识库补充模型未训练到的细分领域知识。
智慧化数据检索
- 智慧化数据构建:将应用数据通过加工转换为知识,加工后的知识存储在倒排数据库、向量数据库、图数据库等存储引擎中。
- 智慧化数据检索:针对图片、文本等多种数据或多种数据库的融合查询,支持条件过滤、语义理解的复杂数据检索场景。通过多路召回和重排两个阶段实现。
- 基于RAG的知识问答:将检索和大模型生成技术结合,通过动态检索外部知识库中的信息,提高大模型回答问题的准确性,降低大模型的“幻觉”(虚构信息)。
接入端侧问答模型
- 接入端侧问答模型:应用可以选择使用端侧问答模型,可实现数据处理不出端,用户安全隐私有保障。
基本概念
- LLM:Large Language Model(大语言模型)是一种基于深度学习的人工智能模型,通过在海量文本数据上训练,掌握语言规律,能够理解和生成人类语言。
- chunk:chunk是知识加工时,文本被拆分后的逻辑或结构单元,目前一个chunk默认包含3072个字符(1个字符指1个汉字或1个英文字母)。
- 检索召回:通过一种特定的策略或算法从海量数据中快速筛选出候选结果集。
约束与限制
支持的国家/地区
Data Augmentation Kit仅支持中国境内(香港特别行政区、澳门特别行政区、中国台湾除外)。
支持的设备
本Kit适用设备情况如下。
| 能力 | 约束 |
|---|---|
| RAG(检索增强生成) | 支持PC/2in1设备类型。 |
| 智慧化数据检索 | 支持Phone、PC/2in1、Tablet设备类型。 |
| 端侧问答模型 | 支持PC/2in1设备类型。 |
模拟器支持情况
本Kit暂不支持模拟器。