跳到主要内容

Data Augmentation Kit简介

Data Augmentation Kit(数据增强套件)提供知识库、知识检索、RAG(检索增强生成)、端侧问答模型能力,打造个性化智慧数据平台,实现个性化智慧体验。

能力范围

Data Augmentation Kit提供以下能力:

  • RAG(检索增强生成):提供一种结合检索与生成技术的自然语言处理技术,通过动态从外部知识库中检索相关信息,辅助生成更准确、可靠的文本内容。其核心目标是弥补传统生成模型依赖静态知识的不足,实现“知识实时调用”与“内容灵活生成”的融合。
  • 智慧化数据检索:基于多路召回和重排序,提供了一套知识检索框架。在提供基于倒排索引的传统文本检索的同时,也提供了基于向量索引的语义检索能力。
  • 端侧问答模型:提供接入端侧模型问答的方法,以及使用鸿蒙AI模型管家对接LLM,对用户问题进行处理的过程,实现数据不出端智能问答的效果。

优势/亮点

RAG(检索增强生成)

  • 知识实时性:无需重新训练模型即可动态更新知识库,适用于新闻、政策等高频变化领域。
  • 可信度增强:生成内容基于检索结果,减少模型“幻觉”(虚构信息),支持答案溯源。
  • 灵活适配:同一模型可快速切换不同领域知识库,降低跨场景部署成本。
  • 长尾问题覆盖:通过外挂知识库补充模型未训练到的细分领域知识。

智慧化数据检索

  • 智慧化数据构建:将应用数据通过加工转换为知识,加工后的知识存储在倒排数据库、向量数据库、图数据库等存储引擎中。
  • 智慧化数据检索:针对图片、文本等多种数据或多种数据库的融合查询,支持条件过滤、语义理解的复杂数据检索场景。通过多路召回和重排两个阶段实现。
  • 基于RAG的知识问答:将检索和大模型生成技术结合,通过动态检索外部知识库中的信息,提高大模型回答问题的准确性,降低大模型的“幻觉”(虚构信息)。

接入端侧问答模型

  • 接入端侧问答模型:应用可以选择使用端侧问答模型,可实现数据处理不出端,用户安全隐私有保障。

基本概念

  • LLM:Large Language Model(大语言模型)是一种基于深度学习的人工智能模型,通过在海量文本数据上训练,掌握语言规律,能够理解和生成人类语言。
  • chunk:chunk是知识加工时,文本被拆分后的逻辑或结构单元,目前一个chunk默认包含3072个字符(1个字符指1个汉字或1个英文字母)。
  • 检索召回:通过一种特定的策略或算法从海量数据中快速筛选出候选结果集。

约束与限制

支持的国家/地区

Data Augmentation Kit仅支持中国境内(香港特别行政区、澳门特别行政区、中国台湾除外)。

支持的设备

本Kit适用设备情况如下。

能力约束
RAG(检索增强生成)支持PC/2in1设备类型。
智慧化数据检索支持Phone、PC/2in1、Tablet设备类型。
端侧问答模型支持PC/2in1设备类型。

模拟器支持情况

本Kit暂不支持模拟器。