LLMLingua成本优化终极指南:如何在GPT-4中节省90%费用

张开发
2026/6/8 22:56:36 15 分钟阅读
LLMLingua成本优化终极指南:如何在GPT-4中节省90%费用
LLMLingua成本优化终极指南如何在GPT-4中节省90%费用【免费下载链接】LLMLingua[EMNLP23, ACL24] To speed up LLMs inference and enhance LLMs perceive of key information, compress the prompt and KV-Cache, which achieves up to 20x compression with minimal performance loss.项目地址: https://gitcode.com/gh_mirrors/ll/LLMLinguaLLMLingua是一款由微软开发的高效提示词压缩工具能够在保持关键信息完整的前提下显著减少输入到大型语言模型如GPT-4的文本长度从而大幅降低API调用成本并提升处理速度。通过先进的压缩算法LLMLingua可实现高达20倍的压缩率同时确保模型性能损失最小化特别适合需要处理长文本的RAG、会议记录分析等场景。为什么需要LLMLingua随着GPT-4等大语言模型的广泛应用API调用成本已成为许多企业和开发者的主要负担。以GPT-4的定价为例每1000 tokens输入费用为0.03美元对于包含大量上下文的长提示词单次调用成本可能高达数美元。LLMLingua通过智能压缩技术能够在保留核心信息的同时减少80%-90%的tokens直接将成本降低一个数量级。LLMLingua的工作框架展示了如何通过预算控制、分布对齐和迭代压缩实现高效提示词优化核心技术三种压缩方案满足不同需求1. 基础版LLMLingua轻量级快速压缩基础版LLMLingua采用迭代式token级压缩适用于大多数日常场景。通过设置目标压缩率或目标token数即可快速获得压缩结果from llmlingua import PromptCompressor llm_lingua PromptCompressor() compressed_prompt llm_lingua.compress_prompt( prompt, instruction, question, target_token200 # 目标压缩到200 tokens )压缩结果会返回原始tokens数、压缩后tokens数、压缩比以及预计节省的GPT-4费用让成本优化效果一目了然。2. LongLLMLingua长文本场景的最佳选择针对超过10,000 tokens的超长文本LongLLMLingua引入了两阶段压缩和文档重排技术解决了传统压缩在长上下文场景中信息丢失的问题LongLLMLingua在不同信息位置下的性能表现即使关键信息位于文档中间仍能保持高准确率关键参数配置compressed_prompt llm_lingua.compress_prompt( prompt_list, questionquestion, ratio0.55, condition_in_questionafter_condition, # 问题感知压缩 reorder_contextsort, # 文档重排优化 dynamic_context_compression_ratio0.3 # 动态压缩率 )3. LLMLingua-2基于数据蒸馏的精准压缩LLMLingua-2通过数据蒸馏技术从大型模型中提取压缩知识实现了更高压缩率下的性能保持。特别适合需要保留特定格式或关键标记的场景LLMLingua-2的数据蒸馏流程通过四步实现从原始文本到高效压缩的转换使用示例llm_lingua PromptCompressor( model_namemicrosoft/llmlingua-2-bert-base-multilingual-cased-meetingbank, use_llmlingua2True, ) compressed_prompt llm_lingua.compress_prompt( prompt, rate0.33, # 保留33%的内容 force_tokens[\n, ?] # 强制保留换行和问号 )5分钟快速上手安装与基础使用安装步骤通过pip即可快速安装LLMLinguapip install llmlingua如需使用量化模型如仅需8GB GPU内存的Llama-2-7b-Chat-GPTQ还需安装额外依赖pip install optimum auto-gptq基础压缩示例以下是一个完整的压缩示例展示如何将2365 tokens的原始提示词压缩至211 tokens实现11.2倍压缩from llmlingua import PromptCompressor # 初始化压缩器 llm_lingua PromptCompressor() # 压缩提示词 result llm_lingua.compress_prompt( promptQuestion: Sam bought a dozen boxes, each with 30 highlighter pens inside, for $10 each box..., target_token200 ) print(f压缩前tokens: {result[origin_tokens]}) print(f压缩后tokens: {result[compressed_tokens]}) print(f压缩比: {result[ratio]}) print(f预计节省: {result[saving]})高级应用结构化数据压缩与框架集成结构化提示词压缩LLMLingua支持通过特殊标签对提示词进行分段压缩精确控制不同部分的压缩率structured_prompt llmlingua, compressFalseSpeaker 4:/llmlingua llmlingua, rate0.4 Thank you. And can we do the functions for content?.../llmlingua compressed_prompt llm_lingua.structured_compress_prompt(structured_prompt, rate0.5)JSON数据压缩针对JSON格式数据LLMLingua可通过配置文件指定每个字段的压缩策略json_config { id: {rate: 1, compress: False}, biography: {rate: 0.3, compress: True} } compressed_data llm_lingua.compress_json(json_data, json_config)与主流框架集成LLMLingua已无缝集成到LangChain和LlamaIndex等流行RAG框架中LangChain集成from langchain.retrievers import ContextualCompressionRetriever from langchain_community.retrievers.document_compressors import LLMLinguaCompressor compressor LLMLinguaCompressor(model_nameopenai-community/gpt2) compression_retriever ContextualCompressionRetriever( base_compressorcompressor, base_retrieverretriever )LlamaIndex集成from llama_index.indices.postprocessor import LongLLMLinguaPostprocessor node_postprocessor LongLLMLinguaPostprocessor( target_token300, rank_methodlongllmlingua, additional_compress_kwargs{reorder_context: sort} )实际案例会议记录分析成本优化某企业需要使用GPT-4分析2小时的会议记录约8000 tokens原始调用成本约为0.24美元。使用LongLLMLingua压缩后压缩后tokens80010倍压缩压缩后成本0.024美元单次节省0.216美元月节省按200次分析计算43.2美元通过examples/OnlineMeeting.ipynb中的完整示例可快速实现会议记录的自动摘要和关键信息提取同时将成本降低90%。总结LLMLingua带来的核心价值成本显著降低最高可达90%的API费用节省直接提升AI应用的ROI性能保持通过智能压缩算法在大幅减少tokens的同时保持任务准确率易于集成提供简洁API和主流框架支持5分钟即可完成集成场景广泛适用于RAG、会议分析、代码解释、长文档处理等多种场景无论是个人开发者还是企业用户LLMLingua都能帮助你在享受大语言模型能力的同时有效控制成本。立即通过examples目录中的教程开始你的成本优化之旅吧【免费下载链接】LLMLingua[EMNLP23, ACL24] To speed up LLMs inference and enhance LLMs perceive of key information, compress the prompt and KV-Cache, which achieves up to 20x compression with minimal performance loss.项目地址: https://gitcode.com/gh_mirrors/ll/LLMLingua创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

更多文章