共计 3411 个字符,预计需要花费 9 分钟才能阅读完成。
文章目录[隐藏]
随着大语言模型(LLMs)在各个领域的广泛应用,数据隐私和安全成为越来越多企业和个人用户关心的重点。为了满足这些需求,一系列本地运行的 LLM 工具应运而生,让用户能够在不依赖外部云服务的情况下,安全高效地利用先进的 AI 技术。

以下是六款优秀的本地 LLM 工具,它们不仅提供了强大的功能,还确保了用户数据的安全性和隐私。
一、为何使用本地 LLMs
- 隐私保障:如 LM Studio 运行本地 LLMs 时不收集用户数据,聊天数据留本地,不与 AI/ML 服务器共享,可在本地主机多轮提示。
- 自定义选项丰富:本地 LLMs 提供 CPU 线程、温度、上下文长度、GPU 设置等高级配置,类似 OpenAI 的 playground。
- 支持与安全性良好:能提供与 OpenAI 或 Claude 类似的支持和安全性。
- 免费且节省成本:工具免费使用,无每月订阅费用,与 OpenAI 云服务每次 API 请求需付费不同,可节省资金。
- 离线支持:离线时可加载和连接大语言模型。
- 连接稳定性强:避免连接云服务时可能出现的信号和连接不良问题。
二、六大免费本地 LLM 工具
(一)LM Studio
- 功能概述
- 可运行 gguf 格式模型文件,支持 Llama 3.1、Phi 3、Mistral 和 Gemma 等模型提供商的文件。
- 启动后主页展示可供下载和测试的顶级 LLMs,有搜索栏可过滤和下载特定模型,根据机器兼容性猜测突出显示可工作模型。
- 关键特性
- 模型参数自定义:可调整温度、最大 Token、频率惩罚等。
- 聊天历史:能保存提示供后续使用。
- 参数和 UI 提示:鼠标悬停信息按钮可查模型参数和术语。
- 跨平台:适用于 Linux、Mac 和 Windows 操作系统。
- 机器规格检查:检查计算机规格如 GPU 和内存,报告兼容模型,防止下载无法工作的模型。
- AI 聊天和 Playground:以多轮聊天格式与大语言模型聊天,可同时加载多个 LLMs 实验。
- 开发者本地推理服务器:允许开发者设置本地 HTTP 服务器,提供示例 Curl 和 Python 客户端请求,便于构建 AI 应用程序访问特定 LLM,还可导入 OpenAI Python 库并将基本 URL 指向本地服务器。
- 使用好处
- 个人使用免费,开发者可通过应用内聊天 UI 和 Playground 运行 LLMs,界面华丽易用,支持过滤,可连接 OpenAI Python 库无需 API 密钥。公司和企业需请求后使用,但要求 M1/M2/M3 Mac 或更高版本,或支持 AVX2 的 Windows PC,Intel 和 AMD 用户在 v0.2.31 中限于使用 Vulkan 推理引擎。

(二)Jan
- 功能概述
- 可视为离线开源版 ChatGPT,由用户社区构建,秉持用户所有理念,能在设备上离线运行 Mistral 或 Llama 等流行模型,也可访问远程 API 如 OpenAI 和 Groq。
- 关键特性
- 本地运行:无需联网在设备上运行喜欢的 AI 模型。
- 现成模型:下载后有一组已安装模型,还可搜索特定模型。
- 模型导入:支持从 Hugging Face 等来源导入模型。
- 免费、跨平台和开源:完全免费、开源,适用于 Mac、Windows 和 Linux。
- 自定义推理参数:可调整最大 Token、温度、流、频率惩罚等,所有偏好和设置本地保存。
- 扩展:支持 TensorRT 和 Inference Nitro 等扩展。
- 使用好处
- 提供干净简单界面与 LLMs 交互,数据和处理信息本地保留,已安装七十多种大语言模型,便于连接和与远程 API 交互,有良好的 GitHub、Discord 和 Hugging Face 社区,不过模型在 Apple Silicon Mac 上运行速度比 Intel 快。

(三)Llamafile
- 工作原理
- 将 LLMs 转换为多平台可执行链接格式(ELF),通过 tinyBLAST 在 Windows 等操作系统上无需 SDK 运行,只需一个可执行文件即可在多种架构上运行。
- 关键特性
- 可执行文件:与其他工具不同,仅需一个可执行文件运行 LLMs。
- 使用现有模型:支持使用 Ollama 和 LM Studio 等现有模型工具。
- 访问或创建模型:可访问 OpenAI、Mistral、Groq 等流行 LLMs,也支持从头创建模型,还能将.gguf 等格式文件转换为.llamafile。
- 使用步骤
- 访问 Huggingface 网站,从导航选 Models 并搜索 Llamafile,或从 URL 安装喜欢的量化版本。
- 下载 Llamafile,若有 wget 实用程序,可使用命令下载。
- 使下载的 Llamafile 可执行,使用命令导航到文件位置并使其可执行。
- 运行 Llamafile,在文件名前加./ 启动,应用将在 http://127.0.0.1:8080 运行 LLMs。
- 使用好处
- 普及 AI 和 ML,提供最快提示处理体验和在游戏计算机上的更好性能,适合总结长文本和大文档,100% 离线私密运行,机器学习社区支持其格式,有开源社区进一步开发扩展。

(四)GPT4ALL
- 功能概述
- 基于隐私、安全和无需互联网原则,可在 Mac、Windows 和 Ubuntu 上安装,月下载量、GitHub Stars 和活跃用户较多。
- 关键特性
- 隐私优先:私密敏感聊天信息和提示留本地。
- 无需互联网:完全离线工作。
- 模型探索:开发者可浏览下载不同 LLMs 实验,有约 1000 个开源语言模型可选。
- 本地文档:让本地 LLM 访问敏感数据如.pdf 和.txt,数据不离设备且无需网络。
- 自定义选项:提供多种聊天机器人调整选项。
- 企业版:有企业包,包含安全、支持和每设备许可证。
- 使用好处
- 除 Ollama 外 GitHub 贡献者最多,月活跃用户约 250000,应用收集匿名用户数据但可选择加入或退出,开发者受益于其庞大用户群、GitHub 和 Discord 社区。

(五)Ollama
- 功能概述
- 可轻松创建本地聊天机器人,无需连接 OpenAI 等 API,本地运行无需订阅费和 API 调用费。
- 关键特性
- 模型自定义:可转换.gguf 模型文件并运行。
- 模型库:有大型模型集合可尝试。
- 导入模型:支持从 PyTorch 导入模型。
- 社区集成:无缝集成到多种 Web 和桌面应用程序。
- 数据库连接:支持多个数据平台。
- 移动集成:SwiftUI 应用 Enchanted 和跨平台 Flutter 应用 Maid 可将其带到不同系统。
- 使用步骤
- 首次使用访问 https://ollama.com 下载适用于机器的版本,可在 Mac、Linux 或 Windows 安装,安装后在终端查看详细信息。
- 运行特定 LLM,使用命令下载,如 ollama pull modelname,下载后运行 ollama run modelname 启动模型。
- 使用好处
- GitHub 有超过 200 个贡献者,更新活跃,贡献者数量在开源 LLM 工具中最多,更具可扩展性。

(六)LLaMa.cpp
- 功能概述
- 是支持本地 LLM 工具如 Ollama 等的底层后端技术(推理引擎),支持在各种硬件上进行最小配置和出色本地性能的大语言模型推理,也可在云中运行。
- 关键特性
- 设置:设置简单,一个命令即可安装。
- 性能:在各种硬件本地和云中表现好。
- 支持的模型:支持 Mistral 7B、Mixtral MoE、DBRX、Falcon 等流行 LLMs。
- 前端 AI 工具:支持开源 LLM UI 工具如 MindWorkAI/AI - Studio(FSL - 1.1 - MIT)、iohub/collama 等。
- 使用步骤
- 使用命令安装,从 Hugging Face 或其他来源下载要运行的模型,进入模型文件位置运行命令,调用 LLaMa CLI 工具并设置相关标志指定模型路径和提示,运行后可看到结果。

三、评估本地运行的 LLMs 的性能
- 查看模型训练数据集。
- 了解模型定制和微调程度以执行特定任务或针对特定领域的能力。
- 查看 LLM 是否有学术研究论文。可参考 Hugging Face 和 Arxiv.org 等资源,以及 Open LLm Leaderboard 和 LMSYS Chatbot Arena 提供的基准信息。
本地运行的大语言模型工具为用户提供了一种既保持数据隐私又不失功能灵活性的选择。无论是个人开发者、小团队还是大型企业,都可以根据自身需求选择合适的工具。这些工具不仅推动了 AI 技术的普及和发展,同时也保障了用户数据的安全性和私密性。
相关文章
相关文章
正文完
关注公众号获取最新教程
