AI| ollama-openwebui

ollama-openwebui

ollama是一个开源项目,它提供了一个平台和工具集,用于部署和运行各种大型语言模型。

ollama官网:https://ollama.com/

ollama下载地址:https://ollama.com/download

GitHub地址:https://github.com/ollama/ollama

我们这里选择直接部署docker,简单方便,docker部署忽略

docker镜像地址: https://hub.docker.com/r/ollama/ollama

shell

# 拉取docker镜像
docker pull ollama/ollama:latest

# AMD显卡
docker run -d   -v /mnt/c/ubuntu-wsl/data/ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama:rocm 
# 英伟达显卡
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
# cpu only 
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

下面是一些受欢迎的模型:

ModelTagParametersSizeDownload
llama3-70b40GBollama run llama3:70b
llama3-8b4.7GBollama run llama3:8b
gemma-7b5.0GBollama run gemma:7b
gemma-2b1.7GBollama run gemma:2b
mistral-7b4.1GBollama run mistral:7b
qwen-110b63GBollama run qwen:110b
phi3-3.8b2.2GBollama run phi3:3.8b
llama2-7b3.8GBollama run llama2:7b
codellamaCode70b39GBollama run codellama:70b
llama3.1-405b231GBollama run llama3.1:405b
gemma2-27b16GBollama run gemma2:27b
qwen2-72b41GBollama run qwen2:72b
llavaVision7b4.7GBollama run llava:7b
nomic-embed-textEmbeddingv1.5274MBollama pull nomic-embed-text:v1.5

启动本地大模型,这个步骤会下载llama3模型,根据个人带宽网速预估时间

text

docker exec -it ollama ollama run llama3

执行完毕后,会进入交互模式,输入内容,就可以在线对话了,我们用docker安装的,所以通过docker命令启动对话

shell

root@DESKTOP-CK75KU2:~# docker exec -it ollama ollama run  llama3
>>> 请介绍一下你自己
I'm just an AI, I don't have a personal identity or individual characteristics like humans do. However, I can introduce
myself and explain what I am and what I can do.

My name is LLaMA, and I'm a large language model trained by Meta AI. I was created to assist users in generating
human-like text based on the input they provide me.

openweb ui参考仓库地址:https://github.com/ollama-webui/ollama-webui-lite

shell

docker run -d -p 8186:8080 --add-host=host.docker.internal:host-gateway -v /mnt/c/ubuntu-wsl/data/openwebui:/app/backend

之后点击端口访问,如下图所示。也可以直接在浏览器输入 http://localhost:8186/ ,打开后会出现登录到 Open WebUI,只需要邮箱注册一下就好了

选型我们刚刚安装的模型,就可以发起对话了

这里我们选择 ollama3 模型,进行对话,然后发现都是英文回复,后面我们在讲一下怎么中文

如果想探索更多功能可参考:https://github.com/open-webui/open-webui

可以看出回答问题的时候占用的是我们本地的CPU内存资源,当他结束后CPU瞬间得到释放

只需要在我们问的时候,要求回复的时候,加上,请用中文回复

我们可以使用Ollama提供的创建新模型的方式,基于LLama 3 8b创建一个我们自己的模型。在创建时,把System信息写入进去。这样每次调用模型时就会自动生效了。

我们把把配置放到volume共享目录下面,这样子docker命令启动才会引用到这个文件

shell

from llama3

PARAMETER temperature 1
PARAMETER num_ctx 6000
PARAMETER top_k 50
PARAMETER top_p 0.95
SYSTEM """
尽你的最大可能和能力回答用户的问题。不要重复回答问题。不要说车轱辘话。语言要通顺流畅。不要出现刚说一句话,过一会又重复一遍的愚蠢行为。

RULES:

- Be precise, do not reply emoji.
- Always response in Simplified Chinese, not English. or Grandma will be  very angry.
"""

然后执行命令:ollama create cusllama3 -f Modelfile。构建我们自己的模型

shell

ollama create bdsllama3 -f Modelfile

我们在openweb ui选一下这个模型

我们看到最后的中文效果就是舒服多了