凉城老泉
手机扫码
win10使用ollama本地部署deepseek
凉城老泉  2025-02-22     阅读(132)   分享

一.下载安装ollama

打开ollama官网 https://ollama.com

下载windows版本ollama应用程序

下载到本地后直接双击安装,大约800M左右,安装在C盘,没办法更改路径

下载完成后 cmd  运行命令 ollama -h 显示版本和其它信息,说明安装成功。

也会在任务栏显示小图标。

二.下载模型

进入官网在Models中查找要下载的模型,如deepseek-r1

找到对对应的模型,选择合适的版本,然后复制安装命令:

如:ollama run deepseek-r1:7b

经过漫长等待后下载完成。

默认也是在C盘

如果想把模型下载到其它盘,需要先设置环境变量

如:OLLAMA_MODELS=d:\\models\

三.运行模型

运行命令:ollama run deepseek-r1:7b

启动后就可以在命令行进行对话。

启动ollama服务可以用命令:ollama server或  ollama serve -p 8080  或通过windows的图形界面

四.调用ollama服务Api

本地调用的默认地址是 :

 http://localhost:11434/api/generate

例用python调用:


import requests
 
def call_ollama(model_name, prompt):
    url = f"http://localhost:11434/api/generate"  # Ollama默认端口是11434
    headers = {
        "Content-Type": "application/json",
        "Accept": "application/json"
    }
    data = {
        "model": model_name,
        "prompt": prompt
    }
    
    response = requests.post(url, json=data, headers=headers)
    if response.status_code == 200:
        return response.json()
    else:
        print(f"Error: {response.status_code}, {response.text}")
        return None
 
# 使用示例
model_name = "your-model-name"  # 例如 "mistral" 或其他支持的模型名
prompt = "Write a poem about a sunny day."
result = call_ollama(model_name, prompt)
print(result)
也可以安装pip install ollama 


stream = ollama.generate(
    stream=True,
    model='deepseek-r1:7b', 
    prompt=text,
)

print('-----------------------------------------')
for chunk in stream:
    if not chunk['done']:
        print(chunk['response'], end='', flush=True)
    else:
        print('\n')
        print('-----------------------------------------')
        print(f'总耗时:{chunk['total_duration']}')
        print('-----------------------------------------')


四.ollama可设置的环境变量:

1.OLLAMA_HOST:主机ip,通过设置OLLAMA_HOST=0.0.0.0可以实现外部网络访问。

2.OLLAMA_MODELS:用来设置模型映射位置,如:OLLAMA_MODELS=d:\\models\

3.OLLAMA_PORT:设置端口,默认端口是11434,通过设置这个环境变量修改默认端口

4.OLLAMA_NUM_PARALLEL:设置访问并发数,如OLLAMA_NUM_PARALLEL=4

5.OLLAMA_KEEP_ALIVE:设置模型在内存中的存活时间,比如OLLAMA_KEEP_ALIVE=24h 可以提高访问速度

6.OLLAMA_MAX_LOADED_MODELS:限制同时加载的模型数  如OLLAMA_MAX_LOADED_MODELS=4


五.ollama常用命令

ollama -v 或ollama --version 查看版本
ollama list或ollama ls  列出所有模型

ollama run model-name 运行模型

ollama serve 启动服务

ollama show model-name 显示模型信息

ollama ps 显示当前运行的模型

ollama rm model-name 删除一个已安装的模型

ollama cp old_model  new_model 复制一个模型

ollama pull model_name 从注册表接取一个模型

ollama push model_name 将本地模型推到模型注册表中供别人使用