ollama有个命令行参数, 可以让模型常驻显卡内存

ollama run huihui_ai/deepseek-r1-abliterated:32b --keepalive 14400m 
常驻10天 14400分钟。

 

如果是用systemd启动的ollama serv, 那么需要用环境变量来传递这些设置:
修改  /etc/systemd/system/ollama.service.d/environment.conf :

[Service]
Environment=OLLAMA_HOST=127.0.0.1:11434 OLLAMA_ORIGINS=* OLLAMA_KEEP_ALIVE=14400m
 
 
一个21G体积的模型, 常驻显卡内存的话, 显卡会达到有50w的功耗,如果显卡内存空的话, 显卡功耗只有9w.