llama : add option to override model tensor buffers (#11397)

* llama : add option to override tensor buffers * ggml : fix possible underflow in ggml_nbytes
2025-04-02 14:52:01 +02:00 · 2025-04-02 14:52:01 +02:00 · e0e912f49b
commit e0e912f49b
parent a10b36c91a
12 changed files with 108 additions and 9 deletions
--- a/src/llama-model-loader.h
+++ b/src/llama-model-loader.h
@ -77,8 +77,9 @@ struct llama_model_loader {

    llama_mmaps mappings;

-    std::map<std::string, struct llama_tensor_weight, weight_name_comparer> weights_map;
-    std::unordered_map<std::string, struct llama_model_kv_override> kv_overrides;
+    std::map<std::string, llama_tensor_weight, weight_name_comparer> weights_map;
+    std::unordered_map<std::string, llama_model_kv_override> kv_overrides;
+    const llama_model_tensor_buft_override * tensor_buft_overrides;

    gguf_context_ptr meta;
    std::vector<ggml_context_ptr> contexts;
@ -95,7 +96,8 @@ struct llama_model_loader {
        std::vector<std::string> & splits, // optional, only need if the split does not follow naming scheme
        bool use_mmap,
        bool check_tensors,
-        const struct llama_model_kv_override * param_overrides_p);
+        const llama_model_kv_override * param_overrides_p,
+        const llama_model_tensor_buft_override * param_tensor_buft_overrides_p);

    template<typename T>
    typename std::enable_if<std::is_integral<T>::value, bool>::type