quantize : handle user-defined pruning of whole layers (blocks) (#13037)

2025-06-22 22:16:26 +01:00 · 2025-06-22 22:16:26 +01:00 · fa4a9f2a1c
commit fa4a9f2a1c
parent 238005c2dc
3 changed files with 119 additions and 9 deletions
--- a/include/llama.h
+++ b/include/llama.h
@ -390,6 +390,7 @@ extern "C" {
        void * imatrix;                       // pointer to importance matrix data
        void * kv_overrides;                  // pointer to vector containing overrides
        void * tensor_types;                  // pointer to vector containing tensor types
+        void * prune_layers;                  // pointer to vector containing layer indices to prune
    } llama_model_quantize_params;

    typedef struct llama_logit_bias {