llama : deprecate llama_kv_self_ API (#14030)

* llama : deprecate llama_kv_self_ API ggml-ci * llama : allow llama_memory_(nullptr) ggml-ci * memory : add flag for optional data clear in llama_memory_clear ggml-ci
2025-06-06 14:11:15 +03:00 · 2025-06-06 14:11:15 +03:00 · 745aa5319b
commit 745aa5319b
parent 487a5e0401
34 changed files with 206 additions and 127 deletions
--- a/src/llama-context.cpp
+++ b/src/llama-context.cpp
@ -422,6 +422,7 @@ llama_memory_t llama_context::get_memory() const {
    return memory.get();
 }

+// deprecated
 void llama_context::kv_self_defrag_sched() {
    if (!memory) {
        return;
@ -430,6 +431,7 @@ void llama_context::kv_self_defrag_sched() {
    memory_force_optimize = true;
 }

+// deprecated
 bool llama_context::kv_self_update(bool optimize) {
    if (!memory) {
        return false;
@ -2053,7 +2055,7 @@ void llama_context::opt_epoch_iter(
    const uint32_t n_batch  = std::min(this->n_batch(),  n_ctx);
    const uint32_t n_ubatch = std::min(this->n_ubatch(), n_batch);

-    memory->clear();
+    memory->clear(true);

    for (uint32_t pos_ctx = 0; pos_ctx < n_ctx; pos_ctx += n_batch) {
        batch.n_tokens = n_batch;
@ -2426,8 +2428,12 @@ llama_memory_t llama_get_memory(const struct llama_context * ctx) {
    return ctx->get_memory();
 }

-void llama_memory_clear(llama_memory_t mem) {
-    mem->clear();
+void llama_memory_clear(llama_memory_t mem, bool data) {
+    if (!mem) {
+        return;
+    }
+
+    mem->clear(data);
 }

 bool llama_memory_seq_rm(
@ -2435,6 +2441,10 @@ bool llama_memory_seq_rm(
          llama_seq_id seq_id,
             llama_pos p0,
             llama_pos p1) {
+    if (!mem) {
+        return true;
+    }
+
    return mem->seq_rm(seq_id, p0, p1);
 }

@ -2444,12 +2454,20 @@ void llama_memory_seq_cp(
          llama_seq_id seq_id_dst,
             llama_pos p0,
             llama_pos p1) {
+    if (!mem) {
+        return;
+    }
+
    mem->seq_cp(seq_id_src, seq_id_dst, p0, p1);
 }

 void llama_memory_seq_keep(
        llama_memory_t mem,
          llama_seq_id seq_id) {
+    if (!mem) {
+        return;
+    }
+
    mem->seq_keep(seq_id);
 }

@ -2459,6 +2477,10 @@ void llama_memory_seq_add(
             llama_pos p0,
             llama_pos p1,
             llama_pos delta) {
+    if (!mem) {
+        return;
+    }
+
    mem->seq_add(seq_id, p0, p1, delta);
 }

@ -2468,22 +2490,38 @@ void llama_memory_seq_div(
             llama_pos p0,
             llama_pos p1,
                   int d) {
+    if (!mem) {
+        return;
+    }
+
    mem->seq_div(seq_id, p0, p1, d);
 }

 llama_pos llama_memory_seq_pos_min(
        llama_memory_t mem,
          llama_seq_id seq_id) {
+    if (!mem) {
+        return -1;
+    }
+
    return mem->seq_pos_min(seq_id);
 }

 llama_pos llama_memory_seq_pos_max(
        llama_memory_t mem,
          llama_seq_id seq_id) {
+    if (!mem) {
+        return -1;
+    }
+
    return mem->seq_pos_max(seq_id);
 }

 bool llama_memory_can_shift(llama_memory_t mem) {
+    if (!mem) {
+        return false;
+    }
+
    return mem->get_can_shift();
 }

@ -2534,15 +2572,17 @@ int32_t llama_kv_self_used_cells(const llama_context * ctx) {
    return res;
 }

+// deprecated
 void llama_kv_self_clear(llama_context * ctx) {
    auto * kv = llama_get_memory(ctx);
    if (!kv) {
        return;
    }

-    llama_memory_clear(kv);
+    llama_memory_clear(kv, true);
 }

+// deprecated
 bool llama_kv_self_seq_rm(
        llama_context * ctx,
         llama_seq_id   seq_id,
@ -2556,6 +2596,7 @@ bool llama_kv_self_seq_rm(
    return llama_memory_seq_rm(kv, seq_id, p0, p1);
 }

+// deprecated
 void llama_kv_self_seq_cp(
        llama_context * ctx,
         llama_seq_id   seq_id_src,
@ -2570,6 +2611,7 @@ void llama_kv_self_seq_cp(
    llama_memory_seq_cp(kv, seq_id_src, seq_id_dst, p0, p1);
 }

+// deprecated
 void llama_kv_self_seq_keep(llama_context * ctx, llama_seq_id seq_id) {
    auto * kv = llama_get_memory(ctx);
    if (!kv) {
@ -2579,6 +2621,7 @@ void llama_kv_self_seq_keep(llama_context * ctx, llama_seq_id seq_id) {
    llama_memory_seq_keep(kv, seq_id);
 }

+// deprecated
 void llama_kv_self_seq_add(
        llama_context * ctx,
         llama_seq_id   seq_id,
@ -2593,6 +2636,7 @@ void llama_kv_self_seq_add(
    llama_memory_seq_add(kv, seq_id, p0, p1, delta);
 }

+// deprecated
 void llama_kv_self_seq_div(
        llama_context * ctx,
         llama_seq_id   seq_id,
@ -2607,6 +2651,7 @@ void llama_kv_self_seq_div(
    llama_memory_seq_div(kv, seq_id, p0, p1, d);
 }

+// deprecated
 llama_pos llama_kv_self_seq_pos_min(llama_context * ctx, llama_seq_id seq_id) {
    auto * kv = llama_get_memory(ctx);
    if (!kv) {
@ -2616,6 +2661,7 @@ llama_pos llama_kv_self_seq_pos_min(llama_context * ctx, llama_seq_id seq_id) {
    return llama_memory_seq_pos_min(kv, seq_id);
 }

+// deprecated
 llama_pos llama_kv_self_seq_pos_max(llama_context * ctx, llama_seq_id seq_id) {
    auto * kv = llama_get_memory(ctx);
    if (!kv) {
@ -2631,6 +2677,7 @@ void llama_kv_self_defrag(llama_context * ctx) {
    ctx->kv_self_defrag_sched();
 }

+// deprecated
 bool llama_kv_self_can_shift(const llama_context * ctx) {
    auto * kv = llama_get_memory(ctx);
    if (!kv) {
--- a/src/llama-kv-cache-recurrent.cpp
+++ b/src/llama-kv-cache-recurrent.cpp
@ -117,18 +117,21 @@ llama_kv_cache_recurrent::llama_kv_cache_recurrent(
    }
 }

-void llama_kv_cache_recurrent::clear() {
+void llama_kv_cache_recurrent::clear(bool data) {
    for (int32_t i = 0; i < (int32_t) size; ++i) {
        cells[i].pos = -1;
        cells[i].seq_id.clear();
        cells[i].src = -1;
        cells[i].tail = -1;
    }
+
    head = 0;
    used = 0;

-    for (auto & buf : bufs) {
-        ggml_backend_buffer_clear(buf.get(), 0);
+    if (data) {
+        for (auto & buf : bufs) {
+            ggml_backend_buffer_clear(buf.get(), 0);
+        }
    }
 }

@ -723,7 +726,7 @@ void llama_kv_cache_recurrent::state_read(llama_io_read_i & io, llama_seq_id seq

    if (!res) {
        if (seq_id == -1) {
-            clear();
+            clear(true);
        } else {
            seq_rm(seq_id, -1, -1);
        }
@ -880,7 +883,7 @@ bool llama_kv_cache_recurrent::state_read_meta(llama_io_read_i & io, uint32_t ce
            return false;
        }

-        clear();
+        clear(true);

        for (uint32_t i = 0; i < cell_count; ++i) {
            kv_cell & cell = cells[i];
--- a/src/llama-kv-cache-recurrent.h
+++ b/src/llama-kv-cache-recurrent.h
@ -39,7 +39,7 @@ public:

    llama_memory_state_ptr init_update(llama_context * lctx, bool optimize) override;

-    void clear() override;
+    void clear(bool data) override;

    bool seq_rm  (llama_seq_id seq_id,                              llama_pos p0, llama_pos p1) override;
    void seq_cp  (llama_seq_id seq_id_src, llama_seq_id seq_id_dst, llama_pos p0, llama_pos p1) override;
--- a/src/llama-kv-cache-unified-iswa.cpp
+++ b/src/llama-kv-cache-unified-iswa.cpp
@ -52,9 +52,9 @@ llama_kv_cache_unified_iswa::llama_kv_cache_unified_iswa(
            hparams.n_swa, hparams.swa_type);
 }

-void llama_kv_cache_unified_iswa::clear() {
-    kv_base->clear();
-    kv_swa ->clear();
+void llama_kv_cache_unified_iswa::clear(bool data) {
+    kv_base->clear(data);
+    kv_swa ->clear(data);
 }

 bool llama_kv_cache_unified_iswa::seq_rm(llama_seq_id seq_id, llama_pos p0, llama_pos p1) {
--- a/src/llama-kv-cache-unified-iswa.h
+++ b/src/llama-kv-cache-unified-iswa.h
@ -43,7 +43,7 @@ public:

    bool get_can_shift() const override;

-    void clear() override;
+    void clear(bool data) override;

    bool seq_rm  (llama_seq_id seq_id,                              llama_pos p0, llama_pos p1) override;
    void seq_cp  (llama_seq_id seq_id_src, llama_seq_id seq_id_dst, llama_pos p0, llama_pos p1) override;
--- a/src/llama-kv-cache-unified.cpp
+++ b/src/llama-kv-cache-unified.cpp
@ -129,13 +129,15 @@ llama_kv_cache_unified::llama_kv_cache_unified(
    }
 }

-void llama_kv_cache_unified::clear() {
+void llama_kv_cache_unified::clear(bool data) {
    cells.reset();

    head = 0;

-    for (auto & buf : bufs) {
-        ggml_backend_buffer_clear(buf.get(), 0);
+    if (data) {
+        for (auto & buf : bufs) {
+            ggml_backend_buffer_clear(buf.get(), 0);
+        }
    }
 }

@ -1319,7 +1321,7 @@ void llama_kv_cache_unified::state_read(llama_io_read_i & io, llama_seq_id seq_i

    if (!res) {
        if (seq_id == -1) {
-            clear();
+            clear(true);
        } else {
            seq_rm(seq_id, -1, -1);
        }
@ -1500,7 +1502,7 @@ bool llama_kv_cache_unified::state_read_meta(llama_io_read_i & io, uint32_t cell
            return false;
        }

-        clear();
+        clear(true);

        for (uint32_t i = 0; i < cell_count; ++i) {
            llama_pos pos;
--- a/src/llama-kv-cache-unified.h
+++ b/src/llama-kv-cache-unified.h
@ -68,7 +68,7 @@ public:

    bool get_can_shift() const override;

-    void clear() override;
+    void clear(bool data) override;

    bool seq_rm  (llama_seq_id seq_id,                              llama_pos p0, llama_pos p1) override;
    void seq_cp  (llama_seq_id seq_id_src, llama_seq_id seq_id_dst, llama_pos p0, llama_pos p1) override;
--- a/src/llama-memory.h
+++ b/src/llama-memory.h
@ -90,7 +90,8 @@ struct llama_memory_i {
    // ops
    //

-    virtual void clear() = 0;
+    // if data == true, the data buffers will also be cleared together with the metadata
+    virtual void clear(bool data) = 0;

    virtual bool seq_rm  (llama_seq_id seq_id,                              llama_pos p0, llama_pos p1) = 0;
    virtual void seq_cp  (llama_seq_id seq_id_src, llama_seq_id seq_id_dst, llama_pos p0, llama_pos p1) = 0;