mtmd : Support Pixtral 12B (#13065)

* add pixtral text model (vision is wip) * cgraph ok, just missing 2D RoPE * fix bad rebase * first working version * fix problem with img_break token * support dynamic image size * update docs * update test script
2025-04-23 20:21:59 +02:00 · 2025-04-23 20:21:59 +02:00 · ecda2ec4b3
commit ecda2ec4b3
parent eb1776b15a
14 changed files with 643 additions and 31 deletions
--- a/src/llama-vocab.cpp
+++ b/src/llama-vocab.cpp
@ -1506,7 +1506,8 @@ void llama_vocab::impl::load(llama_model_loader & ml, const LLM_KV & kv) {
                    tokenizer_pre == "llama3"   ||
                    tokenizer_pre == "llama-v3" ||
                    tokenizer_pre == "llama-bpe"||
-                    tokenizer_pre == "falcon3") {
+                    tokenizer_pre == "falcon3"  ||
+                    tokenizer_pre == "pixtral") {
                pre_type = LLAMA_VOCAB_PRE_TYPE_LLAMA3;
                ignore_merges = true;
                add_bos = true;