BM25 nedir

Giriş

BM25, bilgi getirme (information retrieval) sistemlerinde en çok kullanılan sıralama algoritmalarından biridir. Arama sonuçlarının kullanıcı sorgusu ile ne kadar ilgili olduğunu ölçmek için tasarlanmıştır. RAG (Retrieval Augmented Generation) mimarilerinde, özellikle doküman işleme ve vektör arama süreçlerinde, BM25 büyük bir rol oynar çünkü kelime temelli metin eşleştirmesinde istatistiksel bir doğruluk sağlar.

BM25 nedir tanımı

BM25, “Best Matching 25” adını taşıyan ve klasik TF-IDF (Term Frequency – Inverse Document Frequency) yönteminin geliştirilmiş bir türevidir. Temel olarak, bir sorguda geçen kelimelerin her dokümanda ne kadar önemli olduğunu hesaplayarak dokümanları sıralar. Ana amacı, kelimenin metin içerisindeki sıklığını dengeli bir biçimde hesaplamak ve uzun dokümanların haksız avantaj sağlamasının önüne geçmektir.

bm25 nasıl çalışır

BM25, sorgu kelimeleri ile doküman içeriği arasında olasılıksal bir skor hesaplar. Bu skor, kelime sıklığı, doküman uzunluğu ve genel kelime dağılımına göre dengelenir. Arama sistemleri, her doküman için bu skoru hesaplar ve en yüksek skor alan dokümanları kullanıcıya sunar.

Temel parametreler ve ayarlar

BM25’in ana parametreleri k1 ve b’dir.

k1 terim sıklığına ne kadar ağırlık verileceğini belirler. Genelde 1.2 ila 2.0 arasında bir değer kullanılır.
b, doküman uzunluğunu ne ölçüde normalize edeceğini ayarlayan parametredir. 0 değeri uzunluk etkisini yok sayar, 1 değeri tamamen normalize eder.
Bu parametreler, arama indeksinin doğasına göre test edilip optimize edilmelidir.

Sık yapılan hatalar ve kaçınma yöntemleri

Birçok uygulama, k1 ve b parametrelerini varsayılan değerlerde bırakır; bu, özel veri kümelerinde performans düşüklüğüne yol açabilir. Ayrıca ön işleme adımlarında stop word’lerin (önemsiz kelimeler) temizlenmemesi, BM25 skorlarını olumsuz etkiler. Bu nedenle indeksleme öncesi kelime köklerini çıkarma ve gereksiz kelimeleri filtreleme önerilir.

Gerçek sistemlerde uygulama örnekleri

Apache Lucene, Elasticsearch ve Solr gibi arama motorları BM25’i varsayılan sıralama algoritması olarak kullanır. Aynı şekilde, RAG tabanlı sistemlerde vektör arama ile birlikte çalışarak hem semantik hem istatistiksel eşleşme sağlar. NeKu.AI gibi bilgi tabanı sistemlerinde de BM25 çıktısı, vektör temelli benzerlik skorlarıyla birleştirilerek sonuç doğruluğu artırılır.

Teknik açıklama (derin seviye)

BM25’in işleyişi adım adım şu şekildedir:

Her dokümandaki terim sıklığı hesaplanır.
Doküman uzunluğu ortalama uzunluk ile karşılaştırılarak normalize edilir.
Her terim için IDF değeri hesaplanır ve global kelime yaygınlığı hesaba katılır.
Bu veriler, BM25 formülüne eklenerek bir skor üretir.
Bu skor, RAG tabanlı sorgularda doküman geri getirme aşamasında kullanılır. Özellikle büyük doküman havuzlarında BM25, yüksek doğruluklu bilgi getirme sağlar ve vektör arama modelleriyle hibrit bir yapı oluşturur.

İşletmeler için neden kritiktir

Performans: Metin eşleştirmelerini optimize eder, arama gecikmesini azaltır.
Güvenilirlik: Tutarlı ve istatistiksel olarak anlamlı sonuçlar verir.
Maliyet: Hesaplama ve veri saklama açısından TF-IDF’e göre daha verimlidir.
Ölçekleme: Büyük veri kümelerinde kolayca uyarlanabilir.
Otomasyon: Bilgi yönlendirme süreçlerinde manuel doğrulama ihtiyacını azaltır.
Karar alma: Doğru bilgiyi hızlı erişimle sunarak daha isabetli karar desteği sağlar.
Operasyonel verimlilik: Arama ve bilgi güncelleme süreçlerini otomatik hale getirir.

Bu kavram NeKu.AI içinde nasıl uygulanır

NeKu.AI, bilgi tabanı ve grounding mimarisinde hem vektör arama hem BM25 sıralama mekanizmasını kullanır. Dokümanların semantik içeriği vektör uzayında değerlendirilirken, BM25 metin frekansındaki istatistiksel ağırlıkları hesaba katar. Bu kombinasyon, RAG sürecinde modelin en doğru bağlamlı cevabı üretmesini sağlar. Özellikle SAP entegrasyonlarında, metin bazlı veri geri getirme süreçlerinde BM25 altyapısı otomasyonu destekler.

AI geliştiricileri, veri mühendisleri için gerçek bir senaryo

Sorun: Bir firma SAP sistemindeki metin raporlarından doğru içgörüyü bulmakta zorlanıyor.
Bağlam: RAG tabanlı bilgi getirme sistemi kurmak istiyor.
Kavramın uygulanması: NeKu.AI altyapısında doküman indeksi BM25 ile oluşturuluyor. Vektör arama, semantik benzerliği bulurken BM25 sıralama metin içi ilgiyi hesaplıyor.
Sonuç: Sorgular hem anlam hem frekans açısından en uygun veriyi getiriyor.
İş etkisi: Bilgi erişimi hızlanıyor, otomatik raporlama ve karar alma süreçleri iyileşiyor.

Sık yapılan hatalar ve en iyi uygulamalar

Parametre optimizasyonu yapılmadan varsayılan değerlere güvenmek hatalıdır.
Ön işleme adımlarında yanlış tokenizasyon, skor doğruluğunu düşürür.
BM25 ve vektör aramayı aynı mimaride dengeli biçimde kullanmak en iyi sonuçları sağlar.
Gerçek sistemlerde sürekli performans izleme ve indeks yenileme kritik önemdedir.
Küçük veri kümelerinde b parametresini azaltmak, aşırı normalize hatalarından kaçınır.

Sonuç

BM25, modern bilgi getirme sistemlerinin temelini oluşturan güçlü bir algoritmadır. RAG, doküman işleme ve vektör arama süreçlerinde performans ve doğruluk açısından kritik rol oynar. NeKu.AI gibi kurumsal platformlarda BM25’in kullanımı, bilgiye erişimi hızlandırıp karar destek sistemlerinin isabetini artırır. Doğru parametrelendirme ve hibrit entegrasyon, BM25’in değerini tam olarak ortaya çıkarır.

Serkan Özcan

Yorumlar kapalıdır.