Bilmek istediğin her şeye ulaş

Shazam, Google Sound Search, Soundhound gibi yazılımlar müzikleri nasıl tanıyor?

Her şarkının kendine ait bir izi vardır. Bu iz; Spektogram adı verilen; sesin içerisindeki frekansları görsel olarak görmemizi sağlayan grafikler ile yakalanabilir. Çalınan her şarkının spektogram değerleri sayesinde şarkının kendi parmakizi çıkarılır. Bu parmakizi üzerinde belirli frekanslar istendiği takdirde bastırılabilir veya ön plana çıkarılabilir. Bu da belirli biz ezginin belirleyici olan faktörlerini ön plana çıkarılabilmesine veya arka plana itilebilmesine olanak verir (aşağıda örnek bir spektogram kaydını, onun altında da gerçek zamanlı bir müzik videosunun spektogram görüntülerini görebilirsiniz).

Google



Shazam, Soundhound, Google Sound Search gibi programlar kayıt ettikleri ses parçalarının anlık spektogram grafiklerini çıkararak ve belirgin yanlarını daha da güçlendirerek/belirleyerek (feature extraction) kendi veritabanlarındaki kayıtlar ile (elbette ki onların da spektogram kayıtları ile) karşılaştırıp bir eşik seviyesinde (threshold) benzerlik yakalamaya çalışırlar. Bu benzerliği yakaladığı anda da müziğin hangi şarkıya ait olduğunu belirlemiş olur (yüksek ihtimal ile). Buradaki asıl mevzu bu işi milyonlarca kayıt arasından nasıl bu adar hızlı yaptığıdır.

Bu da veritabanı kayıtlarında "belirleyici frekans özellikleri çıkarılmış halde" kayıtlı bulunan spektogram izlerinin (şarkı parmakizleri) bazı algoritmalar ile yakınsama değerlerine çok hızlı ulaşılabilmesi yolu ile yapılır.

Google
Aşağıdaki grafikte bulunan kırmızı noktalar örnek bir şarkının spektogramındaki belirleyici frekans noktalarını göstermektedir. Tepelerdeki yoğunluk sayısı benzerlik için kullanılabilir. Aynı şekilde en alttaki seviyeler de...
Google
Shazam (aynı şekilde diğerleri de); veritabanında, müziğin belirleyici frekanslarını spesifik olarak zamana bağlı bir iz şeklinde şarkı ismi ile birlikte kaydeder.

Örnek:
Frekans: 1672.1 Hz
Şarkı: Ali Baba'nın Çiftliği
Bu Frekansın Bulunduğu Zaman Noktası: 12,25. saniye


Shazam şarkıyı telefonda dinlerken, belirleyici frekansları yakalanan müzik parçasının bu frekans değerlerini veritabanına gönderir. Veritabanındaki kayıtlar ile karşılaştırılarak önce o frekansa yakın şarkılar tespit edilir (bu anda şarkının hangi andaki müziğinin olduğu çok önemli değildir). Sonrasında da şarkının süre olarak birbirine yakın diğer belirleyici frekansları arka arkaya gönderilir. Bu kez belirli aralıklarla benzeşen frekanslar söz konusudur ve şarkımız tanımlanmış olur :).

Yani aynı belirleyici frekansta onlarca şarkı olabilir ama arka arkaya aynı belirleyici frekans değerlerinde olan şarkı genelde tektir.
  • Paylaş
Sonraki Soru
HESAP OLUŞTUR

İstatistikler

1676 Görüntülenme4 Takipçi1 Yanıt

Eş Anlamlı Soru Ekle

  • Shazam nasıl çalışır?

  • SoundHound nasıl çalışır?