Bilmek istediğin her şeye ulaş

XML paylaşımı olmayan bir sitenin verilerini web sayfasından çekmek mümkün müdür?

mümkünse nasıl çekilir ve database e aktarılır?not:windows ortamına aktarmak istiyorum.Düzenle
import.io bunu ücretsiz servis olarak yapmanızı sağlıyor. Web Summit 2013 finalistlerinden bu proje. XML datası olmayan sitelerde data akışı için hedeflediğiniz kısmı eklentiye/yazılıma/tarayıcısına tanıtıyorsunuz ve size okunabilir data halinde sunuyor.
  • Paylaş
10

Unluckypod, güzel düşünce gerçekten peki bunu yapmak için başka bir yol var mı?

Serkan Köse, Html Agility Pack (htmlagilitypack.codeplex.com) ile sen sayfa formatlarını bildiğin sitelerden data alabilirsin ve bunları da ayıklayıp XML, JSON, vs. haline getirebilirsin ama sancılı iş.

Serkan Köse, Rica ederim. Bu arada şimdi import.io'dan mail geldi bana :) udemy'de bu konudaki bit eğitim linkini göndermişler udemy.com/learn-web-scraping-in-minutes

Unluckypod, merak ediyorum ajax ile getirilen data nasıl alınıyor? yani ancak bir butona basıldığında gelen bilginin çekilmesi nasıl oluyor?

Serkan Köse, Tam olarak anlayamadım merak ettğiniz kısmı?

Unluckypod, bir websitesi düşünün sayfa ilk yüklendiğinde gelen veriler değil de, kullanıcının butona bastığında ajax ile gelen veriler olsun;işte bunları nasıl çekebiliriz? ya da çekebilir miyiz?

Serkan Köse, Bu konuda @hakank ve @burhan daha yardımcı olacaktır sanıyorum.

Hakan Köse, Ajax call ile gelen verileri almak mümkün ancak bu bir çok parametreye bağlı.

Öncelikle ajax isteklerini Fiddler gibi bir araç ile izleyip istek url'sini bulmanız ve istek parametrelerini incelemeniz gerekiyor.

Ardından, söz konusu web sitesinin ajax istekleri için "cross domain" izinlendirmesini vermiş olması gerekiyor, ki bunu mecbur kalmadıkça kimse yapmaz. Bu ayarlama güvenlik açısından da önemlidir, çünkü bu izin başka bir web sitesi veya kaynağın sizin web sitenizde bulunan ajax isteklerini reddetmesini sağlar..

Diyelim ki, bahsi geçen web sitesi bu izinlendirmeyi mümkün kıldı. O durumda bile ajax call yaptığınızda, web sitesinin server tarafında (güvenlik açısından) isteği güvenilir hale getirmek için önlem(ler) almamış olması gerekir. Yani, örneğin, gelen isteği authenticate etmek için bir token kullanılmıştır, veya sorguyu yapan istemcinin oturum açmış olması, sorgu gerçekleştirilirken belli miktarda veriye izin verilmesi ve limit üstü isteklerin geri çevirilmesi..vs. gibi.

Ancak, bu parametrelerin hepsi lehinize olursa bunu gerçekleştirebilirsiniz.

Belki, başka yöntemler vardır, benim bildiklerim bunlar.

Böyle bir ihtiyaç ne için ortaya çıktı acaba, mümkünse detay verebilir misiniz?

Unluckypod, detaylı bilgilendirme için teşekkür ederim. Bu tamamen bir merak ve programlama öğrenen birisiyim kendi başıma...

Evet kesinlikle. Böyle bir web verisini XML olmadan sıyırmak için web kazıma aracı Octoparse'yi (octoparse.com) kullanabilirsiniz. Web sitesinde pek çok ayrıntı öğreticisi bulunmaktadır (octoparse.com/tutorial/). Nasıl kullanılacağını öğrenebilirsin. Teknik olmayan birisiniz bile oldukça kolaydır. Sadece bir deneyin.
  • Paylaş
Python programlama dili üzerinde geliştirilmiş Scrapy adında bir framework var. Site anasayfa ve alt sayfalarını tek tek dolaşıp html içinden veriyi toplayan bir araç. Yani evet, mümkündür, diğer dillerde de yapmak çok zor değildir.
  • Paylaş
Sonraki Soru
HESAP OLUŞTUR

İstatistikler

840 Görüntülenme8 Takipçi3 Yanıt