Tôi khuyên bạn nên sử dụng Thư viện DOM của PHP . Nó rất mạnh mẽ và cho phép phân tích cú pháp bất kỳ cấu trúc DOM nào. Tham khảo một số ví dụ của nó và bạn có thể triển khai nó một cách dễ dàng.
Ý tưởng là bạn nghiên cứu cấu trúc HTML của trang do Google trả về và theo đó sử dụng thư viện DOM để phân tích cú pháp các thẻ cụ thể. Từ những gì tôi thấy, các hình ảnh được sắp xếp dưới dạng <ul>
và <li>
các thẻ, như:
<ul class="rg_ul" data-pg="1" data-cnt="6">
<li class="rg_li" data-row="1" style="width:216px;height:162px"></li>
<li class="rg_li" style="width:231px;height:162px"></li>
<li class="rg_li" style="width:218px;height:162px"></li>
<li class="rg_li" style="width:216px;height:162px"></li>
<li class="rg_li" style="width:216px;height:162px"></li>
<li class="rg_li" style="width:217px;height:162px"></li>
</ul>
Trong mỗi <li>
có các thẻ bổ sung, một trong số đó là <a>
. Thẻ này dường như có 2 thuộc tính - "imgrefurl" và "imgurl" - có thể cung cấp cho bạn hình ảnh bạn cần. Bạn cần khám phá thuộc tính nào trong số 2 thuộc tính này.
Ngoài ra, có một <img>
thẻ trong <li>
có thuộc tính "src" chứa tệp nhị phân hình ảnh thực tế. Vì vậy, bạn cũng có thể phân tích cú pháp nó. Xin lưu ý rằng nhị phân dành cho hình ảnh bạn thấy trên trang tìm kiếm chứ không phải hình ảnh thực tế.
Đối với một số con trỏ tới DOM, phương pháp này có thể hữu ích - http:// www .php.net / manual / en / domelement.getelementsbytagname.php
và http://www.php.net/manual/en/domelement. hasattribute.php
- để đọc tất cả <li>
và sau đó phân tích cú pháp cho các thẻ bằng cách sử dụng lớp "rg_li".
Tôi hy vọng những điều trên có ý nghĩa