Во-первых, я знаю, что эта проблема была сигнализировал раньше, но решения не применяются в моем случаеForce DOMXPath - PHP - вернуть UTF-8 результатов
Вот URL-адрес http://www.astagiudiziaria.com/beni/porzione_di_rustico_e_terreni_agricoli/index.html
На странице говорит, что его кодировка - ISO-8859-1, но это не может быть, так как на нем есть знак ЕВРО. Chrome браузер идентифицирует его как Windows-1252
я использовал
$file = str_replace('charset=iso-8859-1', 'charset=utf-8', $file);
$file = iconv('windows-1252', 'UTF-8', $file);
и сохранить его и мой текстовый редактор говорит, что это UTF-8 кодируются
Затем я использую
$doc2->loadHTML($file);
$doc2->saveHTMLFile('ggg.html');
и также мой текстовый редактор говорит, что кодируется UTF-8 Но http://i-tools.org/charset говорит, что этот файл, ggg.html - это фактически ASCII!
Тем не менее, внутри все выглядит так, как ожидалось, хотя они используют кодировки html, такие как Pr & eacute; или запатентовать;
Запросы XPath возвращают данные мусора, как вместо Пры является PRA © вместо € является, ¬ Â
Я попытался решение предложило здесь без какого-либо успеха я думаю, что это о том, как PHP имеет дело с libxml, так как в ruby он работает безупречно - также используя libxml через curb gem - проблема в том, что мой клиент хочет сценарий php
'Запросы xpath возвращают данные мусора, а вместо Pré - Prà © вместо € is â'¬Â' - где вы видите это? В веб-браузере? Вы «сообщили» браузеру, что ваш документ - ваш код utf-8? – VolkerK
Нет в браузере. Данные предназначены для сохранения в базе данных. Я просто print_r массив с результатами в файл. Мой текстовый редактор говорит, что этот файл дампа - ASCII, а не UTF-8, как я ожидал. – alupu
, если кто-нибудь может что-то сделать из этого http://www.xmlsoft.org/encoding.html – alupu