Я очищаю веб-страницы (используя curl php), которые имеют акцентированные символы (например, «é»). В качестве источника этих веб-страниц эти символы записываются с использованием utf-8 (они не кодируются html.)Как я могу гарантировать, что символы utf-8 точно очищаются с помощью CURL в php?
Однако, когда результат получается с использованием следующего кода, я получаю вопросительные знаки вместо акцентированных символов.
$ch = curl_init();
$timeout = 5;
curl_setopt ($ch, CURLOPT_URL, $website);
curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
$file = curl_exec($ch);
curl_close($ch);
Информация заголовка, возвращенная со стертой веб-страницы, указывает, что для содержимого установлено значение «html/text». Нет никаких указаний на то, что он закодирован в utf-8. Я попытался использовать параметр curl CURLOPT_HTTPHEADER для изменения кодировки текста, но это ничего не делает.
Что мне не хватает?
Привет, в первую очередь, вы уверены, что проблема в том, а не с файловым редактором, который вы используете, чтобы открыть файл, который неправильно распознает кодировку? Или с веб-страницей, внутри которой вы показываете результаты? –