Jump to content
  • 0

Возвращает непонятные символы


crautcher
 Share

Question

есть класс небольшой для перевода :

<?
class google_translator_exception extends Exception {}

class gtranslate {

private $_user_agent = "Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0)";

private $_sleep = 0;

private $_lang_s = '';
private $_lang_t = '';

private $_sources = array();

function set_sleep($s) {
$this->_sleep = $s;
return $this;
}

function set_langs($from, $to) {
$this->_lang_s = $from;
$this->_lang_t = $to;
return $this;
}

function set_text($src) {
$this->_sources = is_array($src) ? $src : array($src);
return $this;
}


function translate($text = false) {

$is_array = is_array($text);

$text = ($text === false) ? $this->_sources : (is_array($text) ? $text : array($text));

$result = array();

$url = "http://translate.google.ru/translate_a/t?client=t&text=%s&hl={$this->_lang_t}&sl={$this->_lang_s}&tl={$this->_lang_t}&multires=1&otf=2&ssel=4&tsel=0&sc=1";

$ch = curl_init();
$Headers = array(
"Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
"Accept-Language: ru-ru,ru;q=0.8,en-us;q=0.5,en;q=0.3",
"Accept-Charset: windows-1251,utf-8;q=0.7,*;q=0.7"
);
curl_setopt($ch, CURLOPT_HTTPHEADER, $Headers);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_USERAGENT, $this->_user_agent);

foreach ($text as $k => $t) {

$t = urlencode($t);

$ref = "http://translate.google.ru/#{$this->_lang_s}|{$this->_lang_t}|{$t}" ;
curl_setopt($ch, CURLOPT_REFERER, $ref);
curl_setopt($ch, CURLOPT_URL, sprintf($url, $t));
$body = curl_exec($ch);
if (CURLE_OK != curl_errno($ch)) {
throw new google_translator_exception (curl_error($ch));
}
$body = iconv('KOI8-R', 'UTF-8', substr($body,2));
$result[$k] = preg_replace('@^\[\"(.*)\",\".*$@Uu', '$1', $body);
if ($this->_sleep) sleep($this->_sleep);
}

curl_close($ch);

return $is_array ? $result : array_pop($result);
}

}

если подаю английский язык

<?php
echo $gt->set_langs('en', 'ru')->set_text('i\'m testing')->translate() ;

"Я тестирую"

всё норм , но если другой язык:

<?
echo $gt->set_langs('de', 'ru')->set_text('mutter')->translate() ;

получаю ответ в таком виде:

\u043C\u0430\u0442\u044C

я так понимаю что это "мать" ,

как преобразовать , что это за символы такие , или может что-то в класе подправить надо ?

Link to comment
Share on other sites

1 answer to this question

Recommended Posts

  • 0

Это NFC нормализованный юникод. Почему вы получаете результат именно в таком виде не скажу, не имел дела с переводчиком гугла. Может вы где-то допускаете ошибку, а возможно гугл отдает в таком виде. Кстати сказать NFC это рекомендуемый метод нормальзации W3C, к примеру javascript его поймет без проблем(alert("\u043C\u0430\u0442\u044C"); выведет окно со словом мать). А вот в php стандартных функций для преобразования насколько я помню нет.

В сети есть решения людей(только что нашел):


$str = "\u043C\u0430\u0442\u044C";
$arr = explode('\\u', $str);
foreach ($arr as $char) {
$out = iconv('utf-16', 'utf-8', hex2str($char));
print $out;
}

function hex2str($hex) {
$r = '';
for ($i = 0; $i < strlen($hex) - 1; $i += 2)
$r .= chr(hexdec($hex[$i] . $hex[$i + 1]));
return $r;
}

и вот такой способ:


function normJsonStr($str){
$str = preg_replace_callback('/\\\u([a-f0-9]{4})/i', create_function('$m', 'return chr(hexdec($m[1])-1072+224);'), $str);
return iconv('cp1251', 'utf-8', $str);
}

Но я пошел в свое время другим путем когда столкнулся с нормализованным текстом в юникоде. json_encode() возвращает json с нормализованной кириллицей )) ну вот я сделал просто в обратную сторону, можно считать что стандартный способ в php все же есть=).


$str = "\u043C\u0430\u0442\u044C";
$obj = json_decode('{"str":"'.$str.'"}');
echo $obj->str;

Edited by wwt
Link to comment
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Answer this question...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

 Share

×
×
  • Create New...

Important Information

We have placed cookies on your device to help make this website better. You can adjust your cookie settings, otherwise we'll assume you're okay to continue. See more about our Guidelines and Privacy Policy