hi all,
i am trying to read a french (html) page, which is encoded in utf-8, then i extract the text from the htmlcode to write it in txt-file.
the problem is that some chars are converted to some strange chars, more strange than that is, not each occurrence this chars are converted.
for example:
Du temps du président Sukarno, l’Indonésie affichait sans équivoque son mépris pour les contraintes du développement économique et les relations qu’il implique avec les pays occidentaux.
is converted to:
Du temps du président Sukarno, l’Indonésie affichait sans équivoque son mépris pour les contraintes du développement économique et les relations qu’il implique avec les pays occidentaux.
please see that "é" in président is converted to "é" but the "é" in Indonésie isn't
thanks for help
i am trying to read a french (html) page, which is encoded in utf-8, then i extract the text from the htmlcode to write it in txt-file.
the problem is that some chars are converted to some strange chars, more strange than that is, not each occurrence this chars are converted.
for example:
Du temps du président Sukarno, l’Indonésie affichait sans équivoque son mépris pour les contraintes du développement économique et les relations qu’il implique avec les pays occidentaux.
is converted to:
Du temps du président Sukarno, l’Indonésie affichait sans équivoque son mépris pour les contraintes du développement économique et les relations qu’il implique avec les pays occidentaux.
please see that "é" in président is converted to "é" but the "é" in Indonésie isn't
thanks for help