Есть txt файл, в 1,5М в 143 тыс строчек с японскими иерогами, отсортированными по частоте использования в японских газетах. В файле используется старая кодировка, поэтому иероги не просто "плохо" отражаются, с ??? и т.д., там просто
не те иероги отражаются
У этого явления даже есть собственное название:
модзибаке. Парсер неправильно комбинирует байты кодировки и в результате иероги получаются, но не те, которые нужны.
Единственная причина, почему я догадался, что файл левый, это по тому, что если ему верить, то самое частое знаменательное слово в японских газетах - "плакать"
Если это можно было бы списать на культурные различия, то второе по частоте слово явно не "крабовая клешня".
Мне удалось "починить" файл, открыв его в хроме и насильно изменив кодировку с UTF-8 на EUC-JP. Однако сохранить излеченный файл не удалось: так как он изначально был txt, то изменённая кодировка нигде не сохраняется. Я вставил код html с кодировкой в сам файл и с помощью Notepad сохранил его в формате html. Почти всё хорошо, кроме одной детали - все строчки теперь слиплись в сплошной текст, так как <br> там естественно не появились. Я не использовал Word и т.д. так файл из-за его тяжести процессинга завешивает программы. Даже Notepad страшно тормозит, если что-то вставлять в файл.
Вопрос: Как сделать файл удобочитаемым опять? а) вставить <br> в каждую строчку html файла,
автоматически? б) навязать кодировку txt файлу? в) какой-то другой вариант, который мне не пришёл в голову?
Идеи?