Новая проблема. Есть вот такая страница:
https://accent.u-biq.org/a.html Это только буква "А" словаря, ещё есть остальные 45 букв алфавита + имена, географические названия и т.д. (меню справа).
Это словарь ударений и как вы видите красной разметкой расчерчен контур. Сохранить в виде отдельных страниц можно, но лучше импортировать в Эксель, так как а) надо интегрировать с другими словарями б) искать что-то по 60 отдельным файлам более, чем неудобно.
Проблема: как можно догадаться - сама красная разметка, при тупом копировании она теряется, а она как бы и есть суть словаря. Она организована следующим образом: каждая часть слова с разным тоном обрамлена тегами типа <span class=3D"аX">АБВ....</span>, где X =(1..4) в зависимости от начертания, 1= подчеркивание снизу и подъём вверх после слога, 2 - надчёркивание и спуск, 3 - подчёркивание (без подъёма), 4 - надчёркивание (без спуска).
Я думал открыть страницу в Notepad’e++ и выкопировать оттуда, заменяя <span> тем, чем мне надо уже в Экселе. Проблема в том, что все японские символы хранятся в виде html reference и при экспортировании они остаются в виде =A2[ и т.д. А дальше как?
Можно как-нибудь заставить Notepad++ преобразовать html reference в сами символы? Кодировка файла Shift-JIS