Тут такая штука: PDF это графический формат (как и DjVu, например).
То есть каждая страница: это просто картинка, если повезёт, то векторная, как и положено, но бывает и растр, когда надо сохранить исконный вид какого-то старинного документа.
А текст, который можно с этой картинки скопировать — это отдельный слой, добавленный программой распознавания (не в курсе, можно ли вкладывать готовый, но надеюсь, да). И этот слой: в формате plain text. В нём нет никакой инфы про жирность, курсив, подчёркивание
et cetera. Собственно, некоторые ридеры этот слой позволяют увидеть: тупо чёрный текст на белом фоне.
Поэтому единственный способ "выкопировать", сохраняя разметку — это обработать PDF-файл OCR-программой, умеющей видеть эту разметку и умеющей сохранять распознанное в формат, отличный от PDF, который её сохранит. Например, в HTML.
Лично я пользуюсь старенькой ABBYY PDF Transformer 3.0, которая когда-то в 2009 распространялась бесплатно на дисках к компьютерным журналам.
Результат работы
здесь.
Если мешают полосы, выключите CSS-стили на странице.