Автоматика, вперёд! (Извлекаем текст из PDF)

На днях мне в очередной раз понадобилось извлечь текст из PDF-файла. Copy-paste, конечно, никто не отменял, но страниц в файле было много, возить мышкой по ним лень… И тут как раз вспомнилось, что в Mac OS X есть замечательное средство для автоматизации рутинных операций. И зовут его Automator.

Так что открываем его. (Кстати, вопрос: как в Mac OS X открыть программу, не отрывая рук от клавиатуры? Сторонним софтом не пользоваться!)

При запуске выпадет панелька с выборов типов проекта. Нам нужна «Программа»:

Выбор типа проектаДальше, в рабочем окне Автоматора, строим «процесс» (в английской версии — workflow) из действий (actions), как домик из Лего (Кто использует на уроках Scratch, сразу поймет, о чем это я).

Наш «домик» будет всего из двух кубиков. Первый — «Получить выбранные объекты Finder». Его вы найдете в разделе Библиотеки под названием «Файлы и папки»:

Получить объекты Finder

Перетягиваем его на правую панель. Настраивать тут ничего не надо — он просто передает следующему действию те файлы, которые будут «брошены» на иконку созданной программы.

Теперь следующий «кубик». В разделе «PDF-файлы» находим «Извлечь текст PDF» и тоже кидаем его в правую панель:

Извлечь текст

Вот здесь уже есть несколько параметров, которые можно поменять.

На мой взгляд, практически всё лучше оставить, как есть. Вот только «Выход», возможно, стоит сделать не в простой текст, а в RTF.

Примечание. Если захотите воспользоваться полями «Добавить заголовок страницы» и «Добавить нижний колонтитул страницы», учтите, что переводчики в порыве энтузиазма перевели служебное слово. Чтобы в тексте появились номера страниц, его придется перевести обратно на английский — «Страница» после двух «решеток» заменить на «Page».

Остальные настройки, по-моему, совершенно очевидные. Заканчиваем наш тяжкий труд 😉 сохранением созданной программы. Бросаем на появившуюся иконку документ в формате PDF, убеждаемся, что всё работает, и рядом появился RTF-файл с извлеченным текстом.

Заметьте: наша программа извлекает текст, содержащийся внутри PDF; не рассчитывайте, что она сможет распознать текст в растровых картинках!

Это только пример применения Автоматора. Но если вы внимательно посмотрите на те «кубики»-действия, которые в нем есть, наверняка придумаете еще не один способ упростить себе жизнь.


А теперь ответ на вопрос из начала заметки.

  1. Ctrl+Пробел — открывается поле ввода Spotlight.
  2. Начинаем вводить название программы (не обязательно начало!) — Spotlight подбирает подходящие имена файлов.
  3. Как только найдена и выделена как «наилучшее совпадение» искомая программа (для Автоматора мне оказалось достаточно набрать первые две буквы — au), жмем Enter.

Программа запущена! Поверьте, это быстрее, чем поиск нужной иконки в папке Программы, панели Launchpad… Даже то, что у меня закреплено в Доке, я6 бывает, запускаю описанным способом через Spotlight.

Add a Comment