סוגריים מתהפכים בהעתקה מ-PDF

כל מי שניסה להעתיק טקסט מ-PDF, בטח נתקל בתופעה של הסוגריים המתהפכים:

טקסט בקובץ PDF שהועתק לפנקס רשימות - הסוגריים מתהפכים

אפשר לראות בתמונה שבקובץ ה-PDF הטקסט מוצג כמו שצריך, אך כשהועתק לפנקס רשימות, הסוגריים הימניים הפכו לסוגריים שמאליים, והסוגריים השמאליים הפכו לסוגריים ימניים.

להוצאת ספרים מסויימת זה הפריע מאד. הם מפיקים גם ספרים מודפסים, וגם מעלים את הקבצים למאגר ממוחשב שבו הקוראים יכולים לבצע חיפושים, אך כשהמשתמש מזין בשורת החיפוש טקסט המכיל סוגריים, הוא לא מוצא מה שחיפש, אלא אם כן יקליד את הסוגריים הפוך.

הם שאלו אותי אם יש פתרון, אבל קודם הסברתי להם למה זה קורה:

לסוגריים ימניים אנחנו מתייחסים כאל הסימן הפותח את הסוגריים ולסוגריים שמאליים כסימן הסוגר אותם, אך באנגלית זה הפוך: הסוגריים השמאליים הם הפותחים והסוגריים הימניים הם הסוגרים. מכיון שתקן הקידוד יוניקוד (וכן ASCII) נקבע לפי השפה האנגלית לצערנו, כשאנחנו מקלידים פתיחת סוגריים בעברית, משתמשים בתו שבד”כ מתייחס לסגירת סוגריים. ההחלטה איזו סוגריים להציג, נקבעת לפי כיוון התוים. כאשר כיוון הכתיבה הוא מימין לשמאל, כמו בעברית, הסוגריים שיופיעו יהיו התו שנקרא RIGHT PARENTHESIS כלומר סוגריים ימניים, וכשכיוון הכתיבה הוא משמאל לימין, התו שיופיע בפתיחת הסוגריים יהיה התו LEFT PARENTHESIS. כשאנו מייצאים את הקובץ ל-PDF, הטקסט לא עובר כטקסט חי כפי שהוא בתוכנה בה נוצר, אלא הוא מצטייר מחדש בהתאם *לנראות* שלו. לדוגמה, אם לפי העיצוב שלנו יצא שמילה מסויימת תהיה בסוף השורה, כשנעתיק את הטקסט לתוכנה אחרת, נראה שאותה מילה תהיה בסוף השורה, ואחריה יופיע מעבר פסקה (אנטר), וכן שאר השורות – נשברו בדיוק כפי שהן הסתיימו ב-PDF, למרות שבתוכנה שבה הדבקנו יש יותר מקום לטקסט

דבר דומה קורה כשאנו מעתיקים טקסט עם סוגריים מקובץ PDF. מבחינה לוגית, מדובר כאן בפתיחת סוגריים, מבחינה ויזואלית – מופיע כאן התו של סגירת סוגריים (כי אין התייחסות לטקסט שמסביב, אלא לסימן עצמו). בהעתקה מועתק הערך הלוגי של הסימן ולא דוקא הניראות של הסימן עצמו, ולכן מופיע התו ההפוך.

הפתרון שהצעתי להם הוא להפוך את הסוגריים מבחינה לוגית כדי שהתו LEFT PARENTHESIS – ) יהיה התו שפותח את הסוגריים, והתו RIGHT PARENTHESIS יהיה התו שסוגר. כדי שהנראות לא תשתבש, יש לשנות את הכיווניות של התוים וכך הם יחזרו למראה המקורי שלהם.

דרך הפעולה היא כזו:

  1. קודם כל, ליצור סגנון תו חדש, (אני קראתי לו בשם LTR) שההגדרות היחידות שלו הם כיוון התוים משמאל לימין (Character Direction:Left-to-Right) ושפה אנגלית (Language: English USA). אני לא חושב שהשפה זה הכרחי, אבל שיהיה, ליתר ביטחון.

חלון סגנון התו עם ההגדרות left to right ושפה אנגלית

השפה נקבעת בלשונית Advanced Character Formats:

חלון הגדרת סגנון תו עם בחירת השפה אנגלית

כיוון התו נקבע בלשונית Middle East Character Formats

חלון הגדרת סגנון תו עם בחירת כיוון התו left-to-right

2. לאחר מכן, יש לבצע חיפוש והחלפה לסוגריים ולהחליף אותם בסוגריים ההפוכים.

חלון החיפוש והחלפה עם ביטוי למציאת טקסט בסוגריים והחלפת הסוגריים

הקוד לחיפוש ב-GREP הוא: (\()(.+?)(\))

והקוד להחלפה הוא: $3$2$1

[ההסבר לקוד:

חילקתי את מחרוזת החיפוש לשלשה ביטויי משנה באמצעות סוגריים.

בקבוצה הראשונה (\() מופיעה רק פתיחת הסוגריים
הקבוצה השנייה (.+?) מוצאת תו כלשהו (.) פעם אחת או יותר (+), בהתאמה הקצרה ביותר (?) – כדי שאם יש יותר מהופעה אחת של סוגריים בפסקה, הוא לא יחשיב את כולם כטקסט בסוגריים אלא כל קטע של סוגריים בפני עצמו
הקבוצה השלישית – (\)) – סגירת הסוגריים
בהחלפה אנחנו מורים לאינדיזיין להחליף בין קבוצה 1 לקבוצה 3, וקבוצה 2 תישאר במקומה]
התוצאה שצריכה להתקבל היא שכל הסוגריים יתהפכו, כמו בתמונה מפנקס רשימות בראש המאמר.
מכיון שיש עוד סוגים של סוגריים, כדאי לחזור על הפעולה גם לסוגריים המרובעים והמסולסלים. צריך להחליף רק בקבוצה הראשונה והשלישית את הסימנים ולחזור על הפעולה של ההחלפה.
3. השלב הבא הוא להגדיר את סגנון התו שיצרנו, לסימני הסוגריים בלבד
אפשר לעשות את זה בחיפוש והחלפה, אך אני מעדיף לעשות זאת בסגנון GREP לכל סגנונות הפיסקה שבספר
אם כולם מבוססים על סגנון אחד ([Basic Paragraph]), הכי פשוט לעשות זאת שם, אך אם לא – יש לעבור סגנון סגנון ולעשות זאת בכל סגנון בנפרד.
חלון סגנון הפיסקה עם ההגדרה GREP STYLE להחלת סגנון התו LTR על סימני הסוגריים
הקוד הוא
[][)(}{]
והמשמעות היא שלושת סוגי הסוגריים
אחרי שעושים את זה – כל הסוגריים אמורים לחזור להיראות כפי מצבם המקורי, אך הפעם הם ב-PDF הם יהיו נכונים לא רק מבחינת המראה אלא גם מבחינה לוגית.

 

אהבתם את הטיפ? שתפו עם חברים!
אפשר גם לפרגן לי בכוס קפה...

מה דעתך על הטיפ?

תגובה אחת

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

אל תפספסו טיפים חדשים

הירשמו לניוזלטר וכך תקבלו התראה במייל בכל פעם שיעלה טיפ חדש

יש לכם שאלה באינדיזיין?

מוזמנים לקבוצת הוואצאפ!

מוצרים במיוחד בשבילך

קובץ אינדיזיין – “שיר השירים” מוכן לעימוד

 150 כולל מע"מ

קובץ קריאת התורה לשני וחמישי – מוכן לעימוד

 400 480 כולל מע"מ

קובץ ברכת המזון מוכן לעימוד

 90 כולל מע"מ

קובץ אינדיזיין – “מגילת רות” מוכן לעימוד

 350 כולל מע"מ

אל תפספסו טיפים חדשים

הירשמו לניוזלטר וכך תקבלו התראה במייל בכל פעם שיעלה טיפ חדש