מדריך: חילוץ נתונים מ-PDF עם AI בלי להעתיק ידנית

מדריך: חילוץ נתונים מ-PDF עם AI בלי להעתיק ידנית
מאת רועי טל | 14 באפריל 2026 | 12 דקות קריאה
אם אתם מבלים שעות בשבוע בהעתקת נתונים מחשבוניות, דוחות ותעודות משלוח לתוך Excel - אתם לא לבד, וזה לגמרי מיותר. עם AI מודרני וכלי אוטומציה פשוטים, אפשר להפוך ערימה של PDF לטבלה מסודרת תוך דקות, בלי לגעת בכלום ידנית. במדריך הזה אני מראה לכם בדיוק איך לבנות את הזרימה הזו מאפס.
🎯מה תשיגו בסוף המדריך הזה
- ✅חסכו 5-10 שעות בשבוע של עבודה ידנית בחילוץ נתונים
- ✅הפכו מאות PDF לספרדשיט מובנה תוך דקות
- ✅בניתם אוטומציה שפועלת יום יום ללא התערבות ידנית
🛠️מה צריך לפני שמתחילים
ChatGPT Plus או Claude Pro - נדרש לניתוח קבצים
לאחסון הנתונים המחולצים - חינמי לחלוטין
לאוטומציה - יש מסלול חינמי מספיק להתחלה
חשבוניות, דוחות או טפסים שאתם רוצים לעבד
מסלול אוטומטי
Claude עושה הכל - אתם נותנים הוראות בשפה רגילה ומאשרים
מסלול טכני
כל קובץ, כל פקודה - בידיים שלכם
מסלול אוטומטי
Claude מוביל - אתם מאשרים
תארו ל-Claude את ה-PDF שלכם וקבלו מבנה טבלה
פתחו Claude.ai. אין צורך להעלות קובץ - פשוט העתיקו מה-PDF 5-10 שורות לדוגמה (copy-paste טקסט רגיל) ושלחו עם הבקשה הבאה. Claude יזהה את המבנה מהדוגמה שתתנו לו:
💬 תגידו ל-Claude:
הנה קטע מה-PDF שאני עובד איתו: [הדביקו כאן 5-10 שורות לדוגמה מה-PDF] אני רוצה לחלץ ממנו נתונים לטבלה. בבקשה: 1) זהה אילו שדות מידע קיימים (לדוגמה: מספר חשבונית, תאריך, שם לקוח, סכום). 2) הצע מבנה טבלה עם כותרות עמודות מתאימות. 3) שאל אם יש שדות נוספים שאני רוצה לכלול.
Claude יזהה את המבנה מהדוגמה שנתתם ויציע טבלה. אשרו או בקשו שינויים - המסלול כולו עובד בלי העלאת קבצים, כי Make.com מטפל בזה אוטומטית בהמשך.
בקשו מ-Claude לחלץ את הנתונים בפורמט CSV
אחרי שאישרתם את מבנה הטבלה, שלחו את ה-prompt הבא כדי לקבל את הנתונים בפורמט שאפשר להדביק ישירות ב-Google Sheets:
💬 תגידו ל-Claude:
עכשיו חלץ את כל הנתונים מה-PDF לפי המבנה שהסכמנו עליו. הצג את הפלט כטבלת CSV עם פסיקים כמפרידים, שורת כותרת בשורה הראשונה, וכל רשומה בשורה נפרדת. אם יש ערכים חסרים תכתוב "N/A". אל תוסיף הסברים - רק את ה-CSV עצמו.
העתיקו את פלט ה-CSV, פתחו Google Sheets חדש, בחרו File - Import - Paste data והדביקו. הנתונים ייכנסו לעמודות בצורה מושלמת.
בנו את הסצנריו ב-Make - עם Claude או לבד
יש שתי דרכים לגשת לשלב הזה. בחרו את מה שמתאים לכם:
הדרך הפשוטה. Claude מסביר בדיוק מה ללחוץ - אתם מגדירים ב-Make לפי ההוראות.
💬 תגידו ל-Claude:
אני רוצה לבנות אוטומציה ב-Make.com שתעשה את הדברים הבאים: כשקובץ PDF חדש נוסף לתיקייה ב-Google Drive, שלח אותו ל-OpenAI Vision API לחילוץ נתונים לפי השדות שדיברנו עליהם, ואז הוסף שורה חדשה ל-Google Sheets שלי. תן לי הוראות שלב אחר שלב איך להגדיר את ה-Scenario הזה, כולל אילו Modules לבחור ואיזה JSON להכניס בהגדרות.
Make.com מספק שרת MCP רשמי שמאפשר ל-Claude לפעול ישירות בחשבון Make שלכם - לראות, לשנות ולהריץ סצנריות. זה מחייר מעט יותר הגדרה ראשונית, אבל אז Claude הופך לשותף אמיתי.
שלב 1 - Claude.ai (הדרך המהירה):
- 1.ב-Claude.ai לחצו על שם המשתמש שלכם ← Settings ← Connectors
- 2.חפשו "Make" ולחצו על +
- 3.עברו OAuth - בחרו את ה-organization ב-Make ואשרו הרשאות
- 4.Claude יוכל כעת להריץ סצנריות קיימות, ובפלאן בתשלום - גם לשנות אותן
שלב 1 - Claude Code / Claude Desktop (יותר שליטה):
- 1.ב-Make.com צרו MCP Toolbox (בתפריט המפתחים) וקבלו URL + מפתח
- 2.ב-Claude Desktop: Settings ← Connectors ← Add Custom Connector
- 3.הכניסו את ה-URL בפורמט:
https://eu2.make.com/mcp/server/.../t/.../stateless
💬 אחרי החיבור - תגידו ל-Claude:
יש לך גישה ל-Make שלי. בנה לי Scenario חדש: כשקובץ PDF נוסף לתיקייה "חשבוניות" ב-Google Drive, שלח את תוכנו ל-Anthropic Claude לחילוץ השדות: מספר חשבונית, תאריך, ספק, סכום כולל - ואז הוסף שורה ב-Google Sheets בשם "נתוני חשבוניות". הגדר את הסצנריו לרוץ כל שעה.
חשוב: דרך MCP, Claude יכול להריץ ולשנות סצנריות קיימות. ליצירת סצנריו חדש מאפס - הוא יכין עבורכם את ה-Blueprint JSON שתייבאו ל-Make בלחיצה אחת (File ← Import Blueprint).
בדיקת תקינות - וודאו שהכל עובד
לפני שמפעילים את האוטומציה על כל הקבצים, הריצו בדיקה על 3-5 PDF לדוגמה:
- ✓העלו PDF אחד ידנית דרך Make.com ובדקו שהשורה נוצרת בשיטס
- ✓השוו את הנתונים המחולצים מול המסמך המקורי - בדקו 5 שדות לפחות
- ✓וודאו שמספרים (סכומים, תאריכים) מחולצים בפורמט הנכון
- •PDF סרוק (תמונה בלבד) - Claude לא יוכל לקרוא טקסט ממנו ישירות. השתמשו ב-ChatGPT GPT-4V שמעבד תמונות טוב יותר, או הריצו OCR קודם עם Adobe Acrobat / Google Drive (פתחו עם Google Docs).
- •נתונים מחולצים בצורה שגויה - הוסיפו דוגמאות ספציפיות ל-prompt שלכם ("מספר חשבונית תמיד מופיע אחרי המילה 'חשבונית מס'" ).
- •Make.com מגיע ל-1,000 פעולות בחינם בחודש - לעבודות גדולות שדרגו לפלאן הבסיסי.
מסלול טכני
שליטה מלאה - כל שלב בידיים שלכם
חילוץ טקסט מ-PDF עם Python ו-pdfplumber
התקינו את הספרייה והריצו את הסקריפט הבא כדי לחלץ טקסט גולמי מה-PDF שלכם:
pip install pdfplumber openai
import pdfplumber
def extract_text_from_pdf(pdf_path):
full_text = ""
with pdfplumber.open(pdf_path) as pdf:
for page in pdf.pages:
full_text += page.extract_text() or ""
full_text += "\n---PAGE BREAK---\n"
return full_text
text = extract_text_from_pdf("invoice.pdf")
print(text[:2000])
שימו לב: אם הפלט ריק, ה-PDF שלכם סרוק. עברו לשלב האלטרנטיבי עם pytesseract למטה.
שליחת הטקסט ל-OpenAI API לחילוץ מובנה
השתמשו בסקריפט הבא לשליחת הטקסט ל-GPT-4 וקבלת JSON מובנה בחזרה. החליפו את השדות ב-prompt לפי סוג המסמך שלכם:
import openai
import json
client = openai.OpenAI(api_key="YOUR_API_KEY")
def extract_invoice_data(text):
prompt = f"""Extract the following fields from this invoice text.
Return ONLY valid JSON, no explanation.
Fields to extract:
- invoice_number
- date (YYYY-MM-DD format)
- vendor_name
- customer_name
- total_amount (number only)
- currency
- line_items (array of objects with: description, quantity, unit_price)
Invoice text:
{text}"""
response = client.chat.completions.create(
model="gpt-4-turbo",
messages=[{"role": "user", "content": prompt}],
response_format={"type": "json_object"}
)
return json.loads(response.choices[0].message.content)
data = extract_invoice_data(text)
print(json.dumps(data, ensure_ascii=False, indent=2))
ייצוא ל-CSV ועדכון Google Sheets אוטומטי
הריצו את הסקריפט הבא כדי לעבד תיקייה שלמה של PDF ולייצא הכל ל-CSV בבת אחת:
import os
import csv
import pdfplumber
PDF_FOLDER = "./pdfs"
OUTPUT_CSV = "extracted_data.csv"
fieldnames = [
"invoice_number", "date", "vendor_name",
"customer_name", "total_amount", "currency", "source_file"
]
with open(OUTPUT_CSV, "w", newline="", encoding="utf-8") as csvfile:
writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
writer.writeheader()
for filename in os.listdir(PDF_FOLDER):
if not filename.endswith(".pdf"):
continue
path = os.path.join(PDF_FOLDER, filename)
text = extract_text_from_pdf(path)
data = extract_invoice_data(text)
data["source_file"] = filename
flat_data = {k: data.get(k, "N/A") for k in fieldnames}
writer.writerow(flat_data)
print(f"Processed: {filename}")
print(f"Done. Output saved to {OUTPUT_CSV}")
ייבאו את ה-CSV ל-Google Sheets: File - Import - Upload - בחרו את הקובץ extracted_data.csv.
תזמון אוטומטי עם GitHub Actions (חינמי)
צרו קובץ .github/workflows/process-pdfs.yml כדי שהסקריפט ירוץ אוטומטית כל לילה:
name: Process PDFs Nightly
on:
schedule:
- cron: '0 2 * * *'
workflow_dispatch:
jobs:
extract:
runs-on: ubuntu-latest
steps:
- uses: actions/checkout@v3
- name: Set up Python
uses: actions/setup-python@v4
with:
python-version: '3.11'
- name: Install dependencies
run: pip install pdfplumber openai
- name: Run extraction
env:
OPENAI_API_KEY: '${{ secrets.OPENAI_API_KEY }}'
run: python extract.py
- name: Upload CSV artifact
uses: actions/upload-artifact@v3
with:
name: extracted-data
path: extracted_data.csv
הוסיפו את ה-OPENAI_API_KEY כ-Secret ב-GitHub Repository Settings - Secrets. הסקריפט ירוץ כל לילה בשעה 02:00 UTC.
🔍 בדיקה ופתרון בעיות
שגיאה: JSONDecodeError
ה-API החזיר טקסט לא תקין. הוסיפו try/except עם retry לוגיק, או הורידו את מורכבות ה-prompt.
טקסט ריק מה-PDF
PDF סרוק - התקינו pytesseract ו-pdf2image והריצו OCR לפני החילוץ.
RateLimitError מ-OpenAI
הוסיפו time.sleep(1) בין בקשות, או עברו לעיבוד batch עם OpenAI Batch API (50% זול יותר).
שדות חסרים בפלט
שפרו את ה-prompt עם דוגמאות (few-shot) - הוסיפו Example Input ו-Example Output לפני הטקסט האמיתי.
רמה הבאה: Paperclip - ניהול צוות של סוכני AI
כשהאוטומציה שלכם צומחת - זה הכלי לנהל אותה
כשיש לכם כבר Make.com שמעבד PDF, Claude שמחלץ נתונים, ואולי גם כמה scripts שרצים - מגיע הרגע שצריך כלי לניהול כל הסוכנים האלה יחד. Paperclip הוא פלטפורמת אורקסטרציה open-source עם 53,000+ כוכבים ב-GitHub שנבנתה בדיוק לזה.
כל סוכן מקבל תפקיד, מטרה ותקציב. יש מבנה היררכי - CEO, CTO, מפתחים - כולם סוכני AI שעובדים יחד.
תקציב חודשי לכל סוכן. כשמגיעים לסכום - הסוכן עוצר. אין הפתעות בחשבון.
מעקב אחרי כל הסוכנים, אישור החלטות ועצירה מיידית - מכל מקום.
⚡ התקנה מהירה (Claude Code + npx)
npx paperclipai onboard --yes
מפעיל שרת מקומי עם ממשק React, מסד נתונים אוטומטי - בלי הגדרות נוספות. קוד פתוח, self-hosted, רישיון MIT.
רוצים להישאר צעד אחד קדימה?
הירשמו וקבלו עדכונים שוטפים על כלי AI חדשים, מדריכים מעשיים וטיפים שיחסכו לכם זמן!
השאירו פרטים וקבלו התראה ישירות לתיבת הדואר עם כל פוסט חדש. ערך מובטח, ללא ספאם. 💌