Document Loader คืออะไร? ให้ AI อ่านเอกสารคุณได้ง่ายๆ ใน Langchain

คือเครื่องมือที่ช่วยให้ AI “อ่านเอกสารของเราได้”

ลองนึกภาพว่า…

  • คุณมีเอกสารบริษัทเป็นไฟล์ .txt ที่เขียนรายละเอียดธุรกิจของคุณไว้
  • แล้วคุณอยากให้ AI “รู้จักบริษัทของคุณ” แบบลึกซึ้ง เพื่อให้ตอบคำถามได้
  • เช่น “บริษัท ABC ให้บริการอะไร?” หรือ “ใครเป็นผู้ก่อตั้ง?”

ถ้าจะให้ AI ตอบได้ คุณต้อง “ป้อนเอกสารเข้าไปก่อน”
ซึ่งตรงนี้เองที่ Document Loader จะเข้ามาช่วยครับ


⚙️ ทำงานยังไง?

  1. ติดตั้งตัวช่วย (LangChain Community)
    ให้ AI อ่านเอกสารได้ ต้องติดตั้งตัวช่วยก่อน โดยใช้คำสั่งนี้: bashCopyEditpip install langchain-community
  2. โหลดเอกสารเข้าระบบ
    ในตัวอย่างนี้ อาจารย์ใช้ไฟล์ชื่อ data.txt ซึ่งเป็นไฟล์ .txt ธรรมดา ภายในไฟล์นี้จะมีข้อมูล เช่น: makefileCopyEditชื่อบริษัท: ABC ประเภทธุรกิจ: จำหน่ายของเล่น หนังสือการ์ตูน ผู้ก่อตั้ง: กรรณัสยาม ปีที่ก่อตั้ง: 2566
  3. ใช้ TextLoader อ่านไฟล์
    LangChain มีตัวที่ชื่อว่า TextLoader เอาไว้ใช้ “อ่านไฟล์ข้อความ” โดยต้องระบุ:
    • ชื่อไฟล์ เช่น data.txt
    • ระบบภาษาที่ใช้ (encoding) เช่น utf-8 สำหรับภาษาไทย
  4. โหลดและเก็บข้อมูลไว้ในตัวแปร documents
    เมื่อโหลดแล้ว ระบบจะ “เก็บเอกสารไว้ในความจำ” เพื่อนำไปใช้ต่อ เช่น:
    • แสดงผลบนหน้าจอ
    • แปลงเป็นตัวเลขเพื่อใช้กับ AI
    • เก็บไว้ในฐานข้อมูล (vector store)

🧪 ตัวอย่างการใช้งาน

  1. คุณมีไฟล์ .txt ที่เก็บข้อมูลธุรกิจของตัวเอง
  2. คุณสั่งให้ LangChain อ่านไฟล์นี้ ด้วย TextLoader
  3. LangChain จะเปิดไฟล์ → อ่านข้อความ → จัดเก็บเข้าไปในตัวแปร
  4. แล้วคุณสามารถเอาข้อมูลที่อ่านได้ ไปให้ AI ใช้ต่อ เช่น:
    • ตอบคำถามเกี่ยวกับบริษัท
    • สรุปบริการที่ให้
    • หรือค้นหาว่าบริษัทตั้งเมื่อไหร่ ฯลฯ

🧭 Workflow การเขียนโปรแกรม: โหลดเอกสารให้ AI อ่านด้วย LangChain


🔁 1. เตรียมข้อมูล (Data Preparation)

📝 สร้างไฟล์ข้อมูลที่ต้องการให้ AI เรียนรู้ เช่น .txt
✅ ควรเป็นข้อมูลที่มีความหมาย เช่น โปรไฟล์บริษัท, คำอธิบายบริการ ฯลฯ

ตัวอย่างไฟล์: data.txt
เนื้อหาในไฟล์:

ชื่อบริษัท: ABC  
ประเภทธุรกิจ: ของเล่นและหนังสือการ์ตูน  
ผู้ก่อตั้ง: หมี 
ปีที่ก่อตั้ง: 2566  
บริการ: จำหน่ายของเล่น, หนังสือการ์ตูน, พรีออเดอร์สินค้าหายาก  

⚙️ 2. เตรียม Python Script (Environment Setup)

👨‍💻 สร้างไฟล์ .py สำหรับเขียนคำสั่ง
และติดตั้งเครื่องมือ LangChain

คำสั่งติดตั้ง:

pip install langchain-community

ไฟล์ Python: read.py


📥 3. โหลดเอกสารด้วย Document Loader

🧠 ใช้ LangChain ดึงข้อมูลจากไฟล์ .txt เข้า Python เพื่อให้ AI ใช้งานได้

ขั้นตอนในโค้ด:

from langchain_community.document_loaders import TextLoader

# โหลดเอกสาร
loader = TextLoader("data.txt", encoding="utf-8")

# อ่านเนื้อหาแล้วเก็บไว้ในตัวแปร
documents = loader.load()

📌 ตอนนี้ข้อมูลจาก data.txt ได้ถูกอ่านเข้ามาไว้ในตัวแปร documents


🔍 4. ทดสอบว่าโหลดข้อมูลได้จริงหรือไม่

🖨️ ปริ้นดูผลลัพธ์ เพื่อยืนยันว่าเอกสารถูกโหลดมาถูกต้อง

pythonCopyEditprint(documents)

ผลลัพธ์ที่ได้จะเป็นข้อความจากไฟล์ เช่น:

[Document(page_content='ชื่อบริษัท: ABC\nประเภทธุรกิจ: ของเล่น...', metadata={'source': 'data.txt'})]

🧩 5. เตรียมใช้ข้อมูลในขั้นตอนต่อไป (Vectorization หรือ Embedding)

หลังจากโหลดเอกสารแล้ว จะนำข้อมูลนี้ไปใช้ในขั้นตอนต่อไป เช่น:

  • แปลงข้อความเป็นเวกเตอร์ (Embedding)
  • เก็บลง Vector Store
  • สร้างระบบถาม-ตอบ หรือ AI ที่รู้จักข้อมูลองค์กรของเรา

🗺️ ภาพรวม Workflow แบบ Step-by-Step

ลำดับขั้นตอนรายละเอียด
1เตรียมไฟล์ข้อมูลสร้าง .txt ที่มีเนื้อหาให้ AI อ่าน
2สร้างไฟล์โค้ดใช้ read.py สำหรับเขียนคำสั่ง
3ติดตั้ง LangChainติดตั้ง langchain-community ด้วย pip
4โหลดเอกสารใช้ TextLoader เพื่อโหลดเนื้อหาจากไฟล์
5ตรวจสอบข้อมูลใช้ print() ดูผลลัพธ์ว่าโหลดถูกต้องไหม
6พร้อมใช้งานต่อข้อมูลที่โหลดแล้วจะถูกใช้ต่อในกระบวนการ AI

🎯 จุดเด่นที่ควรรู้

  • ใช้งานง่าย: แค่มีไฟล์ .txt และติดตั้งแพ็คเกจนิดเดียว
  • รองรับภาษาไทย: แค่ระบุ encoding="utf-8"
  • ไม่ต้องพิมพ์ข้อมูลใหม่ซ้ำซ้อน: อ่านจากไฟล์ที่มีอยู่แล้ว
  • เป็นขั้นตอนแรกในการใช้ RAG: ถ้าคุณอยากให้ AI รู้ข้อมูลขององค์กร — ต้องเริ่มจากโหลดเอกสารก่อนเสมอ

🧠 สรุปเข้าใจง่าย

Document Loader คือ “ประตูด่านแรก” ที่เปิดให้ AI เข้าไปอ่านเอกสารของคุณ
เมื่ออ่านแล้ว AI จะจำ และนำไปวิเคราะห์ต่อได้ในขั้นตอนถัดไป เช่น สร้างคำตอบแบบแม่นยำหรือสรุปรายงาน


ถ้าอยากให้ AI อ่านไฟล์ PDF, Word, หรือเว็บไซต์ ก็สามารถใช้ Document Loader แบบอื่นได้เช่นกัน เช่น:

  • PDFLoader สำหรับไฟล์ PDF
  • WebBaseLoader สำหรับหน้าเว็บ
  • DirectoryLoader ถ้ามีหลายไฟล์ในโฟลเดอร์เดียว

🏁 พร้อมใช้แล้วทำอะไรต่อ?

หลังจากโหลดเอกสารด้วย TextLoader เสร็จแล้ว ขั้นตอนต่อไปคือ…

📌 “แปลงข้อความให้เป็นเวกเตอร์” หรือ “รหัสลับที่ AI เข้าใจได้”
ซึ่งอาจารย์จะสอนต่อในตอน Embedding และ Vector Store ครับ 😊

📢 แชร์บทความนี้ให้เพื่อนอ่านสิ!

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *