Ảnh minh họa quy trình dùng AI Agent chuyển PDF scan sang Word bằng một Skill có thư mục hướng dẫn, đầu vào, kết quả, báo cáo và lưu trữ gốc.

GIẢI PHÁP & ỨNG DỤNG · AI AGENT TRONG VIỆC VĂN PHÒNG

Dựng Skill AI Agent đầu tiên: chuyển PDF scan sang Word mà không phải gõ lại từ đầu

Một case nhỏ để hiểu cách giao việc cho AI Agent: xử lý PDF scan hoặc ảnh văn bản, dựng lại bản nháp có thể sửa, và báo rõ những chỗ bạn cần kiểm trước khi dùng.

GIẢI PHÁP & ỨNG DỤNG · AI AGENT TRONG VIỆC VĂN PHÒNG

Dựng Skill AI Agent đầu tiên: chuyển PDF scan sang Word mà không phải gõ lại từ đầu

Thanh Thanh · t2tDigital
27/05/2026
00:31

Giải Pháp & Ứng dụng · AI Agent · Skill cho việc văn phòng

Có những file PDF scan nhìn rất rõ chữ, nhưng khi cần sửa lại vài dòng thì bạn mới phát hiện: mình không có văn bản thật để chỉnh.
Bài này dùng nỗi đau rất quen đó để dựng thử một Skill AI Agent nhỏ, giúp bạn chuyển PDF scan sang Word bằng AI: tạo bản nháp chỉnh sửa được, giữ cấu trúc gần bản gốc, đánh dấu chỗ cần kiểm và không hứa OCR đúng 100%.

Có một kiểu việc dân văn phòng gặp hoài: nhận được một file PDF scan, một ảnh chụp văn bản, hoặc một tài liệu được gửi qua Zalo, email, máy scan, rồi cần sửa lại vài chỗ.

Nhìn bằng mắt thì file có chữ rõ ràng.

Nhưng khi cần chỉnh sửa, bạn không bấm vào từng chữ để sửa được.

Nếu dùng tool chuyển PDF sang Word, có khi kết quả rất đẹp.
Nhưng cũng có khi Word chỉ hiện lại một tấm ảnh chứa chữ, nằm trên trang Word trắng, còn bạn vẫn không sửa được từng chữ như văn bản thật.

Vấn đề không chỉ là “lấy chữ ra được hay không”. Vấn đề là lấy xong có đủ sạch, đủ đúng, đủ giữ cấu trúc để sửa tiếp hay không.

Mục lục nhanh

Trở về mục lục

Trước hết: không phải PDF nào cũng giống nhau

Có một điểm rất dễ gây hiểu lầm: hai file PDF nhìn bằng mắt có thể gần như giống hệt nhau, nhưng bên trong lại khác hoàn toàn.

Một file có thể là văn bản thật được đóng gói thành PDF. File kia có thể chỉ là ảnh chụp một tờ giấy được đưa vào PDF.

Loại thứ nhất: PDF có lớp chữ thật

Đây thường là PDF được xuất ra từ các file văn phòng hoặc phần mềm có dữ liệu chữ sẵn, ví dụ:

Word;
Excel;
Google Docs;
phần mềm kế toán;
phần mềm thiết kế;
các nguồn văn bản số khác.

Với loại này, bên trong PDF thường vẫn có lớp chữ thật. Vì vậy bạn có thể chọn chữ, copy chữ, tìm kiếm trong file, hoặc chuyển ngược sang Word khá tốt trong nhiều trường hợp.

Hiểu đơn giản:
đây là văn bản được đóng gói thành PDF,
nên máy tính vẫn còn “thấy” chữ bên trong.

Loại thứ hai: PDF ảnh hoặc PDF scan

Đây là loại PDF được tạo từ ảnh chụp, bản scan, hoặc file JPG/PNG chứa chữ rồi đóng gói lại thành PDF. Nhìn bằng mắt, bạn vẫn thấy chữ rất rõ. Nhưng với máy tính, phần chữ đó có thể chỉ đang nằm trong một tấm ảnh.

một tờ giấy được scan thành PDF;
một ảnh chụp văn bản từ điện thoại;
một file JPG có chữ được chuyển sang PDF;
một bản photo / scan nhiều trang được gom lại thành một file PDF.

Với loại này, nếu muốn có văn bản chỉnh sửa được, công cụ phải nhận diện chữ từ ảnh trước.
Đây chính là phần thường gây lỗi: sai dấu, sai chữ, mất bố cục, vỡ bảng, xuống dòng lung tung.

Nhìn thấy chữ trong PDF không có nghĩa là file có chữ chỉnh sửa được.
Có khi đó chỉ là ảnh có chữ nằm trong PDF.

Bài này tập trung vào loại thứ hai: PDF scan hoặc ảnh văn bản.
Vì đây mới là trường hợp làm dân văn phòng mệt nhất khi cần chuyển sang Word để sửa tiếp.

Nếu PDF có chữ thật,
việc chuyển đổi thường nhẹ hơn nhiều.
Nếu PDF chỉ là ảnh có chữ,
mình cần một quy trình cẩn thận hơn:
nhận diện chữ, dựng lại cấu trúc, và đánh dấu chỗ cần kiểm.

Bài này không tìm một “tool OCR thần kỳ”

Tool OCR không thiếu. Các công cụ chuyển PDF, nhận diện chữ từ ảnh, hoặc xuất PDF sang Word đã có rất nhiều.

Ngay cả các hướng dẫn chính thức như cách Google Drive chuyển PDF hoặc ảnh thành văn bản hay cách Adobe Acrobat dùng OCR cho PDF scan cũng cho thấy đây là nhu cầu rất phổ biến. Nhưng bài này không dừng ở chuyện chọn một công cụ OCR.

Nhưng nếu từng xử lý tài liệu tiếng Việt từ file scan, bạn sẽ biết phần mệt không dừng ở chuyện “có lấy được chữ hay không”.

Chữ lấy ra có thể sai dấu hoặc sai ký tự.
Đoạn văn bị xuống dòng lung tung.
Bảng biểu dễ vỡ.
Heading, danh sách, khoảng cách gần như mất hết.
Người dùng vẫn phải rà lại từng đoạn vì không biết chỗ nào OCR đọc sai.

Nói cách khác, nhiều công cụ có thể giúp bạn lấy chữ ra, nhưng phần cực vẫn còn đó: dựng lại thành một bản nháp chỉnh sửa được, giữ cấu trúc đủ dễ nhìn, rồi kiểm chỗ nào chưa chắc.

Đây là lý do case PDF scan → Word rất hợp để thử AI Agent: việc đủ nhỏ để kiểm được, nhưng đủ thật để thấy AI có thể gánh bớt phần cực.

Trong bài này, “case” có thể hiểu đơn giản là một tình huống thực hành cụ thể để mình nhìn thấy cách AI Agent làm việc trong đời thật.

Mình không muốn nói quá rằng AI sẽ chuyển mọi file scan thành Word hoàn hảo.

Bài này chỉ đi theo một hướng thực tế hơn: để AI Agent làm phần nhọc nhất trước, tạo một bản nháp gần nhất với bản gốc có thể và cho phép sửa tiếp, rồi báo rõ những chỗ bạn cần kiểm lại.

Luật quan trọng của Skill này là:
nếu không chắc chữ nào, AI không được đoán cho đẹp.
Phải giữ nguyên nghi ngờ và đánh dấu [CẦN KIỂM TRA].

AI không thay mình chịu trách nhiệm với văn bản.
Nhưng nếu chuẩn bị đúng cách,
nó có thể giúp mình bớt gõ lại, bớt dựng lại từ đầu,
và bớt kiểm trong mù mờ.

Vậy AI Agent là gì trong chuyện này?

Nếu nói thật ngắn, AI Agent là kiểu AI không chỉ trả lời một câu hỏi, mà có thể nhận một nhiệm vụ, tự đi qua vài bước, làm việc với file hoặc công cụ trong phạm vi bạn cho phép, rồi trả lại kết quả để bạn kiểm.

Chatbot thông thường giống như người ngồi trong khung chat: bạn hỏi một câu, nó trả lời một câu.

AI Agent thì gần hơn với một người phụ việc: bạn giao một việc, chỉ cho nó nơi làm, nói rõ luật, rồi nó tự xử lý một chuỗi bước nhỏ trong phạm vi đó.

Ví dụ: “Hãy vào thư mục này, đọc file hướng dẫn, xử lý các tài liệu trong thư mục Đầu Vào, tạo bản nháp ở thư mục Kết Quả, rồi ghi báo cáo để tôi kiểm lại.”

Điểm quan trọng nằm ở chữ phạm vi.

Dùng AI Agent không phải là mở toang toàn bộ máy tính rồi mong nó tự hiểu nên làm gì. Cách an toàn hơn là chuẩn bị một khu vực nhỏ, có dữ liệu mẫu, có hướng dẫn, có đầu ra rõ ràng, và có điểm dừng để con người kiểm lại.

AI Agent không phải phép màu.
Nó giống một người phụ việc có giới hạn:
bạn mở đúng căn phòng, giao đúng việc,
và giữ quyền kiểm lại trong tay mình.

Nếu bạn muốn hiểu kỹ hơn nền tảng AI Agent là gì, vì sao nó khác chatbot thường, và tại sao mình hay dùng hình ảnh “căn phòng làm việc” khi nói về AI, có thể đọc thêm bài nền về AI Agent trước. Bài này sẽ chỉ nhắc lại phần cần thiết để đi thẳng vào thực hành.

Vì sao đáng dựng một Skill riêng?

Bạn thử tưởng tượng một việc có nhiều bước nhỏ.

Mỗi lần làm, bạn phải mở tài liệu, kiểm file đầu vào, đọc nội dung, tạo bản nháp, lưu kết quả, rồi ghi lại chỗ nào cần kiểm.

Nếu làm thủ công, việc đó có thể mất nửa buổi hoặc cả ngày.

Nếu dùng AI theo kiểu hỏi từng lần, bạn vẫn phải nhắc nó từng bước: đọc file nào, làm gì trước, lưu kết quả ở đâu, không được đụng vào file nào, chỗ nào phải báo lại.

Có khi một việc 10 bước lại biến thành 10 lần nhắc. Mà nếu AI hiểu lệch, bạn còn phải sửa yêu cầu thêm vài lần nữa.

Skill sinh ra để giảm phần lặp lại đó.

Khi một việc đã có Skill riêng, bạn không cần viết lại toàn bộ yêu cầu mỗi lần. Bạn chỉ cần đưa tài liệu mới vào đúng chỗ, rồi gọi AI bằng một câu ngắn.

“Hãy xử lý tài liệu trong thư mục Đầu Vào theo hướng dẫn của Skill này.”

Phần hướng dẫn chi tiết từng bước - như vừa nói trên - đã nằm trong phòng Skill: AI cần đọc gì, xử lý theo bước nào, lưu bản nháp ở đâu, không được làm gì với file gốc, và khi nào phải đánh dấu [CẦN KIỂM TRA].

Việc của bạn không biến mất. Nhưng vai của bạn nhẹ hơn: thay vì làm lại từ đầu, bạn đọc bản nháp, xem báo cáo, kiểm những chỗ AI đã báo chưa chắc, rồi quyết định dùng hay sửa tiếp.

Nếu một việc lặp lại đủ nhiều,
đủ tốn thời gian,
và đủ rõ để kiểm lại,
thì rất đáng dựng cho nó một Skill riêng.

Skill là gì trong một AI Agent?

Khi bắt đầu dùng AI Agent, một câu hỏi rất thực tế là: nếu mỗi lần làm việc đều phải gõ lại một yêu cầu thật dài, vậy có khác gì mình đang tự mệt thêm không?

Đó là lý do cần nghĩ tới Skill.

Có thể hiểu đơn giản: Skill là một căn phòng làm việc đã được chuẩn bị sẵn cho một loại việc cụ thể.

Trong căn phòng đó có:

nơi đặt file đầu vào;
nơi AI trả kết quả;
một file hướng dẫn ghi rõ AI được làm gì;
các luật an toàn, ví dụ không xóa file gốc, không ghi đè, không tự đoán chữ cho đẹp;
một cách báo cáo lại để người dùng biết cần kiểm phần nào.

Mỗi loại việc lặp lại có thể cần một Skill riêng.

một Skill để dọn thư mục tài liệu;
một Skill để tổng hợp báo cáo tuần;
một Skill để soạn nháp email từ file ghi chú;
một Skill để chuyển PDF scan hoặc ảnh văn bản thành bản nháp chỉnh sửa được.

Nhìn theo đời thường, mỗi Skill giống một căn phòng khác nhau trong nhà.

Phòng bếp có đồ nấu ăn, công thức và nguyên tắc an toàn của phòng bếp. Phòng làm việc có tài liệu, bàn làm việc và cách sắp xếp riêng. Phòng kho có nhãn, kệ, danh sách đồ cần kiểm.

AI cũng vậy. Nếu mình giao việc cho nó trong một căn phòng đã được chuẩn bị rõ, nó sẽ ít đi lạc hơn rất nhiều so với việc ném vào một đống file rồi nói “làm giúp tôi đi”.

Skill không phải là một câu prompt dài.
Skill là một căn phòng có sẵn luật làm việc.
Mỗi lần dùng lại, bạn chỉ cần đưa tài liệu mới vào đúng chỗ,
rồi gọi AI làm theo hướng dẫn trong phòng đó.

Bài này chọn case PDF scan → bản nháp Word chỉnh sửa được để làm ví dụ đầu tiên, vì nó rất gần với dân văn phòng và kết quả có thể kiểm lại bằng mắt.

Codex là nhân vật thực hành, không phải phần quan trọng nhất

Trong bài này, mình dùng Codex như một ví dụ AI Agent để minh họa cách dựng phòng Skill.

Bạn có thể hiểu Codex là công cụ giúp AI làm việc với thư mục, file và hướng dẫn trong một phạm vi cụ thể. Trong case này, Codex sẽ được đặt vào một phòng Skill nhỏ để xử lý tài liệu PDF scan hoặc ảnh văn bản.

Nhưng điều quan trọng cần nhớ là: công cụ có thể thay đổi. Hôm nay mình dùng Codex để minh họa, ngày mai có thể có một công cụ khác phù hợp hơn với dân văn phòng.

Thứ bền hơn tên công cụ là cấu trúc Skill:

có thư mục Hướng Dẫn;
có thư mục Đầu Vào;
có thư mục Kết Quả;
có thư mục Báo Cáo;
có bản gốc để đối chiếu;
có luật không đoán chữ cho đẹp.

Vì các công cụ AI thay đổi rất nhanh, phần cài đặt Codex không nên viết như một manual cố định từng nút bấm. Cách bền hơn là đối chiếu với nguồn chính thức của OpenAI về Codex để tải, cài hoặc tham khảo theo phiên bản mới nhất tại thời điểm bạn đọc bài.

Ở đây, mình chỉ giữ vài nguyên tắc cài đặt an toàn:

dùng nguồn chính thức của OpenAI, không tải từ link lạ;
bắt đầu bằng thư mục demo;
không dùng tài liệu thật trong lần thử đầu;
không cho AI chạm vào toàn bộ ổ đĩa hoặc thư mục quan trọng;
chỉ yêu cầu tạo bản nháp và report để mình kiểm lại.

Codex là người làm trong phòng.
Skill là căn phòng đã chuẩn bị sẵn.
File hướng dẫn là tờ nội quy.
Còn người dùng vẫn là người kiểm và quyết định.

Nếu bạn chưa cài Codex, vẫn có thể đọc tiếp để hiểu cách dựng Skill.
Khi công cụ đã sẵn sàng, bạn chỉ cần áp cùng cấu trúc thư mục và file hướng dẫn trong bài.

Dựng “phòng Skill” cho việc chuyển PDF scan sang Word bằng AI

Bây giờ ta đi vào phần thực hành.

Thay vì chỉ nói với AI một câu thật dài rồi hy vọng nó hiểu đúng, mình sẽ chuẩn bị cho nó một căn phòng nhỏ.

Trong căn phòng này, mỗi thứ có một chỗ riêng: file đầu vào để ở đâu, kết quả lưu ở đâu, báo cáo nằm ở đâu, và luật làm việc được ghi trong file nào.

Người dùng không cần nhớ prompt dài.
AI không phải đoán cách làm.
Mọi thứ quan trọng nằm trong căn phòng đã chuẩn bị sẵn.

Tên phòng Skill gợi ý

Bạn có thể tạo một thư mục chính với tên dễ hiểu, ví dụ:

Skill-Chuyen-PDF-Scan-Sang-Word

Tên này không cần cầu kỳ. Nó chỉ cần nói rõ căn phòng này dùng để làm gì.

Bên trong thư mục đó, ta tạo vài thư mục nhỏ hơn.

Nhìn vào sơ đồ này, bạn sẽ thấy một Skill không cần phức tạp: chỉ cần mỗi phần có đúng chỗ đứng của nó.

Sơ đồ cấu trúc phòng Skill chuyển PDF scan sang Word bằng AI, gồm Hướng Dẫn, Đầu Vào, Kết Quả, Báo Cáo và Lưu Trữ Gốc. — Một “phòng Skill” không cần phức tạp. Điều quan trọng là mỗi phần có chỗ đứng rõ ràng: hướng dẫn ở đâu, đầu vào ở đâu, kết quả ở đâu, báo cáo ở đâu, và bản gốc được giữ an toàn ở đâu.

00_Huong-Dan

Đây là nơi đặt file hướng dẫn của Skill cho AI Agent đọc luật của phòng làm việc.

AI phải đọc file này trước khi làm việc, vì trong đó có ghi rõ:

Skill này dùng để làm gì;
được xử lý loại file nào;
kết quả cần tạo ra ở đâu;
không được làm gì với file gốc;
khi nào phải đánh dấu [CẦN KIỂM TRA].

Nói đơn giản: đây là “tờ nội quy” của căn phòng.

01_Dau-Vao

Đây là nơi bạn bỏ vào các file cần xử lý, như PDF scan hoặc ảnh văn bản.

Bạn có thể tạo thêm thư mục con theo ngày, theo khách hàng, theo loại công việc hoặc theo nhóm tài liệu.

Ví dụ:

01_Dau-Vao/2026-05-22
01_Dau-Vao/Thong-Bao-Noi-Bo
01_Dau-Vao/Don-De-Nghi
01_Dau-Vao/Tai-Lieu-Can-Chuyen

Mỗi lần muốn xử lý đợt tài liệu nào, bạn chỉ cần chỉ đúng thư mục đó cho AI.

Khi phòng Skill đã có luật, thao tác của người dùng rất nhẹ: đặt tài liệu cần xử lý vào đúng thư mục Đầu Vào.

Ảnh chụp thư mục Đầu Vào của Skill, đang mở file PDF mẫu nhiều trang cần chuyển thành bản nháp chỉnh sửa được. — File mẫu được đặt trong thư mục Đầu Vào. Khi dùng lại Skill, người dùng chỉ cần đưa tài liệu mới vào đúng chỗ, còn các quy tắc xử lý đã nằm trong file hướng dẫn.

02_Ket-Qua

Đây là nơi AI tạo bản nháp chỉnh sửa được.

Kết quả có thể là file Word .docx, file text có cấu trúc, hoặc định dạng khác mà bạn đã ghi trong file hướng dẫn.

Thư mục này không dùng để chứa file gốc. Nó chỉ chứa bản AI tạo ra để bạn kiểm và sửa tiếp.

03_Bao-Cao

Đây là nơi AI tạo report sau khi xử lý.

Report cần cho bạn biết:

AI đã xử lý file nào;
file đầu vào là PDF có lớp chữ thật hay PDF ảnh / scan;
phần nào đã dựng lại được;
chỗ nào có nguy cơ sai;
vị trí nào đã được đánh dấu [CẦN KIỂM TRA];
bạn nên kiểm lại phần nào trước khi dùng.

Nói đơn giản: đây là “phiếu bàn giao” sau khi AI làm xong.

99_Luu-Tru-Goc

Đây là nơi giữ bản gốc nếu cần lưu riêng, không chỉnh sửa.

Thư mục này dùng để cất file ban đầu hoặc bản gốc quan trọng, phòng khi cần đối chiếu lại.

AI không được xóa, đổi tên, ghi đè hoặc chỉnh sửa file trong thư mục này nếu file hướng dẫn không cho phép.

Căn phòng Skill này không phức tạp.
Nó chỉ giúp mọi thứ có chỗ đứng rõ ràng:
đầu vào ở đâu, kết quả ở đâu, báo cáo ở đâu,
và luật làm việc nằm ở đâu.

File hướng dẫn là trái tim của Skill

Trong căn phòng này, file quan trọng nhất không phải file PDF.

File quan trọng nhất là file hướng dẫn.

Bạn có thể đặt tên file là:

00_Huong-Dan/huong-dan-skill.md

Bạn nhìn sơ vào file hướng dẫn dưới đây sẽ thấy: muốn AI Agent làm đúng, mình không cần viết prompt dài mỗi lần, mà chỉ cần một lần ghi rõ luật làm việc ngay trong phòng Skill.

Ảnh chụp file huong-dan-skill.md trong VSCode, hiển thị luật không đoán chữ cho đẹp, luật an toàn với file gốc và phần báo cáo sau khi xử lý. — File hướng dẫn là nơi giữ luật của Skill. Ở đây, AI được nhắc rõ: không đoán chữ cho đẹp, không đụng vào file gốc, và phải tạo report để người dùng biết chỗ nào cần kiểm lại.

File này nói cho AI biết Skill này dùng để làm gì, được xử lý file nào, phải tạo kết quả ra sao, và tuyệt đối không được làm gì.

Một Skill tốt không bắt người dùng lặp lại mọi quy tắc trong mỗi câu prompt. Quy tắc phải nằm trong file hướng dẫn.

Ngay đầu file hướng dẫn, nên có một luật đầu tiên:

Trước khi xử lý bất kỳ file nào, AI phải đọc toàn bộ file hướng dẫn này.

Sau đó, file hướng dẫn nên ghi rõ những phần chính sau.

1. Nhiệm vụ của Skill

Nói thật rõ Skill này dùng để làm gì.

Chuyển PDF scan hoặc ảnh văn bản trong thư mục Đầu Vào thành bản nháp chỉnh sửa được, ưu tiên giữ cấu trúc gần bản gốc và đánh dấu chỗ cần kiểm.

2. Đầu vào

Ghi rõ AI chỉ xử lý file trong thư mục nào.

Chỉ xử lý các file nằm trong thư mục 01_Dau-Vao. Không tự tìm file ở nơi khác.

3. Đầu ra

Ghi rõ kết quả phải lưu ở đâu.

Lưu bản nháp chỉnh sửa được vào thư mục 02_Ket-Qua. Không ghi đè lên file gốc.

4. Báo cáo

Ghi rõ AI phải tạo report sau khi xử lý.

Tạo một report ngắn trong thư mục 03_Bao-Cao, ghi rõ file đã xử lý, phần nào chưa chắc, và vị trí nào cần người dùng kiểm lại.

5. Luật không đoán chữ cho đẹp

Đây là luật sống còn của Skill này.

Nếu không chắc chữ nào, không được đoán cho đẹp.
Phải giữ nguyên nghi ngờ và đánh dấu [CẦN KIỂM TRA].

Một bản nháp còn vài chỗ cần kiểm nhưng trung thực vẫn an toàn hơn một bản nhìn đẹp mà có chữ bị AI đoán sai.

6. Luật an toàn với file gốc

AI chỉ được tạo bản mới, không được làm hỏng dữ liệu ban đầu.

Không xóa file gốc.
Không đổi tên file gốc.
Không ghi đè lên file gốc.
Không tự di chuyển file nếu chưa được yêu cầu.
Nếu file quá mờ hoặc không đủ thông tin, phải báo lại thay vì đoán.

File hướng dẫn là nơi giữ luật.
Người dùng chỉ cần gọi việc cần làm.
AI đọc luật trong phòng,
rồi làm đúng trong phạm vi đã được chuẩn bị.

Khi dùng lại Skill, người dùng chỉ cần nói gì?

Sau khi phòng Skill đã có thư mục rõ ràng và file hướng dẫn đủ cụ thể, câu gọi AI không cần dài nữa.

Bạn chỉ cần nói một câu ngắn kiểu:

Hãy xử lý các văn bản trong thư mục 01_Dau-Vao/2026-05-22 theo hướng dẫn của Skill này.

Mọi quy định như đánh dấu [CẦN KIỂM TRA], không xóa file gốc, không ghi đè, xuất bản nháp, tạo report, giữ cấu trúc gần bản gốc… đều đã nằm trong file hướng dẫn.

Người dùng không cần nhớ prompt dài.
AI cũng không phải đoán cách làm.
Phòng Skill đã giữ sẵn luật cho việc lặp lại.

Kết quả tốt phải có gì?

Khi Skill chạy xong, mình không chỉ muốn nhận một file Word rồi tự đoán xem phần nào ổn, phần nào sai.

Một kết quả tốt nên có đủ ba phần: bản nháp chỉnh sửa được, chỗ cần kiểm được đánh dấu rõ, và report bàn giao sau xử lý.

Sau khi xử lý, thứ đáng xem không chỉ là file Word nháp, mà còn là report: AI đã làm gì, chỗ nào chưa chắc, và người dùng cần kiểm lại phần nào.

Ảnh chụp thư mục Kết Quả và Báo Cáo sau khi Skill xử lý PDF scan, gồm file bản nháp Word và report chỗ cần kiểm. — Một kết quả tốt không chỉ có bản nháp để sửa tiếp. Skill còn cần tạo report để người dùng biết file nào đã xử lý, phần nào cần kiểm lại và chỗ nào AI không chắc.

1. Bản nháp chỉnh sửa được

Với dân văn phòng, định dạng dễ dùng nhất thường là file Word .docx. Nhưng tùy công cụ, bản nháp cũng có thể là file Markdown hoặc file text có cấu trúc.

Bản nháp này nên cố gắng giữ lại những phần quan trọng của tài liệu gốc:

tiêu đề chính;
heading phân cấp;
đoạn văn;
danh sách số;
danh sách gạch đầu dòng;
bảng đơn giản;
ghi chú cuối tài liệu.

File này dùng để sửa tiếp, không phải để gửi đi ngay như văn bản chính thức.

2. Chỗ không chắc phải được đánh dấu

Với PDF scan hoặc ảnh văn bản, điều nguy hiểm nhất không phải là bản nháp còn thiếu đẹp. Điều nguy hiểm hơn là AI làm cho văn bản nhìn có vẻ hoàn chỉnh, nhưng thật ra có chữ bị đoán sai.

Vì vậy, luật của Skill phải rất rõ:

Nếu không chắc chữ nào, không được đoán cho đẹp.
Phải giữ nguyên nghi ngờ và đánh dấu [CẦN KIỂM TRA].

Một bản nháp còn vài chỗ cần kiểm nhưng trung thực vẫn an toàn hơn một bản nhìn đẹp nhưng che mất rủi ro.

3. Report xử lý ngắn

Report không cần dài. Nhưng nó phải giúp người dùng biết nên kiểm phần nào trước.

Một report tốt nên ghi rõ:

file đã xử lý;
loại file đầu vào là PDF có lớp chữ thật hay PDF scan / PDF ảnh;
số trang hoặc số ảnh đã xử lý;
kết quả đã tạo ra;
phần nào có nguy cơ sai;
danh sách chỗ đã đánh dấu [CẦN KIỂM TRA];
nhắc người dùng rà lại trước khi dùng cho công việc thật.

Bản nháp giúp mình bớt gõ lại.
Report giúp mình biết phải kiểm ở đâu.
Cả hai đi chung mới đúng tinh thần “AI làm trước, con người kiểm lại”.

Demo an toàn với tài liệu mẫu

Với bài thực hành đầu tiên, đừng dùng giấy tờ thật.

Không nên thử bằng CCCD, hộ chiếu, hợp đồng, hồ sơ khách hàng, hóa đơn thật, tài liệu nội bộ nhạy cảm hoặc dữ liệu riêng tư của người khác.

Hãy bắt đầu bằng một tài liệu mẫu tự tạo, không có dữ liệu cá nhân. Trong bài này, mình dùng một tài liệu mẫu về quy trình hỗ trợ kỹ thuật để minh họa.

Nguyên tắc rất đơn giản: lần đầu chỉ thử với dữ liệu giả lập.
Khi đã hiểu cách AI đọc hướng dẫn, tạo bản nháp và báo cáo chỗ cần kiểm, lúc đó mới tính chuyện áp dụng vào tài liệu thật trong phạm vi phù hợp.

Sau case PDF này, bạn có thể tạo thêm “phòng Skill” mới

Chuyển PDF scan sang Word chỉ là case đầu tiên.

Món đáng mang về không chỉ là cách xử lý một file PDF. Món lớn hơn là cách dựng một phòng làm việc rõ ràng cho AI Agent.

Điều quan trọng cần nhớ: không nên lấy nguyên phòng PDF này rồi sửa tạm cho mọi việc khác.

Mỗi loại việc lặp lại nên có một phòng Skill riêng, vì mỗi việc sẽ có đầu vào, đầu ra, luật an toàn và cách kiểm kết quả khác nhau.

Bạn có thể xem phòng PDF này như một mẫu để học cách dựng phòng, rồi tạo thêm phòng mới cho việc mới.

Ví dụ, sau này bạn có thể dựng thêm:

một phòng Skill để dọn thư mục tài liệu;
một phòng Skill để tổng hợp file họp;
một phòng Skill để tạo bảng theo dõi;
một phòng Skill để soạn nháp email từ tài liệu;
một phòng Skill để gom tài liệu thành dàn ý thuyết trình;
một phòng Skill để kiểm một nhóm file và tạo report trạng thái.

Dù là phòng nào, phần lõi vẫn giống nhau:

có thư mục đầu vào;
có file hướng dẫn riêng cho việc đó;
có nơi trả kết quả;
có report;
có luật không vượt rào;
có con người kiểm lại trước khi dùng.

Đừng biến một Skill thành cái túi đựng mọi việc.
Hãy dùng nó như một mẫu tư duy:
mỗi việc lặp lại quan trọng nên có một phòng riêng,
một file hướng dẫn riêng,
và một cách kiểm kết quả riêng.

Kết lại

Bài này không phải để nói rằng AI có thể chuyển mọi PDF scan thành Word hoàn hảo.

Bài này chỉ muốn chỉ một cách làm thực tế hơn: chuẩn bị một phòng làm việc nhỏ, viết rõ luật trong file hướng dẫn, để AI tạo bản nháp, buộc AI đánh dấu chỗ chưa chắc, rồi người dùng kiểm lại trước khi dùng.

Nếu bạn muốn hiểu rộng hơn vì sao mình gọi đây là AI Agent, chứ không chỉ là một prompt dài, có thể đọc lại bài nền về AI Agent trên t2tDigital.

Nếu bạn muốn đọc thêm mạch AI bước vào tài liệu và công cụ làm việc, mình cũng đã viết về chuyện dọn phòng trước khi mời AI vào.

Nếu muốn lần theo các bài thực dụng khác về AI, công cụ và cách làm việc số, có thể bắt đầu từ trang Khám phá của t2tDigital.

Một Skill tốt không làm mình mất quyền kiểm soát.
Nó chỉ giúp mình bớt lặp lại những phần nặng nhất,
để thời gian còn lại dành cho việc đọc, kiểm và quyết định.

Dựng Skill AI Agent đầu tiên: chuyển PDF scan sang Word mà không phải gõ lại từ đầu

Dựng Skill AI Agent đầu tiên: chuyển PDF scan sang Word mà không phải gõ lại từ đầu

Trước hết: không phải PDF nào cũng giống nhau

Bài này không tìm một “tool OCR thần kỳ”

Vậy AI Agent là gì trong chuyện này?

Vì sao đáng dựng một Skill riêng?

Skill là gì trong một AI Agent?

Codex là nhân vật thực hành, không phải phần quan trọng nhất

Dựng “phòng Skill” cho việc chuyển PDF scan sang Word bằng AI

00_Huong-Dan

01_Dau-Vao

02_Ket-Qua

03_Bao-Cao

99_Luu-Tru-Goc

File hướng dẫn là trái tim của Skill

1. Nhiệm vụ của Skill

2. Đầu vào

3. Đầu ra

4. Báo cáo

5. Luật không đoán chữ cho đẹp

6. Luật an toàn với file gốc

Khi dùng lại Skill, người dùng chỉ cần nói gì?

Kết quả tốt phải có gì?

1. Bản nháp chỉnh sửa được

2. Chỗ không chắc phải được đánh dấu

3. Report xử lý ngắn

Demo an toàn với tài liệu mẫu

Sau case PDF này, bạn có thể tạo thêm “phòng Skill” mới

Kết lại

Liên hệ & Tương tác

Kết Nối Cộng Đồng