0

Series: Thử thách: Chinh phục data, automation, AI với python, pandas

Chia sẻ
  • 102 1
 Xuất bản thg 1 5, 10:54 SA 102 1 0 3
  • 102 1

Chào anh em, tớ theo dõi viblo đã lâu, nay đầu năm 2025, có chút cao hứng, muốn làm một cái gì đó mới, nên mượn viblo/series để note lại hành trình thử thách bản thân, cũng xem như cơ hội giao lưu học hỏi. Tớ chuyên tech/backend - java, API (SOAP/REST service), làm việc đã hơn 10 năm, chỉ biết python "vỡ lòng". Ngày nào làm cũng hơn 8 tiếng mài đít trên công ty, nên nhắc tới Java/API là chán luôn, nên thử thách này tớ chọn python + đu trend AI cho nó mới mẻ.

  • Thử thách: Chinh phục data, automation, AI với python, pandas
  • Mục tiêu: Kiếm được 10$ từ job freelance sau khi mài dũa kĩ năng, để có thêm tiền uống cafe.
  • Thời gian: Làm việc tối thiểu sáng sớm 5h-7h (trước khi cho con đi học), và sáng T7, CN, nếu không phải đưa con đi chơi.

Mặc dù làm lâu năm trong ngành, bug Java nhìn lỗi phát biết luôn, nhưng mãi vẫn chưa kiếm được 10$ từ freelance để uống cafe nên trong lòng thấy ấm ức. Nhân thử thách đầu năm 2025, mục tiêu sau cùng là phải kiếm được 10$ đầu tiên sau bao năm mài đít ở công ty. Anh em nhớ ủng hộ tớ nhé.


Lộ Trình (roadmap)

Tớ đã nhờ AI tư vấn lộ trình cơ bản, khá OK. Series này cũng sẽ theo sát lộ trình đã được AI tư vấn.

  • Giai đoạn 1: Nền tảng Python và Data Manipulation: Thời gian: 2-4 tuần (với 2-3 tiếng/ngày).
  • Giai đoạn 2: Automation và Scripting: Thời gian: 3-6 tuần.
  • Giai đoạn 3: Data Visualization & Dashboarding: Thời gian: 2-4 tuần.
  • Giai đoạn 4: Quản lý dữ liệu với DVC và Git: Thời gian: 2-3 tuần.
  • Giai đoạn 5: Data Science và AI cơ bản: Thời gian: 6-8 tuần.
  • Giai đoạn 6: Dự án thực tế và tối ưu hóa: Thời gian: 3-4 tuần.
  • Giai đoạn 7: Networking và Bắt đầu Freelance
  • Kết: Kiếm 10$ đầu tiên với thử thách này trên remote works.

Tổng thời gian: 4-6 tháng, với lộ trình cơ bản 2-3 tiếng/ngày cho người bình thường. Tớ có sẵn nền tảng backend, và có biết chút ít python/pandas "vỡ lòng" nên các khoản 1,2,3,4 có lẽ chỉ cần 1 tuần để lướt + review là đủ. Sẽ lên bài tóm tắt, tổng kết cho anh em sau mỗi chặng. Phần chua nhất với tớ có lẽ là phần 5,6,7, hi vọng là sẽ còn giữ nhịp và giữa được lửa cho tới lúc đó, để chốt deal 10$ nhé.


Lộ trình chi tiết

Giai đoạn 1: Nền tảng Python và Data Manipulation

  • Mục tiêu: Làm quen với Python, xử lý dữ liệu cơ bản.
  • Kỹ năng cần học:
    • Python cơ bản: Syntax, OOP, exception handling.
    • Pandas:
      • Đọc/ghi file (CSV, Excel, JSON).
      • Xử lý dữ liệu: merge, filter, groupby.
      • Làm sạch dữ liệu (data cleaning).
    • Numpy: Xử lý dữ liệu dạng mảng, tính toán số học.
  • Tools/Libs:
    • Jupyter Notebook (làm việc với data trực quan).
    • Matplotlib/Seaborn (vẽ biểu đồ cơ bản).

💡 Thời gian: 2-4 tuần (với 2-3 tiếng/ngày).


Giai đoạn 2: Automation và Scripting

Mục tiêu: Tự động hóa các tác vụ lặp đi lặp lại.

  • Kỹ năng cần học:
    • Automation với Python:
      • Thư viện os, shutil, pathlib (quản lý file).
      • Selenium (Web scraping).
      • Openpyxl/XLWT (Tự động hóa Excel).
    • API Requests: Sử dụng thư viện requests để gọi REST API.
    • Regular Expressions (Regex): Xử lý văn bản.
  • Tools/Libs:
    • Pytest (test automation script).
    • Cron jobs (Linux) hoặc Task Scheduler (Windows).

💡 Thời gian: 3-6 tuần.


Giai đoạn 3: Data Visualization & Dashboarding

  • Mục tiêu: Trực quan hóa dữ liệu thành báo cáo và dashboard.
  • Kỹ năng cần học:
    • Matplotlib/Seaborn: Vẽ biểu đồ (line, bar, scatter).
    • Plotly/Dash: Xây dựng dashboard tương tác.
    • Power BI/Tableau: Tạo dashboard cho doanh nghiệp (học thêm nếu cần).

💡 Thời gian: 2-4 tuần.


Giai đoạn 4: Quản lý dữ liệu với DVC và Git

  • Mục tiêu: Quản lý phiên bản dữ liệu và workflow.
  • Kỹ năng cần học:
    • Git cơ bản: Clone, commit, branch, merge.
    • DVC (Data Version Control):
      • Tracking dataset/version với Git.
      • Quản lý tập dữ liệu lớn (CSV, model file).
      • Sử dụng remote storage (Google Drive, S3).
    • Makefiles: Tự động hóa workflow (preprocess, train model, evaluate).

💡 Thời gian: 2-3 tuần (song song khi học các công cụ AI).


Giai đoạn 5: Data Science và AI cơ bản

  • Mục tiêu: Phân tích dữ liệu và ứng dụng AI vào automation.
  • Kỹ năng cần học:
    • Data Science Basics:
      • EDA (Exploratory Data Analysis).
      • Xử lý dữ liệu lớn với Dask hoặc Pyspark.
    • Machine Learning cơ bản:
      • Scikit-learn: Linear Regression, Decision Trees.
      • Tiền xử lý dữ liệu: StandardScaler, OneHotEncoder.
    • AI for Automation:
      • OpenAI API (ChatGPT/LLM) cho tác vụ tự động.
      • NLP cơ bản với SpaCy hoặc Hugging Face Transformers.

💡 Thời gian: 6-8 tuần.


Giai đoạn 6: Dự án thực tế và tối ưu hóa

  • Mục tiêu: Xây dựng dự án showcase kỹ năng.
  • Dự án mẫu:
    • Automation script: Tự động gửi email báo cáo, scraping dữ liệu từ web.
    • Dashboard: Tạo dashboard trực quan (Plotly Dash, Power BI).
    • Data pipeline: Quản lý dữ liệu bằng DVC và Git.
  • Tối ưu hóa:
    • Clean code với Pylint hoặc Black.
    • Documentation tự động với Sphinx.

💡 Thời gian: 3-4 tuần.


Giai đoạn 7: Networking và Bắt đầu Freelance

Nền tảng nên tham gia:

  • Upwork, Fiverr: Tìm dự án nhỏ (data cleaning, automation).
  • Kaggle: Competition để cải thiện kỹ năng và xây portfolio.
  • LinkedIn: Xây dựng profile chuyên nghiệp, showcase dự án đã làm.

💡 Pro-tip: Nêu rõ kỹ năng Python, DVC, automation, và AI trên hồ sơ của bạn.


Hẹn gặp lại anh em trong các bài tiếp theo.

Chia sẻ
Viblo
Hãy đăng ký một tài khoản Viblo để nhận được nhiều bài viết thú vị hơn.
Đăng kí