Nền tảng Kiến thức - Hành trang tới Tương lai
Card image

Chương 5-Bài 15. Trích xuất thông tin từ dữ liệu trong FILE TEXT

Tác giả: Dương Nguyễn Phú Cường #760
Ngày đăng: Hồi xưa đó
Lượt xem: 321

Mô tả bài toán

Viết chương trình Console, với yêu cầu trích xuất tất cả thông tin cần thiết trong file dữ liệu, với các yêu cầu như sau:
  1. Đọc nội dung file data.txt, hiển thị ra màn hình
    • Dữ liệu file mẫu, download tại đây: data.txt
  2. Trích xuất các thông tin và ghi vào file data_extracted.txt, với các yêu cầu thông tin cần trích xuất như sau:
    • Thư điện tử {EMAIL}, chỉ chấp nhận email ctu.edu.vn, cusc.ctu.edu.vn, gmail.com
    • Họ tên {NAME},
    • Số điện thoại {TEL}
  3. Trong nội dung file data.txt, có hay không các từ (word) bị GOOGLE cấm (ban)? Số lượng từ phát hiện được là bao nhiêu? (Dựa vào file dữ liệu các từ bị GOOGLE BAN trong file base-list-of-bad-words_text-file_2018_07_30.txt
  4. Loại bỏ các từ bị GOOGLE BAN, xuất nội dung đã được kiểm duyệt ra file mới data_checked.txt

Cách giải quyết

  1. Sử dụng StreamReader để đọc dữ liệu, dùng vòng lặp while để lặp đến khi không còn đọc được bất kỳ dòng dữ liệu nào (line = sr.ReadLine()) != null
  2. Sử dụng biểu thức chính quy (Regular Expression) để trích xuất các thông tin theo yêu cầu. Xem thêm về bài học Biểu thức chính quy (Regular) trong C#
    • Sử dụng StreamWriter để lưu nội dung được trích xuất thành file result.txt
  3. Đọc nội dung trong file base-list-of-bad-words_text-file_2018_07_30.txt, lưu và ghép lại thành mẫu pattern regular, ví dụ:
    • pattern = AA|BB|CC|DD|EE
    • Nếu phát hiện được từ nào trong nội dung MATCH được với mẫu pattern => có xuất hiện từ nhạy cảm.
  4. Tìm và replace các từ nhạy cảm.
Có thể sử dụng công cụ kiểm tra Biểu thức chính quy C# Online để kiểm tra các pattern.

Source code

Đọc mô tả bài toán, suy nghĩ, xem cách giải quyết

và làm thử trước khi xem source code nhé các bạn!

[su_spoiler title="Xem code hướng dẫn" open="no" style="default" icon="plus" anchor="" class=""]
using System;
using System.Collections.Generic;
using System.IO;
using System.Linq;
using System.Text;
using System.Text.RegularExpressions;

namespace ReadAndWriteFile
{
    class Program
    {
        /// <summary>
        /// Đọc toàn bộ nội dung file trong đường dẫn filePath, và in ra màn hình console
        /// </summary>
        /// <param name="filePath">Đường dẫn file</param>
        static string ReadFile(string filePath)
        {
            // Sử dụng Try, Catch để bắt các lỗi ngoại lệ...
            // Tránh làm CRASH chương trình
            try
            {
                // Sử dụng StringBuilder để nối chuỗi lại với nhau
                // sẽ tối ưu tốc độ hơn so với việc sử dụng toán tử += string
                StringBuilder sb = new StringBuilder();

                // Sử dụng StreamReader để đọc dữ liệu file "data.txt"
                using (StreamReader sr = new StreamReader(filePath))
                {
                    string line;

                    // Sử dụng vòng lặp While để đọc từng dòng dữ liệu
                    // đến khi đọc hết file
                    while ((line = sr.ReadLine()) != null)
                    {
                        // In ra màn hình
                        Console.WriteLine(line);

                        // Nối chuỗi
                        sb.AppendLine(line);
                    }
                }

                // Trả về chuỗi tất cả text
                return sb.ToString();
            }
            catch (Exception e)
            {
                // Thông báo lỗi ngoại lệ
                Console.WriteLine("Không thể đọc được file. Lỗi xảy ra:");
                Console.WriteLine(e.Message);
            }

            // Nếu chạy đến đây thì có khả năng lỗi đã xảy ra, trả về rỗng
            return "";
        }

        /// <summary>
        /// Hàm ghi nội dung vào filePath
        /// </summary>
        /// <param name="filePath">Đường dẫn file cần ghi</param>
        /// <param name="content">Nội dung</param>
        /// <returns></returns>
        static bool WriteFile(string filePath, string content)
        {
            // Sử dụng Try, Catch để bắt các lỗi ngoại lệ...
            // Tránh làm CRASH chương trình
            try
            {
                using (StreamWriter sw = new StreamWriter(filePath))
                {
                    sw.WriteLine(content);
                }
                return true;
            }
            catch (Exception e)
            {
                // Thông báo lỗi ngoại lệ
                Console.WriteLine("Không thể ghi được file. Lỗi xảy ra:");
                Console.WriteLine(e.Message);
            }

            // Nếu chạy đến đây thì có khả năng lỗi đã xảy ra, trả về false
            return false;
        }

        /// <summary>
        /// Trích xuất nội dung trong file
        /// </summary>
        /// <param name="content">Nội dung file</param>
        static string ExtractDataInContent(string content)
        {
            // Sử dụng Try, Catch để bắt các lỗi ngoại lệ...
            // Tránh làm CRASH chương trình
            try
            {
                // Tạo danh sách chứa các thông tin trích xuất được
                List<string> lstEmail = new List<string>();
                List<string> lstName = new List<string>();
                List<string> lstTel = new List<string>();

                // Trích xuất EMAIL
                string emailPattern = @"email\:\w+@(nentang\.vn|ctu\.edu\.vn|gmail\.com|cusc\.ctu\.edu\.vn)"; //Mẫu regular pattern kiểm tra EMAIL
                MatchCollection mcEmail = Regex.Matches(content, emailPattern);
                foreach (Match m in mcEmail)
                {
                    lstEmail.Add(m.ToString());
                }

                // Trích xuất NAME
                string namePattern = @"name:\w+"; //Mẫu regular pattern kiểm tra NAME
                MatchCollection mcName = Regex.Matches(content, namePattern);
                foreach (Match m in mcName)
                {
                    lstName.Add(m.ToString());
                }

                // Trích xuất TEL
                string telPattern = @"tel:\d+"; //Mẫu regular pattern kiểm tra TEL
                MatchCollection mcTel = Regex.Matches(content, telPattern);
                foreach (Match m in mcTel)
                {
                    lstTel.Add(m.ToString());
                }

                return String.Join(Environment.NewLine, (lstEmail.Concat(lstName).Concat(lstTel)));
            }
            catch (Exception e)
            {
                // Thông báo lỗi ngoại lệ
                Console.WriteLine("Không thể đọc được file. Lỗi xảy ra:");
                Console.WriteLine(e.Message);
            }

            // Nếu chạy đến đây thì có khả năng lỗi đã xảy ra, trả về content
            return content;
        }

        /// <summary>
        /// Tạo mẫu Regular pattern để lọc các từ bad word
        /// AA|BB|CC|DD|EE
        /// </summary>
        /// <param name="filePath">Đường dẫn file</param>
        static string GeneratePatternFromBadWordFile(string filePath)
        {
            // Sử dụng Try, Catch để bắt các lỗi ngoại lệ...
            // Tránh làm CRASH chương trình
            try
            {
                // Tạo list lưu trữ Bad word
                List<string> lstBadWord = new List<string>();

                // Sử dụng StreamReader để đọc dữ liệu file "data.txt"
                using (StreamReader sr = new StreamReader(filePath))
                {
                    string line;

                    // Sử dụng vòng lặp While để đọc từng dòng dữ liệu
                    // đến khi đọc hết file
                    while ((line = sr.ReadLine()) != null)
                    {
                        // Nối chuỗi
                        lstBadWord.Add(line);
                    }
                }

                // Ghép các từ trong LIST với ký tự "|"
                return "(" + String.Join("|", lstBadWord) + ")";
            }
            catch (Exception e)
            {
                // Thông báo lỗi ngoại lệ
                Console.WriteLine("Không thể đọc được file. Lỗi xảy ra:");
                Console.WriteLine(e.Message);
            }

            // Nếu chạy đến đây thì có khả năng lỗi đã xảy ra, trả về rỗng
            return "";
        }

        /// <summary>
        /// Hàm kiểm tra xem có tồn tại BAD WORD trong CONTENT hay không?
        /// </summary>
        /// <param name="content">Nội dung cần kiểm duyệt</param>
        /// <param name="pattern">Mẫu Regular Expression</param>
        /// <returns></returns>
        static int DetectBadWordInContent(string content, string pattern)
        {
            MatchCollection mc = Regex.Matches(content, pattern);
            return mc.Count;
        }

        /// <summary>
        /// Hàm loại bỏ các BAD WORD
        /// </summary>
        /// <param name="content">Nội dung cần kiểm duyệt</param>
        /// <param name="pattern">Mẫu Regular Expression</param>
        /// <returns></returns>
        static string RemoveBadWordInContent(string content, string pattern)
        {
            MatchCollection mc = Regex.Matches(content, pattern);
            foreach (Match m in mc)
            {
                content = content.Replace(m.ToString(), "");
            }

            return content;
        }

        static void Main(string[] args)
        {
            // Đường dẫn đến file dữ liệu "data.txt"
            // - Đường dẫn tuyệt đối là được dẫn được chỉ định cụ thể: [Ổ đĩa]:\[Thư mục]\[Tên file]
            //   Ví dụ: D:\DuLieu\data.txt
            // - Đường dẫn tương đối được tính từ file .EXE của chương trình
            //   Ví dụ: data.txt
            string filePath = "data.txt";

            // Đọc nội dung file và in ra màn hình
            Console.WriteLine("Noi dung file \"data.txt\"");
            string allText = ReadFile(filePath);

            // Tìm và in danh sách các email hợp lệ để gởi mail MARKETING hàng loạt đến người dùng
            string contentExtracted = ExtractDataInContent(allText);

            // Lưu nội dung được trích xuất ra file
            string dataExtractedFilePath = "data_extracted.txt";
            WriteFile(dataExtractedFilePath, contentExtracted);
            Console.WriteLine("Ket qua trich xuat du lieu duoc luu trong file {0}", dataExtractedFilePath);

            // Tạo mẫu pattern từ các BAD WORD trong file
            string badWordFilePath = "base-list-of-bad-words_text-file.txt";
            string badWordPattern = GeneratePatternFromBadWordFile(badWordFilePath);

            // Kiểm tra có BAD WORD không?
            int badWordCount = DetectBadWordInContent(allText, badWordPattern);
            bool foundBadWord = badWordCount > 0;
            Console.WriteLine("Ket qua kiem tra noi dung: {0}", (foundBadWord ? "Phat hien BAD WORD!!!" : "Noi dung OKEY!!!"));

            // Loại bỏ BAD WORD trong nội dung (nếu phát hiện được)
            if (foundBadWord)
            {
                Console.WriteLine("So luong tu BAD WORD phat hien duoc: {0}", badWordCount);

                string contentChecked = RemoveBadWordInContent(allText, badWordPattern);
                string okeyFilePath = "data_checked.txt";
                WriteFile(okeyFilePath, contentChecked);
                Console.WriteLine("Ket qua kiem duyet noi dung duoc luu trong file {0}", okeyFilePath);
            }

            // Dừng màn hình chờ nhấn Enter để kết thúc
            Console.ReadLine();
        }
    }
}
[/su_spoiler]

Github

https://github.com/kellyfire611/learning.nentang.vn-csharp/blob/master/src/ReadAndWriteFile/Program.cs [su_qrcode data="https://github.com/kellyfire611/learning.nentang.vn-csharp/blob/master/src/ReadAndWriteFile/Program.cs" title="Source code trên GITHUB" size="100" margin="0" align="center" link="https://github.com/kellyfire611/learning.nentang.vn-csharp/blob/master/src/ReadAndWriteFile/Program.cs" target="blank" color="#000000" background="#ffffff" class=""]

Chương trình học


  1. Cài đặt môi trường Lập trình C# 2
    1. Cài đặt Visual Studio #13
    2. Môi trường phát triển .NET #232
  2. Nhập môn Lập trình C# 18
    1. Giới thiệu ngôn ngữ lập trình C# #323
    2. Cấu trúc chương trình C# #166
    3. Cú pháp cơ bản C# #238
    4. Các kiểu dữ liệu trong C# #240
    5. Chuyển đổi kiểu dữ liệu trong C# #245
    6. Khởi tạo biến trong C# #247
    7. Hằng số trong C# #249
    8. Toán tử trong C# #251
    9. Điều kiện trong C# #253
    10. Vòng lặp trong C# #262
    11. Tính bao đóng trong C# #274
    12. Tạo phương thức/hàm trong C# #276
    13. Đối tượng Nullable trong C# #280
    14. Mảng trong C# #283
    15. Chuỗi trong C# #349
    16. Cấu trúc trong C# #351
    17. Enums trong C# #353
    18. Truyền Tham số Reference hay Tham trị (Value) trong C# #10172
  3. Hướng đối tượng trong C# 12
    1. Class trong C# #355
    2. Kế thừa trong C# #359
    3. Tính đa hình trong C# #361
    4. Nạp chồng toán tử trong C# #534
    5. Giao diện (Interface) trong C# #537
    6. Namespace trong C# #540
    7. Các lệnh tiền xử lý trong C# #543
    8. Biểu thức chính quy (Regular) trong C# #726
    9. Bắt các lỗi/ngoại lệ (Exception) trong C# #730
    10. Xử lý Đọc/Ghi File trong C# #732
    11. LINQ trong C# #7805
    12. Mã hóa (Encryption) và Giải mã (Decryption) trong C# #11880
  4. Các kỹ thuật nâng cao trong C# 2
    1. Thuộc tính (Attributes) trong C# #739
    2. Biên dịch ngược (Reflection) trong C# #741
  5. Bài tập thực hành 28
    1. Khai báo các Kiểu dữ liệu cho Mẫu Lý lịch A2 và Mẫu Hóa đơn Bán hàng #7703
    2. Sử dụng các Toán tử cơ bản trong C# #7704
    3. Kiểm tra số chẵn hay lẻ #171
    4. Thay đổi vị trí của 2 phần tử #175
    5. Tính tổng các kí tự số #224
    6. Đảo ngược con số #229
    7. Tạo chương trình ATM đơn giản #466
    8. Tạo chương trình ATM đơn giản với các phương án rút tiền theo các mệnh giá #477
    9. Tìm số Max, Min trong mảng 2 chiều #480
    10. Tạo cấu trúc lưu trữ thông tin Nhân viên #654
    11. Làm quen Hướng đối tượng trong C# #661
    12. Mã hóa chuỗi với Hacker Speak (H4ck3rSp34k) #681
    13. Mã hóa chuỗi với Alternating Captions (AlTeRnAtInG_CaPs​​​​​) #683
    14. Tính tổng 2 số nhỏ nhất trong danh sách #689
    15. Trích xuất thông tin từ dữ liệu trong FILE TEXT #760
    16. In bảng cửu chương #7747
    17. In tam giác Nhị phân #7749
    18. In tam giác Số ký tự #7751
    19. Đếm số 1 #7754
    20. Sử dụng Mảng 2 chiều để in tên dạng Asterisk ra màn hình #7761
    21. Sử dụng Mảng 1 chiều để phân tách Tên với khoảng cách #7765
    22. Bài tập Biểu thức Chính quy (Regular Expression) #7779
    23. Ghi log lỗi với File và Try Catch #7795
    24. Ghi Access log #7796
    25. LINQ group by tên tập tin #7812
    26. LINQ với collection #7822
    27. Tạo chương trình Quản lý Danh sách Sinh viên và Giảng viên #8554
    28. Bài tập tạo các CLASS OOP C# căn bản 1 #11842
  6. Kiểm tra kiến thức 1
    1. Kiểm tra kiến thức Lập trình C# #205
  7. Kiểm tra kiến thức - Đồ án 4
    1. Bài tập Kiểm tra Thực hành C# - Đề 01 #903
    2. Bài tập Kiểm tra Thực hành C# - Đề 02 #7825
    3. Đề thi Aptech C# - Đề 01 #11888
    4. Đề thi Aptech C# - Đề 02 #11891
Các bài học

Chương trình học

Bao gồm Module, Chương, Bài học, Bài tập, Kiểm tra...

Chương trình học


  1. Cài đặt môi trường Lập trình C# 2
    1. Cài đặt Visual Studio #13
    2. Môi trường phát triển .NET #232
  2. Nhập môn Lập trình C# 18
    1. Giới thiệu ngôn ngữ lập trình C# #323
    2. Cấu trúc chương trình C# #166
    3. Cú pháp cơ bản C# #238
    4. Các kiểu dữ liệu trong C# #240
    5. Chuyển đổi kiểu dữ liệu trong C# #245
    6. Khởi tạo biến trong C# #247
    7. Hằng số trong C# #249
    8. Toán tử trong C# #251
    9. Điều kiện trong C# #253
    10. Vòng lặp trong C# #262
    11. Tính bao đóng trong C# #274
    12. Tạo phương thức/hàm trong C# #276
    13. Đối tượng Nullable trong C# #280
    14. Mảng trong C# #283
    15. Chuỗi trong C# #349
    16. Cấu trúc trong C# #351
    17. Enums trong C# #353
    18. Truyền Tham số Reference hay Tham trị (Value) trong C# #10172
  3. Hướng đối tượng trong C# 12
    1. Class trong C# #355
    2. Kế thừa trong C# #359
    3. Tính đa hình trong C# #361
    4. Nạp chồng toán tử trong C# #534
    5. Giao diện (Interface) trong C# #537
    6. Namespace trong C# #540
    7. Các lệnh tiền xử lý trong C# #543
    8. Biểu thức chính quy (Regular) trong C# #726
    9. Bắt các lỗi/ngoại lệ (Exception) trong C# #730
    10. Xử lý Đọc/Ghi File trong C# #732
    11. LINQ trong C# #7805
    12. Mã hóa (Encryption) và Giải mã (Decryption) trong C# #11880
  4. Các kỹ thuật nâng cao trong C# 2
    1. Thuộc tính (Attributes) trong C# #739
    2. Biên dịch ngược (Reflection) trong C# #741
  5. Bài tập thực hành 28
    1. Khai báo các Kiểu dữ liệu cho Mẫu Lý lịch A2 và Mẫu Hóa đơn Bán hàng #7703
    2. Sử dụng các Toán tử cơ bản trong C# #7704
    3. Kiểm tra số chẵn hay lẻ #171
    4. Thay đổi vị trí của 2 phần tử #175
    5. Tính tổng các kí tự số #224
    6. Đảo ngược con số #229
    7. Tạo chương trình ATM đơn giản #466
    8. Tạo chương trình ATM đơn giản với các phương án rút tiền theo các mệnh giá #477
    9. Tìm số Max, Min trong mảng 2 chiều #480
    10. Tạo cấu trúc lưu trữ thông tin Nhân viên #654
    11. Làm quen Hướng đối tượng trong C# #661
    12. Mã hóa chuỗi với Hacker Speak (H4ck3rSp34k) #681
    13. Mã hóa chuỗi với Alternating Captions (AlTeRnAtInG_CaPs​​​​​) #683
    14. Tính tổng 2 số nhỏ nhất trong danh sách #689
    15. Trích xuất thông tin từ dữ liệu trong FILE TEXT #760
    16. In bảng cửu chương #7747
    17. In tam giác Nhị phân #7749
    18. In tam giác Số ký tự #7751
    19. Đếm số 1 #7754
    20. Sử dụng Mảng 2 chiều để in tên dạng Asterisk ra màn hình #7761
    21. Sử dụng Mảng 1 chiều để phân tách Tên với khoảng cách #7765
    22. Bài tập Biểu thức Chính quy (Regular Expression) #7779
    23. Ghi log lỗi với File và Try Catch #7795
    24. Ghi Access log #7796
    25. LINQ group by tên tập tin #7812
    26. LINQ với collection #7822
    27. Tạo chương trình Quản lý Danh sách Sinh viên và Giảng viên #8554
    28. Bài tập tạo các CLASS OOP C# căn bản 1 #11842
  6. Kiểm tra kiến thức 1
    1. Kiểm tra kiến thức Lập trình C# #205
  7. Kiểm tra kiến thức - Đồ án 4
    1. Bài tập Kiểm tra Thực hành C# - Đề 01 #903
    2. Bài tập Kiểm tra Thực hành C# - Đề 02 #7825
    3. Đề thi Aptech C# - Đề 01 #11888
    4. Đề thi Aptech C# - Đề 02 #11891

Bài học trước Bài học tiếp theo