Mô tả bài toán
Viết chương trình Console, với yêu cầu trích xuất tất cả thông tin cần thiết trong file dữ liệu, với các yêu cầu như sau:
- Đọc nội dung file
data.txt , hiển thị ra màn hình
- Dữ liệu file mẫu, download tại đây: data.txt
- Trích xuất các thông tin và ghi vào file
data_extracted.txt , với các yêu cầu thông tin cần trích xuất như sau:
- Thư điện tử
{EMAIL} , chỉ chấp nhận email ctu.edu.vn , cusc.ctu.edu.vn , gmail.com
- Họ tên
{NAME} ,
- Số điện thoại
{TEL}
- Trong nội dung file
data.txt , có hay không các từ (word) bị GOOGLE cấm (ban)? Số lượng từ phát hiện được là bao nhiêu? (Dựa vào file dữ liệu các từ bị GOOGLE BAN trong file base-list-of-bad-words_text-file_2018_07_30.txt
- Loại bỏ các từ bị GOOGLE BAN, xuất nội dung đã được kiểm duyệt ra file mới
data_checked.txt
Cách giải quyết
- Sử dụng
StreamReader để đọc dữ liệu, dùng vòng lặp while để lặp đến khi không còn đọc được bất kỳ dòng dữ liệu nào (line = sr.ReadLine()) != null
- Sử dụng biểu thức chính quy (Regular Expression) để trích xuất các thông tin theo yêu cầu. Xem thêm về bài học Biểu thức chính quy (Regular) trong C#
- Sử dụng StreamWriter để lưu nội dung được trích xuất thành file
result.txt
- Đọc nội dung trong file
base-list-of-bad-words_text-file_2018_07_30.txt , lưu và ghép lại thành mẫu pattern regular, ví dụ:
- pattern =
AA|BB|CC|DD|EE
- Nếu phát hiện được từ nào trong nội dung MATCH được với mẫu pattern => có xuất hiện từ nhạy cảm.
- Tìm và replace các từ nhạy cảm.
Có thể sử dụng công cụ kiểm tra Biểu thức chính quy C# Online để kiểm tra các pattern.
Source code
Đọc mô tả bài toán, suy nghĩ, xem cách giải quyết
và làm thử trước khi xem source code nhé các bạn!
[su_spoiler title="Xem code hướng dẫn" open="no" style="default" icon="plus" anchor="" class=""]
using System;
using System.Collections.Generic;
using System.IO;
using System.Linq;
using System.Text;
using System.Text.RegularExpressions;
namespace ReadAndWriteFile
{
class Program
{
/// <summary>
/// Đọc toàn bộ nội dung file trong đường dẫn filePath, và in ra màn hình console
/// </summary>
/// <param name="filePath">Đường dẫn file</param>
static string ReadFile(string filePath)
{
// Sử dụng Try, Catch để bắt các lỗi ngoại lệ...
// Tránh làm CRASH chương trình
try
{
// Sử dụng StringBuilder để nối chuỗi lại với nhau
// sẽ tối ưu tốc độ hơn so với việc sử dụng toán tử += string
StringBuilder sb = new StringBuilder();
// Sử dụng StreamReader để đọc dữ liệu file "data.txt"
using (StreamReader sr = new StreamReader(filePath))
{
string line;
// Sử dụng vòng lặp While để đọc từng dòng dữ liệu
// đến khi đọc hết file
while ((line = sr.ReadLine()) != null)
{
// In ra màn hình
Console.WriteLine(line);
// Nối chuỗi
sb.AppendLine(line);
}
}
// Trả về chuỗi tất cả text
return sb.ToString();
}
catch (Exception e)
{
// Thông báo lỗi ngoại lệ
Console.WriteLine("Không thể đọc được file. Lỗi xảy ra:");
Console.WriteLine(e.Message);
}
// Nếu chạy đến đây thì có khả năng lỗi đã xảy ra, trả về rỗng
return "";
}
/// <summary>
/// Hàm ghi nội dung vào filePath
/// </summary>
/// <param name="filePath">Đường dẫn file cần ghi</param>
/// <param name="content">Nội dung</param>
/// <returns></returns>
static bool WriteFile(string filePath, string content)
{
// Sử dụng Try, Catch để bắt các lỗi ngoại lệ...
// Tránh làm CRASH chương trình
try
{
using (StreamWriter sw = new StreamWriter(filePath))
{
sw.WriteLine(content);
}
return true;
}
catch (Exception e)
{
// Thông báo lỗi ngoại lệ
Console.WriteLine("Không thể ghi được file. Lỗi xảy ra:");
Console.WriteLine(e.Message);
}
// Nếu chạy đến đây thì có khả năng lỗi đã xảy ra, trả về false
return false;
}
/// <summary>
/// Trích xuất nội dung trong file
/// </summary>
/// <param name="content">Nội dung file</param>
static string ExtractDataInContent(string content)
{
// Sử dụng Try, Catch để bắt các lỗi ngoại lệ...
// Tránh làm CRASH chương trình
try
{
// Tạo danh sách chứa các thông tin trích xuất được
List<string> lstEmail = new List<string>();
List<string> lstName = new List<string>();
List<string> lstTel = new List<string>();
// Trích xuất EMAIL
string emailPattern = @"email\:\w+@(nentang\.vn|ctu\.edu\.vn|gmail\.com|cusc\.ctu\.edu\.vn)"; //Mẫu regular pattern kiểm tra EMAIL
MatchCollection mcEmail = Regex.Matches(content, emailPattern);
foreach (Match m in mcEmail)
{
lstEmail.Add(m.ToString());
}
// Trích xuất NAME
string namePattern = @"name:\w+"; //Mẫu regular pattern kiểm tra NAME
MatchCollection mcName = Regex.Matches(content, namePattern);
foreach (Match m in mcName)
{
lstName.Add(m.ToString());
}
// Trích xuất TEL
string telPattern = @"tel:\d+"; //Mẫu regular pattern kiểm tra TEL
MatchCollection mcTel = Regex.Matches(content, telPattern);
foreach (Match m in mcTel)
{
lstTel.Add(m.ToString());
}
return String.Join(Environment.NewLine, (lstEmail.Concat(lstName).Concat(lstTel)));
}
catch (Exception e)
{
// Thông báo lỗi ngoại lệ
Console.WriteLine("Không thể đọc được file. Lỗi xảy ra:");
Console.WriteLine(e.Message);
}
// Nếu chạy đến đây thì có khả năng lỗi đã xảy ra, trả về content
return content;
}
/// <summary>
/// Tạo mẫu Regular pattern để lọc các từ bad word
/// AA|BB|CC|DD|EE
/// </summary>
/// <param name="filePath">Đường dẫn file</param>
static string GeneratePatternFromBadWordFile(string filePath)
{
// Sử dụng Try, Catch để bắt các lỗi ngoại lệ...
// Tránh làm CRASH chương trình
try
{
// Tạo list lưu trữ Bad word
List<string> lstBadWord = new List<string>();
// Sử dụng StreamReader để đọc dữ liệu file "data.txt"
using (StreamReader sr = new StreamReader(filePath))
{
string line;
// Sử dụng vòng lặp While để đọc từng dòng dữ liệu
// đến khi đọc hết file
while ((line = sr.ReadLine()) != null)
{
// Nối chuỗi
lstBadWord.Add(line);
}
}
// Ghép các từ trong LIST với ký tự "|"
return "(" + String.Join("|", lstBadWord) + ")";
}
catch (Exception e)
{
// Thông báo lỗi ngoại lệ
Console.WriteLine("Không thể đọc được file. Lỗi xảy ra:");
Console.WriteLine(e.Message);
}
// Nếu chạy đến đây thì có khả năng lỗi đã xảy ra, trả về rỗng
return "";
}
/// <summary>
/// Hàm kiểm tra xem có tồn tại BAD WORD trong CONTENT hay không?
/// </summary>
/// <param name="content">Nội dung cần kiểm duyệt</param>
/// <param name="pattern">Mẫu Regular Expression</param>
/// <returns></returns>
static int DetectBadWordInContent(string content, string pattern)
{
MatchCollection mc = Regex.Matches(content, pattern);
return mc.Count;
}
/// <summary>
/// Hàm loại bỏ các BAD WORD
/// </summary>
/// <param name="content">Nội dung cần kiểm duyệt</param>
/// <param name="pattern">Mẫu Regular Expression</param>
/// <returns></returns>
static string RemoveBadWordInContent(string content, string pattern)
{
MatchCollection mc = Regex.Matches(content, pattern);
foreach (Match m in mc)
{
content = content.Replace(m.ToString(), "");
}
return content;
}
static void Main(string[] args)
{
// Đường dẫn đến file dữ liệu "data.txt"
// - Đường dẫn tuyệt đối là được dẫn được chỉ định cụ thể: [Ổ đĩa]:\[Thư mục]\[Tên file]
// Ví dụ: D:\DuLieu\data.txt
// - Đường dẫn tương đối được tính từ file .EXE của chương trình
// Ví dụ: data.txt
string filePath = "data.txt";
// Đọc nội dung file và in ra màn hình
Console.WriteLine("Noi dung file \"data.txt\"");
string allText = ReadFile(filePath);
// Tìm và in danh sách các email hợp lệ để gởi mail MARKETING hàng loạt đến người dùng
string contentExtracted = ExtractDataInContent(allText);
// Lưu nội dung được trích xuất ra file
string dataExtractedFilePath = "data_extracted.txt";
WriteFile(dataExtractedFilePath, contentExtracted);
Console.WriteLine("Ket qua trich xuat du lieu duoc luu trong file {0}", dataExtractedFilePath);
// Tạo mẫu pattern từ các BAD WORD trong file
string badWordFilePath = "base-list-of-bad-words_text-file.txt";
string badWordPattern = GeneratePatternFromBadWordFile(badWordFilePath);
// Kiểm tra có BAD WORD không?
int badWordCount = DetectBadWordInContent(allText, badWordPattern);
bool foundBadWord = badWordCount > 0;
Console.WriteLine("Ket qua kiem tra noi dung: {0}", (foundBadWord ? "Phat hien BAD WORD!!!" : "Noi dung OKEY!!!"));
// Loại bỏ BAD WORD trong nội dung (nếu phát hiện được)
if (foundBadWord)
{
Console.WriteLine("So luong tu BAD WORD phat hien duoc: {0}", badWordCount);
string contentChecked = RemoveBadWordInContent(allText, badWordPattern);
string okeyFilePath = "data_checked.txt";
WriteFile(okeyFilePath, contentChecked);
Console.WriteLine("Ket qua kiem duyet noi dung duoc luu trong file {0}", okeyFilePath);
}
// Dừng màn hình chờ nhấn Enter để kết thúc
Console.ReadLine();
}
}
}
[/su_spoiler]
Github
https://github.com/kellyfire611/learning.nentang.vn-csharp/blob/master/src/ReadAndWriteFile/Program.cs
[su_qrcode data="https://github.com/kellyfire611/learning.nentang.vn-csharp/blob/master/src/ReadAndWriteFile/Program.cs" title="Source code trên GITHUB" size="100" margin="0" align="center" link="https://github.com/kellyfire611/learning.nentang.vn-csharp/blob/master/src/ReadAndWriteFile/Program.cs" target="blank" color="#000000" background="#ffffff" class=""]
|