বিনিময়DEX+

ক্রিপ্টো কিনুন মার্কেট স্পট ফিউচার500X আয় করুন ইভেন্ট

আরও

Gold Bar & BTC Giveaway2000g

প্রতারণা শুধুমাত্র একটি বিরক্তি নয়; এটি একটি $১২.৫ বিলিয়ন শিল্প। ২০২৪ সালের এফটিসি তথ্য অনুসারে, প্রতারণার কারণে রিপোর্ট করা ক্ষতি ব্যাপকভাবে বৃদ্ধি পেয়েছে। ঐতিহ্যগত নিয়ম-ভিত্তিক সিস্টেমপ্রতারণা শুধুমাত্র একটি বিরক্তি নয়; এটি একটি $১২.৫ বিলিয়ন শিল্প। ২০২৪ সালের এফটিসি তথ্য অনুসারে, প্রতারণার কারণে রিপোর্ট করা ক্ষতি ব্যাপকভাবে বৃদ্ধি পেয়েছে। ঐতিহ্যগত নিয়ম-ভিত্তিক সিস্টেম

পাইথন, XGBoost, এবং BERT দিয়ে একটি রিয়েল-টাইম AI জালিয়াতি প্রতিরক্ষা সিস্টেম তৈরি করুন

লেখক: Hackernoon

সোর্স: Hackernoon

2025/12/15 04:04

শেয়ার করুন

প্রতারণা শুধুমাত্র একটি বিরক্তিকর বিষয় নয়; এটি একটি $১২.৫ বিলিয়ন শিল্প। ২০২৪ সালের এফটিসি তথ্য অনুসারে, প্রতারণার কারণে রিপোর্ট করা ক্ষতি ব্যাপকভাবে বৃদ্ধি পেয়েছে, যেখানে শুধুমাত্র বিনিয়োগ প্রতারণাই মোট অর্ধেকের কাছাকাছি।

ডেভেলপার এবং সিস্টেম আর্কিটেক্টদের জন্য, চ্যালেঞ্জটি দ্বিমুখী:

লেনদেন প্রতারণা: কাঠামোগত আর্থিক তথ্যে অস্বাভাবিকতা সনাক্তকরণ (কে অর্থ পাঠিয়েছে? কোথায়? কত?)।
যোগাযোগ প্রতারণা (স্প্যাম/ফিশিং): অকাঠামোগত টেক্সটে দুষ্ট উদ্দেশ্য সনাক্তকরণ (এসএমএস লিংক, ইমেইল ফিশিং)।

ঐতিহ্যগত নিয়ম-ভিত্তিক সিস্টেম ("যদি পরিমাণ > $১০,০০০, তাহলে ফ্ল্যাগ করুন") খুব ভঙ্গুর। তারা ভুল পজিটিভ তৈরি করে এবং বিবর্তিত আক্রমণ ভেক্টর মিস করে।

এই ইঞ্জিনিয়ারিং গাইডে, আমরা একটি দ্বি-স্তর প্রতিরক্ষা সিস্টেম তৈরি করব। আমরা লেনদেন নিরীক্ষণের জন্য একটি উচ্চ-গতির XGBoost মডেল এবং স্প্যাম সনাক্তকরণের জন্য একটি BERT-ভিত্তিক NLP ইঞ্জিন বাস্তবায়ন করব, সবকিছু একটি ক্লাউড-নেটিভ মাইক্রোসার্ভিস আর্কিটেকচারে মোড়ানো।

চলুন নির্মাণ করি।

আর্কিটেকচার: রিয়েল-টাইম এবং ক্লাউড-নেটিভ

আমরা এমন একটি ব্যাচ জব তৈরি করছি না যা রাতারাতি চলে। প্রতারণা মিলিসেকেন্ডে ঘটে। আমাদের একটি রিয়েল-টাইম ইনফারেন্স ইঞ্জিন প্রয়োজন।

আমাদের সিস্টেমে দুটি পৃথক পাইপলাইন রয়েছে যা একটি কেন্দ্রীয় সিদ্ধান্ত ইঞ্জিনে ফিড করে।

টেক স্ট্যাক

ভাষা: পাইথন ৩.৯+
কাঠামোগত শিক্ষণ: XGBoost (এক্সট্রিম গ্রেডিয়েন্ট বুস্টিং) এবং র‍্যান্ডম ফরেস্ট।
NLP: হাগিং ফেস ট্রান্সফর্মার (BERT) এবং সাইকিট-লার্ন (নাইভ বেইজ)।
ডেপ্লয়মেন্ট: ডকার, কুবারনেটিস, ফাস্টএপিআই।

পার্ট ১: লেনদেন ডিফেন্ডার (XGBoost)

টেবিলার আর্থিক ডেটা (পরিমাণ, সময়, অবস্থান, ডিভাইস আইডি) নিয়ে কাজ করার সময়, XGBoost বর্তমানে সেরা। আমাদের বেঞ্চমার্কে, এটি ৯৮.২% নির্ভুলতা এবং ৯৭.৬% প্রিসিশন অর্জন করেছে, গতি এবং নির্ভরযোগ্যতা উভয় ক্ষেত্রেই র‍্যান্ডম ফরেস্টকে ছাড়িয়ে গেছে।

চ্যালেঞ্জ: অসমতুল ডেটা

প্রতারণা বিরল। যদি আপনার ১০০,০০০ লেনদেন থাকে, হয়তো মাত্র ৩০টি প্রতারণামূলক। যদি আপনি এই ডেটা দিয়ে একটি মডেল প্রশিক্ষণ দেন, এটি প্রতিবার "বৈধ" অনুমান করবে এবং ৯৯.৯% নির্ভুলতা অর্জন করবে যখন প্রতিটি প্রতারণার ঘটনা মিস করবে।

সমাধান: আমরা প্রশিক্ষণের সময় SMOTE (সিনথেটিক মাইনরিটি ওভার-স্যাম্পলিং টেকনিক) বা ক্লাস ওয়েটিং ব্যবহার করি।

বাস্তবায়ন ব্লুপ্রিন্ট

এখানে লেনদেন স্কোরিংয়ের জন্য XGBoost ক্লাসিফায়ার সেট আপ করার পদ্ধতি।

import xgboost as xgb from sklearn.model_selection import train_test_split from sklearn.metrics import precision_score, recall_score, f1_score import pandas as pd # 1. Load Data (Anonymized Transaction Logs) # Features: Amount, OldBalance, NewBalance, Location_ID, Device_ID, TimeDelta df = pd.read_csv('transactions.csv') X = df.drop(['isFraud'], axis=1) y = df['isFraud'] # 2. Split Data X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 3. Initialize XGBoost # scale_pos_weight is crucial for imbalanced fraud data model = xgb.XGBClassifier( objective='binary:logistic', n_estimators=100, learning_rate=0.1, max_depth=5, scale_pos_weight=10, # Handling class imbalance use_label_encoder=False ) # 4. Train print("Training Fraud Detection Model...") model.fit(X_train, y_train) # 5. Evaluate preds = model.predict(X_test) print(f"Precision: {precision_score(y_test, preds):.4f}") print(f"Recall: {recall_score(y_test, preds):.4f}") print(f"F1 Score: {f1_score(y_test, preds):.4f}")

কেন XGBoost জয়ী:

গতি: এটি ডিপ নিউরাল নেটওয়ার্কের তুলনায় টেবিলার ডেটা উল্লেখযোগ্যভাবে দ্রুত প্রক্রিয়া করে।
স্পারসিটি: এটি অনুপস্থিত মান সুন্দরভাবে হ্যান্ডেল করে (ডিভাইস ফিঙ্গারপ্রিন্টিংয়ে সাধারণ)।
ব্যাখ্যাযোগ্যতা: "ব্ল্যাক বক্স" নিউরাল নেটের বিপরীতে, আমরা কেন একটি লেনদেন ব্লক করা হয়েছিল তা ব্যাখ্যা করতে ফিচার গুরুত্ব আউটপুট করতে পারি।

পার্ট ২: স্প্যাম হান্টার (NLP)

প্রতারণা প্রায়শই একটি লিঙ্ক দিয়ে শুরু হয়। "আপনার KYC আপডেট করতে এখানে ক্লিক করুন।" \n এটি সনাক্ত করতে, আমাদের ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং (NLP) প্রয়োজন।

আমরা নাইভ বেইজ (হালকা, দ্রুত) এবং BERT (ডিপ লার্নিং) তুলনা করেছি।

নাইভ বেইজ: ৯৪.১% নির্ভুলতা। সাধারণ কীওয়ার্ড-স্টাফিং স্প্যামের জন্য ভালো।
BERT: ৯৮.৯% নির্ভুলতা। "প্রাসঙ্গিক" ফিশিংয়ের জন্য প্রয়োজনীয় (যেমন, সামাজিকভাবে প্রকৌশলী ইমেইল যা স্প্যাম মনে হয় না)।

বাস্তবায়ন ব্লুপ্রিন্ট (BERT)

একটি প্রোডাকশন পরিবেশের জন্য, আমরা একটি প্রি-ট্রেইনড ট্রান্সফর্মার মডেল ফাইন-টিউন করি।

from transformers import BertTokenizer, BertForSequenceClassification import torch # 1. Load Pre-trained BERT model_name = "bert-base-uncased" tokenizer = BertTokenizer.from_pretrained(model_name) model = BertForSequenceClassification.from_pretrained(model_name, num_labels=2) def classify_message(text): # 2. Tokenize Input inputs = tokenizer( text, return_tensors="pt", truncation=True, padding=True, max_length=512 ) # 3. Inference with torch.no_grad(): outputs = model(**inputs) # 4. Convert Logits to Probability probabilities = torch.nn.functional.softmax(outputs.logits, dim=-1) spam_score = probabilities[0][1].item() # Score for 'Label 1' (Spam) return spam_score # Usage msg = "Urgent! Your account is locked. Click http://bad-link.com" score = classify_message(msg) if score > 0.9: print(f"BLOCKED: Phishing Detected (Confidence: {score:.2%})")

পার্ট ৩: "হার্ড স্টপ" ওয়ার্কফ্লো

সনাক্তকরণ ব্যবস্থা ছাড়া অর্থহীন। এই আর্কিটেকচারের সবচেয়ে উদ্ভাবনী অংশ হল হস্তক্ষেপ লজিক।

আমরা শুধু প্রতারণা লগ করি না; আমরা ব্যবহারকারীর যাত্রা বাধাগ্রস্ত করি।

ওয়ার্কফ্লো:

ব্যবহারকারী এসএমএস পায়: "পেমেন্ট পদ্ধতি আপডেট করুন।"
ব্যবহারকারী ক্লিক করে: ক্লিকটি আমাদের মাইক্রোসার্ভিসের মাধ্যমে রাউট করা হয়।
রিয়েল-টাইম স্ক্যান: URL এবং বার্তার বিষয়বস্তু BERT মডেল দ্বারা স্কোর করা হয়।
সিদ্ধান্ত পয়েন্ট:

নিরাপদ: ব্যবহারকারীকে আসল পেমেন্ট গেটওয়েতে রিডাইরেক্ট করা হয়।
প্রতারণা: একটি "হার্ড স্টপ" সতর্কতা পপ আপ হয়।

নোট: স্ট্যান্ডার্ড ইমেইল ফিল্টারের বিপরীতে যা আইটেমগুলিকে জাঙ্ক ফোল্ডারে সরিয়ে দেয়, এই সিস্টেমটি ক্লিক এবং গন্তব্যের মধ্যে বসে, ব্যবহারকারীকে কখনও দূষিত পেলোড লোড করা থেকে বাধা দেয়।

মূল মেট্রিক্স

যখন এটি প্রোডাকশনে ডেপ্লয় করা হয়, "নির্ভুলতা" একটি অহংকারের মেট্রিক। আপনাকে প্রিসিশন এবং রিকল দেখতে হবে।

ফলস পজিটিভ (প্রিসিশন কমে): আপনি একজন বৈধ ব্যবহারকারীকে কফি কেনা থেকে ব্লক করেন। তারা রাগান্বিত হয় এবং আপনার অ্যাপ ব্যবহার করা বন্ধ করে দেয়।
ফলস নেগেটিভ (রিকল কমে): আপনি একজন হ্যাকারকে একটি অ্যাকাউন্ট খালি করতে দেন। আপনি অর্থ এবং সুনাম হারান।

আমাদের গবেষণায়, XGBoost সেরা ভারসাম্য প্রদান করেছে:

নির্ভুলতা: ৯৮.২%
রিকল: ৯৫.৩% (এটি সমস্ত প্রতারণার ৯৫% ধরেছে)।
লেটেন্সি: রিয়েল-টাইম ব্লকিংয়ের জন্য উপযুক্ত দ্রুত ইনফারেন্স।

উপসংহার

ম্যানুয়াল প্রতারণা পর্যালোচনার যুগ শেষ। লেনদেনের পরিমাণ বিস্ফোরিত হওয়ার সাথে, একমাত্র স্কেলেবল প্রতিরক্ষা হল AI।

কাঠামোগত লেনদেন ডেটার জন্য XGBoost এবং অকাঠামোগত যোগাযোগ ডেটার জন্য BERT সংযুক্ত করে, আমরা একটি শক্তিশালী ঢাল তৈরি করি যা ব্যবহারকারীদের শুধুমাত্র আর্থিক ক্ষতি থেকে নয়, বরং এর আগে ঘটে যাওয়া সামাজিক প্রকৌশল থেকেও রক্ষা করে।

ডেভেলপারদের জন্য পরবর্তী পদক্ষেপ:

কন্টেইনারাইজ: উপরের পাইথন স্ক্রিপ্টগুলি ডকারে মোড়ান।
API এক্সপোজ: একটি /predict এন্ডপয়েন্ট তৈরি করতে FastAPI ব্যবহার করুন।
ডেপ্লয়: অটো-স্কেলিং ক্ষমতার জন্য কুবারনেটিসে (EKS/GKE) পুশ করুন।

\ \

মার্কেটের সুযোগ

RealLink প্রাইস(REAL)

$0.07346

$0.07346$0.07346

-0.47%

USD

RealLink (REAL) লাইভ প্রাইস চার্ট

ডিসক্লেইমার: এই সাইটে পুনঃপ্রকাশিত নিবন্ধগুলো সর্বসাধারণের জন্য উন্মুক্ত প্ল্যাটফর্ম থেকে সংগ্রহ করা হয়েছে এবং শুধুমাত্র তথ্যের উদ্দেশ্যে প্রদান করা হয়েছে। এগুলো আবশ্যিকভাবে MEXC-এর মতামতকে প্রতিফলিত করে না। সমস্ত অধিকার মূল লেখকদের কাছে সংরক্ষিত রয়েছে। আপনি যদি মনে করেন কোনো কনটেন্ট তৃতীয় পক্ষের অধিকার লঙ্ঘন করেছে, তাহলে অনুগ্রহ করে অপসারণের জন্য service@support.mexc.com এ যোগাযোগ করুন। MEXC কনটেন্টের সঠিকতা, সম্পূর্ণতা বা সময়োপযোগিতা সম্পর্কে কোনো গ্যারান্টি দেয় না এবং প্রদত্ত তথ্যের ভিত্তিতে নেওয়া কোনো পদক্ষেপের জন্য দায়ী নয়। এই কনটেন্ট কোনো আর্থিক, আইনগত বা অন্যান্য পেশাদার পরামর্শ নয় এবং এটি MEXC-এর সুপারিশ বা সমর্থন হিসেবে গণ্য করা উচিত নয়।