تبليغاتX
آخرين منجي - سرويس اخبار شبکه علمی کشور
مقدمه
در سالهاي پيشين روزنامه‌ها و رسانه‌هايي مانند راديو و تلويزيون منبع اصلي پخش اخبار در جوامع مختلف و دنيا بوده است. اما امروزه، با توجه به نيازجوامع به دسترسي به همه اخبار در کوتاه‌ترين زمان ممکن، شبکه جهاني اينترنت مبدل به مهمترين منبع دستيابي به اخبار در سراسر جهان شده است. طولاني بودن فواصل انتشار روزنامه‌ها و محدوديت زماني در رسانه‌هايي مانند تلوزيون و عدم توانايي آنان در ارائه تمامي اخبار روزانه باعث شده که اين رسانه‌ها نتوانند با اينترنت به عنوان يک ابزار اطلاع رساني کامل برای مصرف کنندگان خبر رقابت کنند.
اما مشکل اينترنت در امر اطلاع رساني، پراکندگي اطلاعات موجود در شبکه جهاني است. اگرچه تمامي اطلاعات و اخبار موجود در اينترنت از طريق يک پايانه قابل دسترسي هستند، اما پراکندگي اطلاعات در سايتهاي مختلف که تعداد آنها بسيار زياد است، امکان زير نظر داشتن تمامي اخبار انتشار يافته از مراکز پخش خبر را عملاً غير ممکن ميسازد. با توجه به اين نکته، ايجاد يک مرکز تجمع جهت ارائه تمامي اخبار منتشره از سوي خبرگزاريها ، روزنامه‌ و منابع مختلف از اهميتي خاص برخوردار مي‌شود. سرويس اخبار ارائه شده در شبکه علمي کشور با توجه به اين نکات طراحي شده است. اين سرويس با جمع‌آوري اخبار از منابع مختلف خبري و ارائه آن از طريق يک سايت واحد اين امکان را فراهم مي‌سازد تا کاربران بتوانند از طريق يک نقطه به تمامي اخبار و اطلاعات خبري منتشره از منابع مختلف دسترسي داشته باشند.

سايت‌هاي خبري
اغلب خبرگزاريها و رسانه‌های عمومی اقدام به انتشار اخبار از طريق سايت‌هاي خود مي‌کنند. مي‌توان گفت که سايت‌هاي خبري در کنار وبلاگها، نمونه‌هاي پرکاربرد دسته‌اي از نرم‌افزارهای توليد محتوا در اينترنت موسوم به Content Manager مي‌باشند. پروتکل‌هايي برای انتشار اخبار به صورت Web Service وجود دارد که مي‌توانند مورد استفاده نرم ‌افزارها و سيستم‌هاي خودکار قرار گيرد. از جمله اين پروتکل‌های مي‌توان به RSS، RDF ، Atom و NNTP اشاره کرد که سه پروتکل اول نسخه‌هاي خاصي از زبان داده‌اي XML مي‌باشند. برخي از Content Managerها توانايي ارائه Web Service به صورت خودکار را دارند که اين سرويس‌ها مي‌توانند مورد استفاده ساير نرم‌افزارها قرار گيرند و برخي از سايت‌ها(از جمله بيشتر سايتهاي خبری موجود به زبان فارسي) نيز از ارائه اين خدمات امتناع مي‌کنند.

Crawler اخبار
Crawler يا خزنده به دسته‌اي از نرم‌افزارها گفته مي‌شود که با واکشي صفحات وب مي‌تواند داده‌هايي از آنها را استخراج کرده و جهت پردازش‌هاي بعدي آماده کند. از اين تکنيک مي‌توان در جهت واکشي و ذخيره سازي اخبار از منابع مختلف و ارائه آنها از طريق يک سايت واحد استفاده کرد. با اين ديدگاه Crawler طراحي شده قادر است با استفاده از الگوهاي تعريف شده براي هر سايت خبري ، در فواصل زماني تعيين شده به سايت خبري مورد نظر مراجعه کرده و اخبار جديد را استخراج نمايد.

مشخصات سيستم طراحي شده
Crawler طراحي شده به منظور واکشي اخبار در قالب دو زير سيستم پياده سازي شده و زير سيستم سوم، جهت واکشي Content اخبار نيز در مراحل پاياني پياده سازي قرار دارد. اين زيرسيستم‌ها براي محيط سيستم عامل ويندوز با زبان برنامه سازي دلفي پياده سازی شده است و از Mysql به عنوان موتور بانک اطلاعاتي استفاده مي‌کند.

.:. RSS Builder
زير سيستم اول مورد استفاده در اين سيستم ، نرم افزار RSS Builder است. اين نرم‌افزار هوشمند با دريافت آدرس صفحات سايتهاي خبري و روزنامه‌ها و همچنين ، Pattern توصيف کننده بخش‌هاي مختلف سايت مذکور و با اعمال الگوريتم‌هاي مکاشفه‌اي (heuristic) برروي داده‌هاي متني اطلاعات موجود در صفحات را در قالب رشته‌هاي تطبيق پذير با الگوهاي تعريف شده استخراج مي‌کند و در قالب استاندارد RSS ذخيره مي‌کند. داده‌هاي تبديل شده به RSS در اين نرم افزار به طور مستقل به عنوان يک سرويس جانبي قابل ارائه است. همچنين اين نرم‌افزار از يک الگوريتم هوشمند پردازش زمان بهره مي‌برد که قادر است اطلاعات مربوط به زمان انتشار مطالب را در قالب‌ها ، فرمت‌ها و تقويم‌هاي مختلف (هجري شمسي، ميلادي و GMT هاي مختلف زماني) استخراج کرده و به تقويم و زمان مبدا تعريف شده در آن (هجري شمسي، تهران) تبديل کند.
از جمله توانايي‌هاي ديگر اين نرم افزار توليد آدرس‌هاي ديناميک Content Manger ها مي‌باشد. برخي از سايتها از جمله روزنامه‌ها از آدرس‌هاي ديناميک براي انتشار محتويات خود استفاده مي‌کنند که اين امر موجب ناممکن شدن پردازش اين گونه از سايتها توسط Crawler هاي متعارف مي‌گردد. اما با فراهم آوردن امکان توصيف الگو مورد استفاده در آدرس ديناميک اين‌گونه از سايتها با ايجاد يکScript Language خاص اين‌گونه از آدرس‌ها، امکان پردازش اين دسته از سايت‌ها توسط اين Crawler فراهم آمده است.

.:. News Feeder
زير سيستم دوم مورد استفاده در اين سيستم، نرم افزار News Feeder است. اين نرم افزار قادر است با دريافت آدرس RSS Feederهاي دور و يا نزديک و با مراجعه ادواري به آنها ، محتواي اطلاعاتي آنها را دريافت و در بانک اطلاعاتي محلي ذخيره کند. از آنجايي که در بسياري از موارد سايت‌هاي خبري فارسي اطلاعات خود را در قالب پروتکلهاي مرسوم ارائه نمي‌دهند و يا اطلاعات ارائه شده در Web Service هاي آنها ناکافي و بعضاً داراي اشتباهات گرامري است ، در سيستم فعلي نرم افزار News Feeder اغلب اطلاعات را از زير سيستم اول دريافت مي‌کند تا سايتهاي ارائه دهنده اخبار. اين نرم افزار در حال حاضر پروتکل‌هاي RSS v1.0 ، RSS v2.0 و RDF را پشتيباني مي‌کند.

.:. Content Fetcher
زير سيستم در حال پياده سازي Content Fetcher نرم افزار مستقلي است که با دريافت آدرس هاي اينترنتي از يک بانک اطلاعاتي و در اختيار داشتن الگوهاي تعريف شده براي هر سايت خبري ، محتواي اطلاعاتي آنها را استخراج کرده و مجدداً در بانک اطلاعاتي ذخيره مي‌کند. توجه به اين نکته ضروري است که صفحات توليد شده توسط Content Manager ها ممکن است به دو صورت محتواي اطلاعات را در اختيار بگذارند. در برخي موارد (مانند سايت‌هاي روزنامه‌ها) عنوان و محتواي اخبار در قالب يک صفحه واحد ارائه مي‌شوند که در اين حالت نرم افزار RSS Builder با ارائه Pattern مناسب قادر به استخراج مستقيم محتواي اطلاعات مي‌باشد. در حالت ديگر، سايت‌هاي خبري ممکن است در صفحات خود عنوان و آدرس خبر را ارائه دهند و در محتواي اخبار از طريق آن آدرس، در اختيار قرار گيرد. در اين حالت نرم‌افزارContent Fetcher مي‌تواند با دريافت آدرس‌ها از يک بانک اطلاعاتی و الگوهاي مرتبط ، محتواي اخبار را استخراج کند. با توجه به تعداد زياد اخبار منتشره از سوي منابع مختلف، لازم است که واکشي و ذخيره سازي محتويات خبري به صورت موازي انجام شود.به اين لحاظ الگوريتم طراحي شده در اين زير سيستم الزاماً بايد از روش‌هاي موازي سازي استفاده کند.

WEB Interface
اينترفيس ايجاد شده برای News Crawler شبکه علمی کشور، يک وب سايت ساده و کم حجم در آدرس http://akhbar.iranscience.net ميباشد. در صفحه اصلی اين سايت، آخرين 10 خبر دريافتی براساس طبقه بنديهای مختلف گنجانده شده است. در منوی اصلی سايت، دسته بندی موضوعی اخبار قرار دارد که با کليک بر روی هر موضوع، آخرين 200 خبر در ارتباط با آن موضوع در دو صفحه برای کاربر نمايش داده می شود. بدليل بروزرسانی مداوم اطلاعات کليه صفحات سايت بطور خودکار و هر 5 دقيقه يکبار بهنگام (Refresh) می شوند. همچنين برای دسترسی به اخبار يک مرکز خاص اعم از خبرگزاری، روزنامه و يا سايت اطلاع رسانی، اخبار هريک از اين مراکز به تفکيک و از طريق کليک بر نام آنها قابل دستيابی ميباشد.
علاوه بر اين جهت جلوگيری از اتلاف وقت کاربر و نيز دسترسی به اخبار آرشيوی، امکان جستجو در عناوين خبری نيز در اين سايت قرار داده شده است. اين سايت با تکنولوژی PHP پياده سازی شده است و دو سرور (يکی ويندوزی و ديگری لينوکسی) جهت راه اندازی آن بکار گرفته شده است.

سايت‌هاي تحت پوشش
در حال حاضر اخبار از 22 منبع خبري شامل 16 خبرگزاري و سايت خبري و 6 روزنامه توسط Crawler طراحي شده، واکشي مي‌شوند. با استخراج الگوهاي بيشتر از سايتهاي خبري بزودي سايتهاي تحت پوشش اين پروژه افزايش مي‌يابد. در عين حال با ارتقاء زير سيستم‌هايRSS Builder و News Feeder به الگوريتم‌هاي پردازش موازي امکان کاهش بازه‌هاي زماني رجوع به منابع بوجود خواهد آمد. سايتهاي تحت پوشش اين پروژه در حال حاضر عبارتند از :

خبرگزاريها

خبرگزاری دانشجويان ايران (ايسنا) http://isna.ir
خبرگزاری جمهوری اسلامی ايران (ايرنا) http://www.irna.ir
خبرگزاری فناوری اطلاعات (ايتنا) http://www.itna.ir
خبرگزاری کار ايران (ايلنا) http://www.ilna.ir
خبرگزاری ورزشی ايران(ايپنا) http://www.ipna. info
خبرگزاری جامعه جوانان ايرانی (سينا) http://syna.ir
خبرگزاری موج http://www.mojnews.com
خبرگزاری بازتاب http://www.baztab.com
خبرگزاری فارس http://www.farsnews.com
خبرگزاری مهر http://www.mehrnews.com
خبرگزاری شريف http://sharifnews.com
واحد مرکزی خبر http://www.iribnews.ir


سايتهای خبری

سايت خبری آی تی ايران http://itiran.com
سايت خبری همکاران سيستم http://www.systemgroup.net
سايت خبری باشگاه خبرنگاران جوان http://www.yjconline.com
سايت خبری شبكه فن‌آوري اطلاعات ايران http://www.iritn.com


مطبوعات

روزنامه ايران http://www.iraninstitute.com
روزنامه شرق http://www.sharghnewspaper.com
روزنامه همشهری http://www.hamshahri.org
روزنامه جام جم http://www.jamejamdaily.com
روزنامه هموطن سلام http://www.hamvatansalam.com
روزنامه عصر ارتباط http://www.ictnews.ir
+ نوشته شده توسط مهندس م ح شايق در پنجشنبه 12 اردیبهشت1387 و ساعت 12:6 |