در گذشته راه حل از بین بردن صفحات تکراری در موتور های جستجو، ریدایرکت (از نوع 301) کردن آن ها به یک آدرس ثابت بود، مثلا در مورد www در اول آدرس ها توصیه می شد آدرس سایت/وبلاگ را بر روی www یا بدون www قفل کنید . اما قابلیت نسبتا جدید تری که در این مقاله قصد دارم در مورد آن صحبت کنم، Canonical Url Tag است که خوشبختانه بر روی 3 موتور جستجوی google، yahoo و bing پشتیبانی می شود.
اما Canonical Url چیست؟
Canonical url در واقع آدرسی است که به صفحه ی مرجع خود اشاره می کند، این آدرس توسط تگ link در header صفحه ی تکراری قرار می گیرد(در تگ head)، همانند زیر:
{moscode lang="html4strict"}
{/moscode}
این تگ توسط خصوصیت rel=”canonical” برای موتور های جستجو متمایز می شود و زمانی که ربات موتور جستجو به صفحه ای می رسد که داری این تگ هست، با آن به عنوان یک صفحه ی کپی برخورد می کند و کلیه ی محتوا و رنک آن را به حساب آدرس ذکر شده قرار می دهد. برای درک بهتر به تصویر زیر توجه کنید:
همانطور که مشاهده می کنید پارامتر color=blue در آدرس بالا، یک صفحه ی تکراری ایجاد می کند که به وسیله ی canonical url tag ربات موتور جستجو به آدرس دوم هدایت می شود، در واقع چیزی شبیه به 301 ریدایرکت را نیز در اینجا نیز داریم اما فقط برای موتور های جستجو.
به صورت کلی سه تفاوت عمده بین این دو وجود دارد:
* 301 ریدایرکت کلیه ی ترافیک های یک صفحه، اعم از کاربر عادی و یا ربات ها را به صفحه ی مقصد هدایت می کند، در حالی که canonical url تنها برای موتور های جستجو است.
* در canonical url موتور جستجو تصمیم گیرنده ی این است که صفحه را ریدایرکت کند یا خیر و این مورد بر اساس برخی پارامتر ها مورد ارزیابی قرار می گیرد تا اگر اشتباها این تگ در صفحه ای قرار گرفت، از ریدایرکت آن جلوگیری شود. اما در 301 ریدایرکت ارزیابی خاصی بر روی آن صورت نمی گیرد و مستقیما ریدایرکت انجام می شود.
* 301 ریدایرکت به صورت cross domain عمل می کند، یعنی امکان ریدایرکت از یک دومین به دومین دیگر هم وجود دارد، در حالی که canonical تنها مربوط به همان دومین هست (بعلاوه ی ساب دومین های همان دومین).
اما برخی نکات رو هم از زبان خود سه موتور جستجو ی یاهو، گوگل و بینگ بخوانید:
from Google:
Is rel="canonical" a hint or a directive? It's a hint that we honor strongly. We'll take your preference into account, in conjunction with other signals, when calculating the most relevant page to display in search results.
Can I use a relative path to specify the canonical, such as ? Yes, relative paths are recognized as expected with the tag. Also, if you include a link in your document, relative paths will resolve according to the base URL.
Is it okay if the canonical is not an exact duplicate of the content? We allow slight differences, e.g., in the sort order of a table of products. We also recognize that we may crawl the canonical and the duplicate pages at different points in time, so we may occasionally see different versions of your content. All of that is okay with us.
What if the rel="canonical" returns a 404? We'll continue to index your content and use a heuristic to find a canonical, but we recommend that you specify existent URLs as canonicals.
What if the rel="canonical" hasn't yet been indexed? Like all public content on the web, we strive to discover and crawl a designated canonical URL quickly. As soon as we index it, we'll immediately reconsider the rel="canonical" hint.
Can rel="canonical" be a redirect? Yes, you can specify a URL that redirects as a canonical URL. Google will then process the redirect as usual and try to index it.
What if I have contradictory rel="canonical" designations? Our algorithm is lenient: We can follow canonical chains, but we strongly recommend that you update links to point to a single canonical page to ensure optimal canonicalization results.
from Yahoo!:
and from Live/MSN:
این سامانه با تلاشهای بیوقفه تیم ۴۰ نفره شرکت پارسیجو در مرکز تحقیقات مهندسی دانشگاه یزد با حمایت پژوهشگاه ارتباطلات و فناوری اطلاعات پیاده سازی شده و با صرف حداقل هزینه و تجهیزات به رشد و توسعه خود ادامه میدهد. در حال حاضر موتور پارسیجو بر روی یک بستر توزیع شده شامل ۳۰ سیستم اجرا میشود و تاکنون در حدود ۲۰۰ میلیون صفحه فارسی (از ۵۰۰ میلیون سند) را نمایهسازی نموده است. همچنین این سامانه مجهز به پردازشگر و خطایاب هوشمند فارسی میباشد.
تاریخچه موتورجستجوی پارسیجو
فاز تحقیقاتی پروژه در شهریور ۱۳۸۷ شروع شده و طراحی و پیاده سازی پارسیجو در مهر ۱۳۸۸ آغاز گردید و نسخه ۱ در ۲۸ اردیبهشت ۱۳۸۹ با پوشش یک میلیون صفحه روی وب قرار گرفت. هم اکنون نسخه ۳ پارسی جو با پوشش دویست میلیون صفحه روی وب قرار دارد.
معماری پارسیجو
پارسیجو موتور جستجویی مستقل و بومی است که شامل سه بخش اصلی میباشد.
الف) خزشگر (crawler) :
خزشگر پارسیجو که Parsijoo نام دارد به صورت هوشمند وب را پیمایش نموده و صفحات را جمع آوری میکند. در حال حاضر خزشگر پارسیجو، قادر به خزش دویست میلیون صفحه وب به صورت متوالی میباشد. نسخه جدید آن که بزودی بر روی وب قرار میگیرد قادر است بیش از یک میلیارد صفحه وب را جمعآوری کند. در این بخش اسناد وب فارسی با یک سیاست مناسب بر مبنای پوشش و تازگی از وب جمعآوری میشوند. یکی از مباحث مهم این بخش کشف صفحات مهم فارسی میشود که این عمل با استفاده از الگوریتم جدید هوشمند به نام ایساتیس انجام میگیرد. روش ایساتیس که توسط طراحان پارسی جو ارائه شده است صفحات مهم فارسی را کشف کرده و سپس بارگذاری میکند. همچنین این الگوریتم قادر به تشخیص صفحات فرب آمیز (اسپم) میباشد.
ب) نمایه ساز:
در این بخش متن خالص از اسناد فارسی (مانند HTML، DOC و PDF) بارگذاری شده، توسط خزشگر استخراج شده و با توجه به خصوصیات زبان فارسی نرمال سازی شده و سپس عمل نمایه سازی انجام میگیرد. در این بخش از یک پردازشگر فارسی برای پردازش کلمات و عبارات فارسی استفاده میشود که این پردازشگر قادر است عملیات فاصله گذاری و یکسان سازی کدینگهای استفاده شده را انجام دهد. همچنین تصاویر و بقیه اسناد در این بخش پردازش میشوند. کل این مجموعه عملیات بر روی یک بستر توزیع شده اجرا میگردد.
ج) بخش بازیابی و جستجو:
این بخش که به صورت برخط عمل می کند و با کاربر در ارتباط است، در ابتدا پرسجو را از کاربر گرفته و پس از پردازش آن، اسناد مرتبط را از بخش نمایهساز بازیابی میکند. در نهایت اسناد با استفاده از روشهای هوشمند رتبه بندی جدید که به صفحات فریب آمیز (اسپم) حساسیت پایینی دارند، رتبهبندی گردیده و به کاربر ارائه می شوند. الگوریتم رتبه بندی ارائه شده بیش از ۵۰ ویژگی سایت های فارسی را با هم به صورت هوشمند ترکیب میکند تا نتایج ارائه شده مورد رضایت کاربران باشد. این الگوریتم نوین توسط تیم پارسیجو طراحی و ارائه شده است. همچنین پردازشگر پرسوجوی این بخش قادر است عملیات یکسان سازی کدینگها، ریخت شناسی صرفی و خطایابی را انجام دهد.
خدمات پارسی جو
۱) وب:
این خدمت در بین ۲۰۰ میلیون صفحه فارسی جستجو میکند. با توجه به اینکه صفحات وب از طریق گذرگاه رسمی شبکه کشور دریافت شدهاند، دارای محتویات امن و مطمئن میباشند. بزودی، نسخه جدیدی از پارسیجو به بهرهبرداری میرسد که امکان جستجو در بیش از ۵۰۰ میلیون صفحه وب فارسی و در زمانی بسیار کوتاهتر را فراهم میسازد و در ضمن، کیفیت صفحات انتخابی نیز از نظر ارزش اطلاعاتی و رتبهبندی بهبود قابل توجهی یافته است.
۲) تصویر:
این خدمت در بین میلیون ها تصویر جستجو میکند. این تصاویر عمدتاً از صفحات وب فارسی استخراج شدهاند و همانند جستجوی وب، سرویس جستجوی تصویر نیز تا حد امکان دارای محتویات امن و مطمئن میباشد. بزودی، پارسیجو قادر به جستجو در بیش از یکصد میلیون عکس موجود در وب خواهد بود.
۳) خبر:
این سرویس به صورت هوشمند بیش از پنجاه سایت خبرگزاری را دستهبندی کرده و در اختیار کاربران قرار میدهد.
۴) ترجمه ماشینی:
این سرویس قابلیت ترجمه دو زبانه متن از فارسی به انگلیسی، انگلیسی به فارسی و پینگلیش به فارسی به همراه فرهنگ لغت انگلیسی به فارسی را دارا میباشد . نسخه آزمایشی این سرویس به صورت روزانه در حال بهبود و بروزرسانی میباشد. خدمت ترجمه مبتنی بر روش ترجمه ماشینی هوشمند آماری عمل کرده و از ترجمه ماشینی ترگمان که توسط دانشگاه صنعتی امیرکبیر پیادسازی شده است، استفاده میکند.
۵) آوا:
سرویس آوا با امکان جستجو،دانلود و پخش صوت و موسیقی در حجم انبوهی از فایلهای صوتی موجود در سطح وب فارسی را در اختیار کاربران قرار میدهد.
۶) علمی:
این خدمت در بین یک میلیون مقاله انگلیسی و فارسی جستجو میکند. بزودی تعداد مقالات تحت پوشش چند برابر خواهد شد.
گفتنی است نسخه موبایل پارسیجو نیز به بهرهبرداری رسیده است و تمام سرویسهای فوق به راحتی با استفاده از گوشیهای هوشمند تلفن همراه در دسترس میباشند.
تیم پارسیجو به صورت شبانهروزی در حال تحقیق و فعالیت برای بهبود و ارتقاء این موتور جستجو میباشد و در آیندهای نزدیک شاهد بهرهبرداری از سرویسهای جدیدی خواهیم بود.
کاربر گرامی، دلگرمی ناشی از استفاده شما از پارسی جو، هر روز باعث افزایش کیفیت آن و ارائه خدمات بیشتر میشود. خواهشمند است با ارسال نظرات خود در بخش بازخورد، ما را در بهبود این سامانه یاری نمایید.
این برنامه شامل احادیث حضرت محمد(ص) به همراه داستان و قابلیت جستجو در احادیث و ارسال آنهاست.
این برنامه شامل احادیث حضرت محمد به همراه داستان و قابلیت جستجو در احادیث و ارسال آنهاست در ضمن احادیث دسته بندی شده و از کتاب های مختلف همچون صالحین،آل بخارا و…. گرفته شده است که برای سیمبیان S60v5 طراحی شده است.
فکر می کنید کدام ستاره سینمای ایران بیش از بقیه نامش سرچ شده است؟ مهمترین لینک درباره او چیست؟ اگر یک «و» به اسمش اضافه کنید، چه نتیجه ای دارد؟ چه عبارت هایی بیش از همه درباره هر یک سرچ شده است و بامزه ترین جستجو با رقم بالا که در ده تای اول جستجو درباره یک چهره وجود دارد، چه عبارتی است؟
در میان ستاره ها، نام 20 نفر را انتخاب کرده ایم و به همه این سوالات پاسخ داده ایم و در نهایت محبوب ترین ستاره سینمای ایرانی در فضای جستجوی اینترنتی را کشف کرده ایم. بابت همراهی صمیمانه از گوگل عزیز متشکریم!